gonzo-обзоры ML статей
24K subscribers
2.82K photos
2 videos
3 files
1.4K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from КПД
Matryoshka Quantization
[Статья]
[Код есть, но мы вам его не покажем]

Введение

Большинство методов квантизации готовят модель в некоторой заданной битности, и, если хочется иметь квантизованные модели разной степени сжатия, приходится прогонять алгоритм несколько раз и хранить где—то всю полученную пачку.

Команда из Глубокого Разума 🧠 на днях выкатила статейку по квантизации с примечательным названием Matryoshka Quantization 🪆, которая за один присест готовит квантизованные модельки в 2,4 и 8 бит.

Примечательно, что один из авторов, Kusupati, ранее публиковал другую работу про матрешки — Matryoshka Representation Learning.
❤‍🔥192
Forwarded from КПД
Метод

MatQuant по постановке ,поверх оптимизируемых методов квантизации, с обучаемыми непрерывными или дискретными параметрами.

Основная идея работы в том, что для целочисленных типов данных отстругивая младшие биты от представления с максимальной бытностью, возможно получать приближения разной точности, вложенные друг в друга, как матрешка.

Но если просто огрублять, скажем , int8 квантизацию, работает не очень, поэтому предлагается совместно оптимизировать разные битности одновременно в одном батче с разными весами.

MatQuant применяют поверх OmniQuant, в котором оптимизируются скейлы и biasы в квантизации через поблочную дистилляцию, и QAT, которая суть просто обучение (с кроссэнтропийным лоссом) с STE через недифференцируемую операцию квантизации.

Эксперименты

Метод валидируют преимущественно на Gemma 2 (2b и 9b) моделях и Мистрале 7b. Полагаю, что 🦙 и Квены не рассматривают из политических соображений (негоже поганых парнокопытных от Меты лапать, как и китайскую продукцию).

OmniQuant оптимизируют на 10, 20M токенах из C4, QAT на 100 M токенах. Причем в большинстве экспериментов квантизуют только FFN.

Качество оценивают по перплексии и 0—shots на lm-eval.

Наивное стругание из высокой битности работает сильно плохо на 2 битах, оптимизация под конкретную битность получше (когда храним много моделей), но все равно не очень, предложенный подход еще чуть получше.

Просадки довольно значительные — 13, 15% для 2b, 6-12% для 9b Gemma 2 модели. Если бы квантизовались все слои, 2 бита были бы Парето—оптимальными (ибо точность квантизованной 9b модели равна несжатой 2b), но, увы, нет.

Полагаю, что подобный результат можно выжать более дешевыми QuIP (без решетки) и 1—мерным HIGGS, как и EfficientQAT.

В ablation показывают, что совместная оптимизация в разными битностями накидывает немного в качестве. Веса лоссов при разных битностых перебирают по сетке.

При квантизации Attention слоев метод тоже лучше бейзлайнов, но просадки становятся еще значительнее с 74 до 47% (остальные методы работают чуть лучше рандома в 2 битах).

Выводы

Название работы красивое, и мотивация хорошая — но результаты все же не слишком впечатляют. Также утверждение, что они первые, кто об этом задумался, не соответствует действительности — была такая работа Any Precision LLM (Oral прошлого ICLR), где разные битности получали через SqueezeLLM. Кроме того, вложенные представления разной точности можно получать через Residual Quantization.
9👍2🔥1
Grok 3 анонсируют сегодня ночью, но я предпочту узнать про это из утренних газет.
👍16
This media is not supported in your browser
VIEW IN TELEGRAM
🔥95😈2
Любопытные факты про Grok 3, который собрал Алекса Гордич в своём посте.

Surprising details about the Grok-3 release:

* Their current cluster already has 200k H100s/H200s. They initially reached out to datacenter facilities to ask how long for them to build them a 100k cluster and the timelines were 12-24 months, which was too slow, Elon said they'd definitely lose if they went that route.

So they found an abandoned factory in Memphis, an empty shell, and built custom electrical / cooling systems, using portable generators, Tesla packs to smoothen out the power spikes (due to the fact they're using synchronous gradient updates), etc.

It took them ~122 days to build the whole thing e2e with 100k H100s. And additional ~90 days to add 100k more. No one has ever done something like this.

* Elon announced they're building a new ~1.2 GW cluster of GB200s/GB300s - this is OOM larger than any other datacenter in the world, and their current datacenter is already the largest single cluster in the world.

* Igor said that while they were running Grok-3, AI engineers used to go to the cluster physically and plug off a node to make sure the run is robust to such pertrubations -> this is one of the things Elon does great, reduces barriers between designers/engineers, engineers/datacenter technicians, etc.

* Grok-3 is the first model to pass 1400 score on the arena :O

The scary obvious thing here is that due to the culture the team has, Elon's capability to attract capital and talent, and the rate of progress, I don't think anyone will be able to compete with them.

* They said they'll open-source Grok-2 as soon as Grok-3 is stable, in a few months. And they plan to keep that strategy going forward, open-sourcing last generation but still managing to stay competitive. They hide the chain of thought the same way OpenAI did.

Original video here: https://x.com/elonmusk/status/1891700271438233931
15👍11🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
👍7😁2
Вслед за Гуглом с Willow (https://t.me/gonzo_ML/3078), в квантовых компьютерах активничает Microsoft.

Сегодня они анонсировали Majorana 1 (Этторе Майорану мы любим!), квантовый процессор на топологических кубитах. Microsoft рассчитывает отскейлить квантовые компьютеры на этой технологии.

Сатья Надела интересно написал:

A couple reflections on the quantum computing breakthrough we just announced...

Most of us grew up learning there are three main types of matter that matter: solid, liquid, and gas. Today, that changed.

After a nearly 20 year pursuit, we’ve created an entirely new state of matter, unlocked by a new class of materials, topoconductors, that enable a fundamental leap in computing.

It powers Majorana 1, the first quantum processing unit built on a topological core.

We believe this breakthrough will allow us to create a truly meaningful quantum computer not in decades, as some have predicted, but in years.

The qubits created with topoconductors are faster, more reliable, and smaller.

They are 1/100th of a millimeter, meaning we now have a clear path to a million-qubit processor.

Imagine a chip that can fit in the palm of your hand yet is capable of solving problems that even all the computers on Earth today combined could not!

Sometimes researchers have to work on things for decades to make progress possible.

It takes patience and persistence to have big impact in the world.

And I am glad we get the opportunity to do just that at Microsoft.

This is our focus: When productivity rises, economies grow faster, benefiting every sector and every corner of the globe.

It’s not about hyping tech; it’s about building technology that truly serves the world.



Ссылки в тему:
* https://news.microsoft.com/source/features/ai/microsofts-majorana-1-chip-carves-new-path-for-quantum-computing/
* https://azure.microsoft.com/en-us/blog/quantum/2025/02/19/microsoft-unveils-majorana-1-the-worlds-first-quantum-processor-powered-by-topological-qubits/
* https://arxiv.org/abs/2502.12252

Пора, кажется, уже учить квантовые алгоритмы, явно назревает что-то.
🔥174👍4🤔2
🔥19🥰42
DeepMind опубликовали большой плейбук по скейлингу трансформеров на TPU (https://t.me/gonzo_ML/3365), а HuggingFace выложил похожее про GPU.

The Ultra-Scale Playbook: Training LLMs on GPU Clusters
https://huggingface.co/spaces/nanotron/ultrascale-playbook
19👍7
Sakana.ai (1, 2) продолжает придумывать что-то прикольное.

Агентная система для генерации оптимизированных CUDA кернелов
https://sakana.ai/ai-cuda-engineer/

Внутрь статьи пока не забуривался, но выглядит прикольно.
👍11
🤯10🥰2🔥1👀1
Generative Agent Simulations of 1,000 People
Joon Sung Park, Carolyn Q. Zou, Aaron Shaw, Benjamin Mako Hill, Carrie Cai, Meredith Ringel Morris, Robb Willer, Percy Liang, Michael S. Bernstein
Статья: https://arxiv.org/abs/2411.10109
Пост: https://hai.stanford.edu/news/ai-agents-simulate-1052-individuals-personalities-impressive-accuracy

Мы в прошлом году не разобрали эту статью, а она интересное практическое продолжение темы из 2023-го про Generative Agents (https://t.me/gonzo_ML/1481) от Стэнфорда и ко. Теперь авторы взяли и симулировали 1,052 реальных человека, а потом на последующих опросах сумели добиться 85% точности репликации их собственных ответов и действий в экспериментах через две недели. Кроме того собрали полезного агента-помощника для проведения интервью.

Процедура создания агента выглядит так:

🎤 Интервью

Были проведены глубинные интервью, включавшие в себя заранее заданные вопросы и адаптивные последующие, зависящие от ответов респондента.

Через стратифицированную выборку набрали 1052 участника, чтобы получить репрезентативную выборку US популяции по возрасту, полу, расе, региону, образованию и политической идеологии. Все участники прошли голосовое интервью со средней длиной транскрипта 6,491 слов (stddev 2,541). Также собрали ответы на серию опросников (General Social Survey (GSS), Big Five Inventory из 44 пунктов(BFI-44)) и результаты поведенческих экспериментов (пять экономических игр и пять поведенческих экспериментов). Интервью потом будет использоваться для прайминга агентов, а опросы/эксперименты для оценки точности полученных агентов. Также было ещё и self-consistency интервью через две недели после перечисленного.

Изначально через компанию Bovitz рекрутировали 1300 человек (хотели в итоге получить 1000 для достаточной статистической мощности пяти поведенческих экспериментов). Участникам платили: $60 за первый опрос, $30 за self-consistency через две недели, и ещё был бонус в диапазоне 0-10$ по результатам экономических игр. Не все дошли до второй фазы и выполнили self-consistency опрос, так что осталось 1052 (но ожидали ещё больший отсев).

Для этого прям заморочились и собрали свою платформу, где респондент может зарегаться, создать аватара, дать consent, пройти интервью, опросы и эксперименты, в заданном порядке и в нужное время. Для скейлинга интервью использовался ИИ-интервьюер, проводивший его по полуструктурированному протоколу. Хотели именно интервью, а не опрос, потому что надеялись получить более полную информацию с ценными нюансами. За основу взяли протокол, разработанный американскими социологами в рамках American Voices Project. В скрипте были темы от истории жизни до взглядов на текущие социальные темы. Оригинальный протокол был рассчитан на трёхчасовое интервью, здесь его немного урезали, чтобы всё умещалось в два часа.

ИИ-Интервьюер сам динамически генерировал последующие вопросы, соответствующие ответам участников. Архитектура агента была вариацией на тему оригинального Generative Agent (https://t.me/gonzo_ML/1486). Агент принимал на вход свежие предыдущие ответы респондента и скрипт интервью, и генерил follow-up вопросы или переходил к следующему вопросу в скрипте. Вопросы структурированы в блоки, для каждого вопроса прописано поле с указанием, сколько времени дано на вопрос. Первый вопрос блока агент задаёт не меняя, а затем ориентируясь на оставшийся бюджет времени и ответы респондента принимает решения в динамике, что именно спросить. Модель для этого должна делать некоторый ризонинг и учитывать весь контекст, но при росте контекста текущие (на тот момент, да наверное и на этот) модели обычно деградируют, так что в агента ввели модуль рефлексии, который суммаризирует беседу и записывает выводы, которые можно сделать про респондента.

Так, если до этого агент спрашивал, где респондент родился, а тот упомянул природу этого места, агент мог задать вопрос про походы и записать в итоге после рефлексии что-то вроде:

{
“place of birth”: “New Hampshire”
“outdoorsy vs. indoorsy”: “outdoorsy with potentially a lot of time spent outdoors”
}
10👍7