gonzo-обзоры ML статей
24.3K subscribers
3.34K photos
3 videos
3 files
1.58K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Forwarded from gonzo_ML_podcasts
😁4💯1
И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzo_ML/5206).

Интересно про трёхфазовый гроккинг:
На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение.


Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao
Статья: https://arxiv.org/abs/2604.07822v1
Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize
Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit

# TL;DR

ЧТО сделали:
Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении.

ПОЧЕМУ это важно:
Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто "думая" дольше.

Для практиков:
Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях.

В глубины: https://t.me/gonzo_ML_podcasts/3279
🔥32👍1
Forwarded from gonzo_ML_podcasts
🤣8😁3
Давно мы про табличный ML не писали!

Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for

# TL;DR

ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.

ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.

Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.

Углубляться тут: https://t.me/gonzo_ML_podcasts/3290
64
Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever.

Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals

# TL;DR

ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.

ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.

Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.

Раскладывать тензоры тут: https://t.me/gonzo_ML_podcasts/3301
🔥31
Forwarded from gonzo_ML_podcasts
👍3👎1🔥1
Шажок на пути к автоматической науке

GIANTS: Generative Insight Anticipation from Scientific Literature
Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman
Статья: https://arxiv.org/abs/2604.09793
Код: https://github.com/joyheyueya/giants
Модель: https://huggingface.co/giants2026
Ревью: https://arxiviq.substack.com/p/giants-generative-insight-anticipation

# TL;DR

ЧТО сделали: Авторы формализуют задачу "предвосхищения инсайтов" (insight anticipation) — предсказания главной новизны будущей научной статьи исключительно по саммари её основополагающих "родительских" работ. Для этого собрали датасет GiantsBench на 17 тысяч примеров и обучили GIANTS-4B, языковую модель на 4 миллиарда параметров, прошедшую файнтюнинг с помощью обучения с подкреплением (RL), где в качестве награды выступает семантическая близость.

ПОЧЕМУ это важно: Работа показывает, что способность синтезировать научную литературу не масштабируется линейно только за счёт размера модели. Изолировав этап концептуального синтеза от шума открытой генерации идей, авторы доказывают, что специализированное RL на небольших open-weight моделях сильно превосходит огромные SOTA-модели в целенаправленных задачах на рассуждение.

Для практиков: Для тех, кто разрабатывает агентов для научных открытий или проверяемые RAG-системы, предложенный пайплайн (ограниченный контекст + GRPO с семантическим ревордом) — это отличный шаблон. Он заставляет небольшую модель делать строгий концептуальный синтез, а не галлюцинировать абстрактными идеями.

Подробнее тут: https://t.me/gonzo_ML_podcasts/3311
👍2😁1👀1
Forwarded from gonzo_ML_podcasts
2😁1
Свежак от DeepSeek

https://github.com/deepseek-ai/TileKernels

Tile Kernels

Optimized GPU kernels for LLM operations, built with TileLang. TileLang is a domain-specific language for expressing high-performance GPU kernels in Python, featuring easy migration, agile development, and automatic optimization.

Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios. However, they do not represent best practices and we are actively working on improving the code quality and documentation.
13👍1