И ещё про развитие ветки Universal Transformer (см.вчерашнее https://t.me/gonzo_ML/5206).
Интересно про трёхфазовый гроккинг:
Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao
Статья: https://arxiv.org/abs/2604.07822v1
Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize
Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit
# TL;DR
ЧТО сделали:
Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении.
ПОЧЕМУ это важно:
Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто "думая" дольше.
Для практиков:
Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях.
В глубины: https://t.me/gonzo_ML_podcasts/3279
Интересно про трёхфазовый гроккинг:
На ранних этапах обучения сеть просто запоминает данные. Дальнейшее обучение запускает фазовый переход к in-distribution обобщению, и, наконец, появляется систематическое out-of-distribution обобщение.
Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers
Harsh Kohli, Srinivasan Parthasarathy, Huan Sun, Yuekun Yao
Статья: https://arxiv.org/abs/2604.07822v1
Репа: https://github.com/OSU-NLP-Group/Loop-Think-Generalize
Ревью: https://arxiviq.substack.com/p/loop-think-and-generalize-implicit
# TL;DR
ЧТО сделали:
Оценивают, могут ли трансформеры с рекуррентной глубиной (зацикленные) выполнять неявные многошаговые рассуждения (implicit multi-hop reasoning) над параметрическими знаниями без явного CoT. Прогоняя входные данные через одни и те же слои много раз, модель выучивает правила и начинает систематически обобщаться на незнакомые комбинации фактов, а также экстраполировать логику на глубину, сильно превышающую ту, что была при обучении.
ПОЧЕМУ это важно:
Работа предлагает архитектурное решение проблемы композициональности, от которой страдают стандартные трансформеры. Перенося вычислительную нагрузку с фиксированного количества параметров (глубины) на динамическую рекуррентность во время инференса, авторы показывают масштабируемый механизм для скрытых рассуждений. Это доказывает, что модели могут внутренне разворачивать сложную логику, чтобы решать out-of-distribution задачи, просто "думая" дольше.
Для практиков:
Для тех, кто исследует масштабирование вычислений на инференсе, это отличная демонстрация того, как рекуррентные архитектуры обходят жёсткие ограничения обычных трансформеров на количество слоёв. За счёт стабилизации итеративного разворачивания и внедрения адаптивной остановки на основе энтропии, модель достигает отличной обобщающей способности через резкую фазу грокинга. При этом авторы честно показывают верхнюю границу такого скейлинга — чрезмерное обдумывание (overthinking), что задаёт стратегические рамки для применения test-time compute в базовых моделях.
В глубины: https://t.me/gonzo_ML_podcasts/3279
arXiv.org
Loop, Think, & Generalize: Implicit Reasoning in...
We study implicit reasoning, i.e. the ability to combine knowledge or rules within a single forward pass. While transformer-based large language models store substantial factual knowledge and...
🔥3❤2👍1
Давно мы про табличный ML не писали!
Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for
# TL;DR
ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.
ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.
Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.
Углубляться тут: https://t.me/gonzo_ML_podcasts/3290
Selecting Feature Interactions for Generalized Additive Models by Distilling Foundation Models
Jingyun Jia, Chandan Singh, Rich Caruana, Ben Lengerich
Paper: https://arxiv.org/abs/2604.13332
Code: https://github.com/Clouddelta/tab-distill
Review: https://arxiviq.substack.com/p/selecting-feature-interactions-for
# TL;DR
ЧТО сделали: Авторы предложили TabDistill — фреймворк, который использует табличные фундаментные модели (TFM) для поиска сложных взаимодействий признаков высоких порядков. Затем эти взаимодействия извлекаются и встраиваются в обобщённые аддитивные модели (GAM) как явные слагаемые.
ПОЧЕМУ это важно: Это перекидывает мост между высокоёмкими, но непрозрачными фундаментными моделями и строгими статистическими подходами. В сферах с высокими рисками, таких как медицина или финансы, теперь можно использовать продвинутое обучение репрезентаций без потери читаемости и возможностей аудита.
Для практиков: Глубокое обучение наконец-то достигло SOTA-результатов на табличных данных благодаря фундаментным моделям, но они остаются непроницаемыми чёрными ящиками. Работа переворачивает их привычную роль: вместо сквозного предсказания они используются как структурные учителя. Систематически «прощупывая» фундаментную модель, можно вытащить точные комбинации признаков, на которые она опирается, и передать их простой интерпретируемой GAM. Это даёт высокую точность при сохранении полностью прозрачной (glass-box) архитектуры.
Углубляться тут: https://t.me/gonzo_ML_podcasts/3290
arXiv.org
Selecting Feature Interactions for Generalized Additive Models by...
Identifying meaningful feature interactions is a central challenge in building accurate and interpretable models for tabular data. Generalized additive models (GAMs) have shown great success at...
✍6❤4
Прикольный подход к оценке моделей через тензорные разложения. Для 3D тензора <навык модели> <сложность промпта> <особенности оценщика> мы сначала выучиваем латентную структуру моделей и промптов по дешёвым разметчикам, а затем файнтюним по (дорогим и редким) человеческим оценкам. Много что напоминает, и self-supervised pre-training (representation learning) + supervised fine-tuning, и подходы из рекомендательных систем: factorization machines, а ещё больше коллаборативку типа SVD, особенно когда к двумерным матрицам товар-юзер добавляли третье измерение про контекст — время, место, whatever.
Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals
# TL;DR
ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.
ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.
Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.
Раскладывать тензоры тут: https://t.me/gonzo_ML_podcasts/3301
Rich Insights from Cheap Signals: Efficient Evaluations via Tensor Factorization
Felipe Maia Polo, Aida Nematzadeh, Virginia Aglietti, Adam Fisch, Isabela Albuquerque
Paper: https://arxiv.org/abs/2603.02029
Review: https://arxiviq.substack.com/p/rich-insights-from-cheap-signals
# TL;DR
ЧТО сделали: Разработали статистический фреймворк на базе тензорного разложения CANDECOMP/PARAFAC (CP). Он позволяет объединить огромный объём шумных автоматических оценок с крайне редкими, но эталонными человеческими оценками. Двухэтапный метод сначала выучивает латентные репрезентации генеративных моделей и промптов на основе машинного фидбека, а затем калибрует их под человеческие предпочтения. На выходе получаем метрики качества для каждого отдельного промпта со строгими доверительными интервалами.
ПОЧЕМУ это важно: В условиях, когда флагманские модели показывают одинаковые агрегированные результаты на бенчмарках, понять их реальные способности можно только через детальный анализ на уровне отдельных промптов. Этот подход решает проблему непомерной стоимости человеческой разметки, превращая процесс оценки в задачу трансферного обучения. Теперь разработчики могут создавать статистически надёжные микро-лидерборды и точно предсказывать, как новая модель справится с задачей, вообще не собирая для неё новые данные от людей.
Для практиков: Парадигма оценки ИИ смещается от монолитных средних баллов к детальной диагностике. Но оценка качества на уровне отдельных промптов упирается в жёсткую нехватку данных: разметка людьми стоит слишком дорого, а LLM в роли судей (подход LLM-as-a-judge) систематически предвзяты. Исследователи из DeepMind и Мичиганского университета элегантно обошли это, представив пространство оценок в виде тензора низкого ранга. Они доказали, что скрытые факторы, определяющие сложность задачи и навык модели, можно вытащить из дешёвых автоматических сигналов и математически выровнять с человеческими предпочтениями с помощью крошечного калибровочного датасета.
Раскладывать тензоры тут: https://t.me/gonzo_ML_podcasts/3301
arXiv.org
Rich Insights from Cheap Signals: Efficient Evaluations via Tensor...
Moving beyond evaluations that collapse performance across heterogeneous prompts toward fine-grained evaluation at the prompt level, or within relatively homogeneous subsets, is necessary to...
🔥3❤1
Шажок на пути к автоматической науке
GIANTS: Generative Insight Anticipation from Scientific Literature
Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman
Статья: https://arxiv.org/abs/2604.09793
Код: https://github.com/joyheyueya/giants
Модель: https://huggingface.co/giants2026
Ревью: https://arxiviq.substack.com/p/giants-generative-insight-anticipation
# TL;DR
ЧТО сделали: Авторы формализуют задачу "предвосхищения инсайтов" (insight anticipation) — предсказания главной новизны будущей научной статьи исключительно по саммари её основополагающих "родительских" работ. Для этого собрали датасет GiantsBench на 17 тысяч примеров и обучили GIANTS-4B, языковую модель на 4 миллиарда параметров, прошедшую файнтюнинг с помощью обучения с подкреплением (RL), где в качестве награды выступает семантическая близость.
ПОЧЕМУ это важно: Работа показывает, что способность синтезировать научную литературу не масштабируется линейно только за счёт размера модели. Изолировав этап концептуального синтеза от шума открытой генерации идей, авторы доказывают, что специализированное RL на небольших open-weight моделях сильно превосходит огромные SOTA-модели в целенаправленных задачах на рассуждение.
Для практиков: Для тех, кто разрабатывает агентов для научных открытий или проверяемые RAG-системы, предложенный пайплайн (ограниченный контекст + GRPO с семантическим ревордом) — это отличный шаблон. Он заставляет небольшую модель делать строгий концептуальный синтез, а не галлюцинировать абстрактными идеями.
Подробнее тут: https://t.me/gonzo_ML_podcasts/3311
GIANTS: Generative Insight Anticipation from Scientific Literature
Joy He-Yueya, Anikait Singh, Ge Gao, Michael Y. Li, Sherry Yang, Chelsea Finn, Emma Brunskill, Noah D. Goodman
Статья: https://arxiv.org/abs/2604.09793
Код: https://github.com/joyheyueya/giants
Модель: https://huggingface.co/giants2026
Ревью: https://arxiviq.substack.com/p/giants-generative-insight-anticipation
# TL;DR
ЧТО сделали: Авторы формализуют задачу "предвосхищения инсайтов" (insight anticipation) — предсказания главной новизны будущей научной статьи исключительно по саммари её основополагающих "родительских" работ. Для этого собрали датасет GiantsBench на 17 тысяч примеров и обучили GIANTS-4B, языковую модель на 4 миллиарда параметров, прошедшую файнтюнинг с помощью обучения с подкреплением (RL), где в качестве награды выступает семантическая близость.
ПОЧЕМУ это важно: Работа показывает, что способность синтезировать научную литературу не масштабируется линейно только за счёт размера модели. Изолировав этап концептуального синтеза от шума открытой генерации идей, авторы доказывают, что специализированное RL на небольших open-weight моделях сильно превосходит огромные SOTA-модели в целенаправленных задачах на рассуждение.
Для практиков: Для тех, кто разрабатывает агентов для научных открытий или проверяемые RAG-системы, предложенный пайплайн (ограниченный контекст + GRPO с семантическим ревордом) — это отличный шаблон. Он заставляет небольшую модель делать строгий концептуальный синтез, а не галлюцинировать абстрактными идеями.
Подробнее тут: https://t.me/gonzo_ML_podcasts/3311
arXiv.org
GIANTS: Generative Insight Anticipation from Scientific Literature
Scientific breakthroughs often emerge from synthesizing prior ideas into novel contributions. While language models (LMs) show promise in scientific discovery, their ability to perform this...
👍2😁1👀1
Свежак от DeepSeek
https://github.com/deepseek-ai/TileKernels
Tile Kernels
Optimized GPU kernels for LLM operations, built with TileLang. TileLang is a domain-specific language for expressing high-performance GPU kernels in Python, featuring easy migration, agile development, and automatic optimization.
Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios. However, they do not represent best practices and we are actively working on improving the code quality and documentation.
https://github.com/deepseek-ai/TileKernels
Tile Kernels
Optimized GPU kernels for LLM operations, built with TileLang. TileLang is a domain-specific language for expressing high-performance GPU kernels in Python, featuring easy migration, agile development, and automatic optimization.
Most kernels in this project approach the limit of hardware performance regarding the compute intensity and memory bandwidth. Some of them have already been used in internal training and inference scenarios. However, they do not represent best practices and we are actively working on improving the code quality and documentation.
GitHub
GitHub - deepseek-ai/TileKernels: A kernel library written in tilelang
A kernel library written in tilelang. Contribute to deepseek-ai/TileKernels development by creating an account on GitHub.
❤13👍1