Ученые из Google обнаружили, что если повторять промпт два раза, качество ответов моделей существенно возрастает
На архиве опубликовали коротенькую статью, в которой исследователи делятся занятным хаком:
Важно: это работает только для Non-Reasoning. С ризонингом эффект нейтральный или слегка положительный, так что применять смысла особо нет.
Но вот для Non-Reasoning лайфхак должен быть рабочий, и к тому же очень простой и (почти) бесплатный. Авторы показывают, что количество генерируемых токенов от повтора промпта не растет, как и задержка ответа.
Почему вообще это работает?
Все мы уже выучили, что порядок токенов в промте важен. И это потому, что большинство моделей обучаются каузально, то есть предыдущие токены не получают доступа к следующим. Тут в основе та же логика. Грубо говоря, получается, что какие-то токены в промпте никогда не видят другие, а повторяя запрос, мы эту ассиметрию устраняем -> качество растет.
Почему тогда для ризонеров не канает?
Тут тоже есть объяснение. Просто ризонеры уже самостоятельно научились повторять промпт сами себе (вы точно это замечали). То есть здесь еще одно повторение уже не дает такого импакта, а в случае с не-ризонерами этот эффект мы просто выносим в prefill.
Пользуйтесь: arxiv.org/pdf/2512.14982
На архиве опубликовали коротенькую статью, в которой исследователи делятся занятным хаком:
если повторять запрос, то есть отправлять промпт в LLM не в виде «<QUERY>», а в виде «<QUERY><QUERY>», качество ответов модели в ~67% случаев статистически значимо улучшается
Важно: это работает только для Non-Reasoning. С ризонингом эффект нейтральный или слегка положительный, так что применять смысла особо нет.
Но вот для Non-Reasoning лайфхак должен быть рабочий, и к тому же очень простой и (почти) бесплатный. Авторы показывают, что количество генерируемых токенов от повтора промпта не растет, как и задержка ответа.
Почему вообще это работает?
Все мы уже выучили, что порядок токенов в промте важен. И это потому, что большинство моделей обучаются каузально, то есть предыдущие токены не получают доступа к следующим. Тут в основе та же логика. Грубо говоря, получается, что какие-то токены в промпте никогда не видят другие, а повторяя запрос, мы эту ассиметрию устраняем -> качество растет.
Почему тогда для ризонеров не канает?
Тут тоже есть объяснение. Просто ризонеры уже самостоятельно научились повторять промпт сами себе (вы точно это замечали). То есть здесь еще одно повторение уже не дает такого импакта, а в случае с не-ризонерами этот эффект мы просто выносим в prefill.
Пользуйтесь: arxiv.org/pdf/2512.14982
❤175😁68👍53🔥16🤔4😎2
Пентагон заключил контракт с xAI
Теперь Grok будут пользоваться все, кто так или иначе относится к министерству обороны США: всего его развернут на ~3 миллиона военнослужащих и гражданских.
Это будет не обычный Grok, а специально адаптированный под соответствующие задачи. Его так и назвали – «Grok for Government».
Доступ будет предоставлен на уровне IL5 (Impact Level 5). В системе безопасности Пентагона это означает сертификацию для работы с конфиденциальными данными, включая секретную информацию.
И еще интересный момент: пишут, что Grok будет также предоставлять служащим онлайн данные с X. Формулировки очень размытые, но видимо это означает: анализ постов, выявление паттернов «дезинформации», геолокации событий или настроений аудитории по тому или иному вопросу. Все это нужно для «оперативной разведки».
Теперь Grok будут пользоваться все, кто так или иначе относится к министерству обороны США: всего его развернут на ~3 миллиона военнослужащих и гражданских.
Это будет не обычный Grok, а специально адаптированный под соответствующие задачи. Его так и назвали – «Grok for Government».
Доступ будет предоставлен на уровне IL5 (Impact Level 5). В системе безопасности Пентагона это означает сертификацию для работы с конфиденциальными данными, включая секретную информацию.
И еще интересный момент: пишут, что Grok будет также предоставлять служащим онлайн данные с X. Формулировки очень размытые, но видимо это означает: анализ постов, выявление паттернов «дезинформации», геолокации событий или настроений аудитории по тому или иному вопросу. Все это нужно для «оперативной разведки».
GLM-4.7 – новая опенсорсная сота для кодинга
Похоже, новая китайская звезда – это стартап Z.ai. Они уже в который раз выпускают очень достойные модельки, и на днях у них вышла GLM-4.7.
На метрики можете взглянуть сами на графиках выше, они удивляют. На SWE Bench уровень почти GPT-5.1.
По сравнению с GPT-5.2 и Gemini 3 ощущается, конечно, хуже. Но среди опенсорса – точно топ.
При этом годовой самый мощный тариф обойдется вам примерно как полтора месяца подписки на ChatGPT Pro или аналогичный Max антропиков.
Потестить бесплатно можно здесь
Веса | Блогпост
Похоже, новая китайская звезда – это стартап Z.ai. Они уже в который раз выпускают очень достойные модельки, и на днях у них вышла GLM-4.7.
На метрики можете взглянуть сами на графиках выше, они удивляют. На SWE Bench уровень почти GPT-5.1.
По сравнению с GPT-5.2 и Gemini 3 ощущается, конечно, хуже. Но среди опенсорса – точно топ.
При этом годовой самый мощный тариф обойдется вам примерно как полтора месяца подписки на ChatGPT Pro или аналогичный Max антропиков.
Потестить бесплатно можно здесь
Веса | Блогпост
🔥84👍18❤16😁2
This media is not supported in your browser
VIEW IN TELEGRAM
POV: ИИ-компании смотрят на те самые 300ТБ Spotify треков на Anna’s Archive
😁410❤23👾12🔥5 3
Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1
Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”.
В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.
Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”.
В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.
❤137😁30🔥19🗿16👍3🎄2👌1
Data Secrets
А что вообще за автоэнкодеры такие? Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему. Что это такое? Gemma…
Google релизнули новую версию своего «LLM-микроскопа» – Gemma Scope 2
Это модель, а точнее набор инструментов (interpretability tools), предназначенный для интерпретации поведения LLM. В частности, из семейства Gemma 3.
Работает Scope на основе SAE – это разреженные автоэнкодеры. Они представляют из себя модели, которые распутывают активации LLM и достают из них интерпретируемые концепции. Их называют «фичи»: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).
По сути, анализируя эти фичи, мы можем видеть, о чем на самом деле думала модель, генерируя тот или иной output. Например, она генерирует с виду безобидный код, но «думает» о концепции «кибератака». И это о чем-то нам говорит.
SAE, кстати, еще в 2023 предложили использовать Anthropic (вот наш разбор их статьи, которая сделала подход популярным). Но именно Google вывели автоэнкодеры на уровень продакшена. Сейчас это, фактически, первый и единственный открытый инструмент для вот такой детальной интерпретации LLM.
Первая версия Scope вышла в 2024. Тогда это работало только для небольших моделей и простых запросов. Теперь же подход масштабировали даже для модели на 27B.
Плюс, теперь инструмент стал более универсальным. Если оригинальная Scope существовала только для ограниченного числа слоев, то теперь можно целиком анализировать сложные диалоговые механизмы.
Судя по статье, в основном это получилось благодаря добавлению в модель Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между отдаленными слоями и облегчают анализ распределенных вычислений. А еще, кстати, SAE обучали по методу матрешки, как Gemma 3n (мы писали про этот метод вот тут).
Если хотите попробовать и покопаться в мыслях у моделей:
– здесь все необходимые веса
– здесь полезный Colab ноутбук с готовым кодом
– здесь техотчет, а вот тут хорошая понятная документация
Это модель, а точнее набор инструментов (interpretability tools), предназначенный для интерпретации поведения LLM. В частности, из семейства Gemma 3.
Работает Scope на основе SAE – это разреженные автоэнкодеры. Они представляют из себя модели, которые распутывают активации LLM и достают из них интерпретируемые концепции. Их называют «фичи»: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).
По сути, анализируя эти фичи, мы можем видеть, о чем на самом деле думала модель, генерируя тот или иной output. Например, она генерирует с виду безобидный код, но «думает» о концепции «кибератака». И это о чем-то нам говорит.
SAE, кстати, еще в 2023 предложили использовать Anthropic (вот наш разбор их статьи, которая сделала подход популярным). Но именно Google вывели автоэнкодеры на уровень продакшена. Сейчас это, фактически, первый и единственный открытый инструмент для вот такой детальной интерпретации LLM.
Первая версия Scope вышла в 2024. Тогда это работало только для небольших моделей и простых запросов. Теперь же подход масштабировали даже для модели на 27B.
Плюс, теперь инструмент стал более универсальным. Если оригинальная Scope существовала только для ограниченного числа слоев, то теперь можно целиком анализировать сложные диалоговые механизмы.
Судя по статье, в основном это получилось благодаря добавлению в модель Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между отдаленными слоями и облегчают анализ распределенных вычислений. А еще, кстати, SAE обучали по методу матрешки, как Gemma 3n (мы писали про этот метод вот тут).
Если хотите попробовать и покопаться в мыслях у моделей:
– здесь все необходимые веса
– здесь полезный Colab ноутбук с готовым кодом
– здесь техотчет, а вот тут хорошая понятная документация
❤72👍33🔥13😁2
ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq выбила ~75%
Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность.
То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд.
Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека.
Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу.
Код от Poetiq
Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность.
То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд.
Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека.
Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу.
Код от Poetiq
👍87🔥15❤10🤯4😁3👏1
«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» – Илон Маск
Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.
Кстати, еще год назад Андрей говорил, что у Tesla проблемы с ПО, и прошивка Waymo побеждает.
Напоминаем, что между двумя производителями существует принципиальная разница:
Waymo – это модульная система: она опирается на HD‑карты, лидары, датчики, 5G‑связь и множество нейросетей. Это работает хорошо и очень надежно, но только если какой-нибудь модуль случайно не откажет.
Tesla – это end‑to‑end: один огромный нейросетевой блок напрямую преобразует пиксели с камер в команды руления и торможения.
Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.
Понимание Андрея устарело на данный момент. Программное обеспечение Tesla AI значительно продвинулось со времен, когда он ушел.
Кстати, еще год назад Андрей говорил, что у Tesla проблемы с ПО, и прошивка Waymo побеждает.
Напоминаем, что между двумя производителями существует принципиальная разница:
Waymo – это модульная система: она опирается на HD‑карты, лидары, датчики, 5G‑связь и множество нейросетей. Это работает хорошо и очень надежно, но только если какой-нибудь модуль случайно не откажет.
Tesla – это end‑to‑end: один огромный нейросетевой блок напрямую преобразует пиксели с камер в команды руления и торможения.
1❤69 40😁30👍8
Media is too big
VIEW IN TELEGRAM
Сэм Альтман про конкуренцию с Google*
➖ В 2023 году Google могла бы легко снести OpenAI, если бы компания отнеслась к стартапу серьезно и сфокусировалась на ИИ. Сейчас им сложнее наверстать упущенное.
➖ Дистрибуция Google колоссальна, но по качеству продукта и скорости эволюции OpenAI, как считает Альтман, может выиграть.
➖ Он называет бизнес-модель Google лучшей во всей технологической индустрии, но именно из‑за этого, по его словам, им трудно отказаться от классического поиска с рекламой ради радикально нового AI‑продукта. OpenAI же, грубо говоря, нечего терять.
➖ Google остается главным и очень опасным конкурентом. OpenAI, чтобы не отстать, планируют «строительство полноразмерной AI‑платформы, включающей модели + инфраструктуру + устройства/интерфейсы».
*из нового подкаста youtu.be/2P27Ef-LLuQ
*из нового подкаста youtu.be/2P27Ef-LLuQ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤80😁72👍28🔥12 8🤔1🤝1🦄1😎1
Приятно: Anthropic удвоили все лимиты в платных тарифах на время праздников 🎁
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥113❤24👍14☃10😁5🤔2🕊1😍1💘1
Пройдите тест от Авито по Data Science и оцените свой уровень на основе реальных кейсов из практики DS-команд компании ☄️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь⚡️
Что в нём полезного:
– поймёте, какие компетенции уже прокачаны, а над чем стоит поработать,
– сможете открыть рекрутерам доступ к результатам и повысить шансы на оффер,
– получите письмо с разбором ответов на почту в течение дня.
На праздниках самое время проверить себя и определить точки роста.
Ссылку на тест оставили здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿34🤔6❤4😁4🐳1🦄1
Data Secrets
Тем временем еще двое бывших инженеров Google со своим стартапом строят планы перещеголять Nvidia Компания занимается разработкой ИИ-чипов, называется Groq (как тебе такое, Илон Маск?) и сейчас оценивается в $2.8 миллиарда. Недавно стало известно, что они…
Nvidia купила Groq – тот самый стартап бывших инженеров Google, в котором разрабатывали чипы специально для LLM
Интересно, что еще полтора года назад стартап оценивался только в 2.8 миллиардов долларов, а сегодня Nvidia покупает его за 20 миллиардов.
Причем сделка представлена даже не как полноценная покупка, а как неисключительное лицензирование технологий и активов.
То есть Nvidia приобретает активы Groq, включая права на использование тех самых процессоров LPU (Language Processing Unit), но, например, облачный сервис GroqCloud остается независимым и продолжит работать под руководством нового CEO.
Предыдущий директор Groq Джонатан Росс (он же основатель, который раньше работал над TPU в Google), а также многие другие сотрудники, включая почти всю верхушку, переходят в Nvidia.
Это, кстати, крупнейшая сделка в истории Nvidia. Их предыдущим максимумом были приобретения вроде Mellanox за $7 млрд в 2019 году.
Интересно, что еще полтора года назад стартап оценивался только в 2.8 миллиардов долларов, а сегодня Nvidia покупает его за 20 миллиардов.
Причем сделка представлена даже не как полноценная покупка, а как неисключительное лицензирование технологий и активов.
То есть Nvidia приобретает активы Groq, включая права на использование тех самых процессоров LPU (Language Processing Unit), но, например, облачный сервис GroqCloud остается независимым и продолжит работать под руководством нового CEO.
Предыдущий директор Groq Джонатан Росс (он же основатель, который раньше работал над TPU в Google), а также многие другие сотрудники, включая почти всю верхушку, переходят в Nvidia.
Это, кстати, крупнейшая сделка в истории Nvidia. Их предыдущим максимумом были приобретения вроде Mellanox за $7 млрд в 2019 году.
👍82🔥23 14❤8😁1🤩1🍾1🗿1🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Опять 25: Джеффри Хинтон тоже уверен, что эра скейлинга закончилась
(Интересно, в какой это момент он переключился с предсказания конца света на рассуждения о масштабировании?)
Ну так вот: ученый утверждает, что скейлинг не может продолжаться, потому что данные свободного интернета уже исчерпаны, а все более ценные данные хранятся в закрытых контурах компаний.
Он ставит ставку на синтетику. Модели, по его мнению, должны сами генерировать себе данные для обучения в ходе рассуждений.
Ну так вот: ученый утверждает, что скейлинг не может продолжаться, потому что данные свободного интернета уже исчерпаны, а все более ценные данные хранятся в закрытых контурах компаний.
Он ставит ставку на синтетику. Модели, по его мнению, должны сами генерировать себе данные для обучения в ходе рассуждений.
«Именно так AlphaGo научился побеждать человека, и именно так LLM могут научиться быть умнее людей»
J'son & Partners показали свежее исследование, где сравнивают, как разные страны готовят будущих ML-инженеров. Главная проблема – спрос на ИИ-спецов везде растёт быстрее, чем универы успевают адаптироваться😳
Каждая страна выкручивается по-своему.
Например, в Китае всё максимально централизовано. Государство задаёт жёсткие требования к программам и масштабирует их на всю систему образования.
В Штатах, наоборот, рулят университеты. Они автономны, сильны в исследованиях и сами пересобирают свои программы под рынок. Красиво, но есть нюансы: обучение дорогое, а выпускники часто получают очень разнородные компетенции.
В России ИИ-образование строят на стыке вузов и бигтехов – компании участвуют в запуске бакалавриатов и магистратур. Причем делают это давно: яндексовский ШАД, например, готовит ML-щиков с 2007 года и его курсы легли в основу ряда программ в МФТИ, ИТМО, Вышке и других университетах.
Помимо этого, бигтехи участвуют и в процессе обучения: практикующие инженеры приходят преподавать на IT-программы. И вряд ли для них это про доп заработок, скорее про то, чтобы внести свой вклад в новое поколение ML-инженеров.
Такая вот модель – аналитики говорят, вполне устойчивая в долгосроке.
Каждая страна выкручивается по-своему.
Например, в Китае всё максимально централизовано. Государство задаёт жёсткие требования к программам и масштабирует их на всю систему образования.
В Штатах, наоборот, рулят университеты. Они автономны, сильны в исследованиях и сами пересобирают свои программы под рынок. Красиво, но есть нюансы: обучение дорогое, а выпускники часто получают очень разнородные компетенции.
В России ИИ-образование строят на стыке вузов и бигтехов – компании участвуют в запуске бакалавриатов и магистратур. Причем делают это давно: яндексовский ШАД, например, готовит ML-щиков с 2007 года и его курсы легли в основу ряда программ в МФТИ, ИТМО, Вышке и других университетах.
Помимо этого, бигтехи участвуют и в процессе обучения: практикующие инженеры приходят преподавать на IT-программы. И вряд ли для них это про доп заработок, скорее про то, чтобы внести свой вклад в новое поколение ML-инженеров.
Такая вот модель – аналитики говорят, вполне устойчивая в долгосроке.
1❤34😁10☃4👍4❤🔥1
HuggingFace и их бесплатные курсы по ML – отличный вариант, чем заняться на новогодних
За последние пару лет HF существенно расширили свою библиотеку бесплатных курсов, и теперь все они собраны вот тут.
Некоторые совсем свежие, другим 2-4 года, но они обновляются. Всего их 12:
– LLM Course (советуем от души)
– Robotics
– MCP
– a smol course по пост-трейнингу
– Agents
– Deep RL
– Computer Vision
– Audio
– Open-Source Cookbook (не совсем курс, но штука полезная, чтобы поизучать)
– ML for games
– Diffusion Course
– ML for 3D
Хватит на все январские, в общем. Забирайте: https://huggingface.co/learn
За последние пару лет HF существенно расширили свою библиотеку бесплатных курсов, и теперь все они собраны вот тут.
Некоторые совсем свежие, другим 2-4 года, но они обновляются. Всего их 12:
– LLM Course (советуем от души)
– Robotics
– MCP
– a smol course по пост-трейнингу
– Agents
– Deep RL
– Computer Vision
– Audio
– Open-Source Cookbook (не совсем курс, но штука полезная, чтобы поизучать)
– ML for games
– Diffusion Course
– ML for 3D
Хватит на все январские, в общем. Забирайте: https://huggingface.co/learn
☃29❤5🔥4👍3🤗2😁1