Хорошие новости: и GPT-5.2, и Gemini 3 Pro являются лишь промежуточными чекпоинтами соответствующих моделей
The Information раскопали, что GPT-5.2 – это все еще не та самая модель Garlic, а лишь ее ранний недообученный чекпоинт.
Это значит, что в ближайшее время нас ждет еще один (возможно, небольшой, но все же) скачок в качестве.
Новость прокомментировал Кристиан Гарсия из Google:
The Information раскопали, что GPT-5.2 – это все еще не та самая модель Garlic, а лишь ее ранний недообученный чекпоинт.
Это значит, что в ближайшее время нас ждет еще один (возможно, небольшой, но все же) скачок в качестве.
Новость прокомментировал Кристиан Гарсия из Google:
«С Gemini 3.0 – та же история. Скоро мы получим следующий чекпоинт или даже General Availability, и она улучшится»
🔥115🫡37👍19❤8😁6🤔2🤨1
🔵Reinforcement Learning — ключевой метод для создания по-настоящему автономных систем.
Создайте агента, который думает как живой!
🔥Записывайтесь на бесплатные вебинары курса «Reinforcement Learning»
🌀Вебинар №1: Классические алгоритмы RL - SARSA и Q-learning
⏰23 декабря в 20:00 мск
Вы узнаете:
1. Что такое обучение с подкреплением и чем оно отличается от других подходов
2. Возможности алгоритмов SARSA и Q-learning и в чём их отличия.
3. Что нужно для настройки окружения и запуска RL-агента на реальных задачах.
4. Как интерпретировать результаты и улучшать эффективность обучения агента.
🌀Вебинар №2: Построение собственного окружения на примере биржевой торговли.
⏰13 января в 20:00 мск
Вы узнаете:
1. Структуру RL-окружений на примере OpenAI Gym: состояния, действия, награды, шаги среды
2. Построение окружения для биржевой торговли, используя исторические данные Yahoo Finance, MOEX
3. Как построить окружение с фреймворком FinRL для биржевой торговли
🌀Вебинар №3: FinRL - фреймворк RL для построения торговых агентов.
⏰22 января в 20:00 мск
Вы узнаете:
Как реализовать модель финансового рынка и построить торгового агента в несколько строк кода с использованием специализированного фреймворка FinRL.
Вам не придется разбираться с тонкостями программирования нейросетей и реализаций сложных математических концепций. Вы сосредоточитесь на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя.
Записывайтесь ➡️ OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
Создайте агента, который думает как живой!
🔥Записывайтесь на бесплатные вебинары курса «Reinforcement Learning»
🌀Вебинар №1: Классические алгоритмы RL - SARSA и Q-learning
⏰23 декабря в 20:00 мск
Вы узнаете:
1. Что такое обучение с подкреплением и чем оно отличается от других подходов
2. Возможности алгоритмов SARSA и Q-learning и в чём их отличия.
3. Что нужно для настройки окружения и запуска RL-агента на реальных задачах.
4. Как интерпретировать результаты и улучшать эффективность обучения агента.
🌀Вебинар №2: Построение собственного окружения на примере биржевой торговли.
⏰13 января в 20:00 мск
Вы узнаете:
1. Структуру RL-окружений на примере OpenAI Gym: состояния, действия, награды, шаги среды
2. Построение окружения для биржевой торговли, используя исторические данные Yahoo Finance, MOEX
3. Как построить окружение с фреймворком FinRL для биржевой торговли
🌀Вебинар №3: FinRL - фреймворк RL для построения торговых агентов.
⏰22 января в 20:00 мск
Вы узнаете:
Как реализовать модель финансового рынка и построить торгового агента в несколько строк кода с использованием специализированного фреймворка FinRL.
Вам не придется разбираться с тонкостями программирования нейросетей и реализаций сложных математических концепций. Вы сосредоточитесь на финансовой стратегии, а детали реализации алгоритма фреймворк возьмет на себя.
Записывайтесь ➡️ OTUS.RU
Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576
🗿21❤7👍5😁3 2🤨1
100500 раунд финансирования: OpenAI в очередной раз нужны деньги
The Wall Street Journal сообщает, что в этот раз они планируют пливлечь, внимание, 100 миллиардов долларов. Оценка при этом составит (еще раз внимание) 830 миллиардов долларов.
Напоминаем, что еще в октябре комапния оценивалась примерно в 500 миллиардов, а еще раньше в 2025 – в 300.
По сообщениям анонимных источников, сейчас казна стартапа понемногу пустеет. Чтобы выпустить новые модели, компании пришлось поскрести по сусекам. А что касается инференса – то даже при наличии приличного количества контрактов на облачные кредиты, он финансируется в основном за счет налички.
🫧 🫧🫧
The Wall Street Journal сообщает, что в этот раз они планируют пливлечь, внимание, 100 миллиардов долларов. Оценка при этом составит (еще раз внимание) 830 миллиардов долларов.
Напоминаем, что еще в октябре комапния оценивалась примерно в 500 миллиардов, а еще раньше в 2025 – в 300.
По сообщениям анонимных источников, сейчас казна стартапа понемногу пустеет. Чтобы выпустить новые модели, компании пришлось поскрести по сусекам. А что касается инференса – то даже при наличии приличного количества контрактов на облачные кредиты, он финансируется в основном за счет налички.
🫧 🫧🫧
😁132🤯37❤9 7 6👍3🫡3🗿2💯1
Генеративный ИИ пока еще уступает традиционным инструментам ML/DL по практическому импакту: наблюдение ведущего аналитика данных Walmart (ex-Amazon)
Несмотря на то, что про LLM кричат из каждого утюга, в прикладной науке наибольшей популярностью пользуются старые добрые инструменты ML/DL: такой вывод следует из исследования ML Global Impact Report 2025, авторы которого изучили прикладные научные исследования из более чем 125 стран.
Доклад выделяет 20 наиболее применяемых в исследованиях ML-инструментов, в котором, кстати, есть один российский — CatBoost, который изначально разрабатывался для задач поиска Яндекса. Теперь CatBoost используется в каждой 30-й из 5000 проанализированных статей в журналах Nature, связанных с машинным обучением. Причем в разных сферах — медицине, физике, прикладных науках.
Несмотря на то, что про LLM кричат из каждого утюга, в прикладной науке наибольшей популярностью пользуются старые добрые инструменты ML/DL: такой вывод следует из исследования ML Global Impact Report 2025, авторы которого изучили прикладные научные исследования из более чем 125 стран.
Доклад выделяет 20 наиболее применяемых в исследованиях ML-инструментов, в котором, кстати, есть один российский — CatBoost, который изначально разрабатывался для задач поиска Яндекса. Теперь CatBoost используется в каждой 30-й из 5000 проанализированных статей в журналах Nature, связанных с машинным обучением. Причем в разных сферах — медицине, физике, прикладных науках.
👍116❤38😁12👌2😍2🤯1
Ученые из Google обнаружили, что если повторять промпт два раза, качество ответов моделей существенно возрастает
На архиве опубликовали коротенькую статью, в которой исследователи делятся занятным хаком:
Важно: это работает только для Non-Reasoning. С ризонингом эффект нейтральный или слегка положительный, так что применять смысла особо нет.
Но вот для Non-Reasoning лайфхак должен быть рабочий, и к тому же очень простой и (почти) бесплатный. Авторы показывают, что количество генерируемых токенов от повтора промпта не растет, как и задержка ответа.
Почему вообще это работает?
Все мы уже выучили, что порядок токенов в промте важен. И это потому, что большинство моделей обучаются каузально, то есть предыдущие токены не получают доступа к следующим. Тут в основе та же логика. Грубо говоря, получается, что какие-то токены в промпте никогда не видят другие, а повторяя запрос, мы эту ассиметрию устраняем -> качество растет.
Почему тогда для ризонеров не канает?
Тут тоже есть объяснение. Просто ризонеры уже самостоятельно научились повторять промпт сами себе (вы точно это замечали). То есть здесь еще одно повторение уже не дает такого импакта, а в случае с не-ризонерами этот эффект мы просто выносим в prefill.
Пользуйтесь: arxiv.org/pdf/2512.14982
На архиве опубликовали коротенькую статью, в которой исследователи делятся занятным хаком:
если повторять запрос, то есть отправлять промпт в LLM не в виде «<QUERY>», а в виде «<QUERY><QUERY>», качество ответов модели в ~67% случаев статистически значимо улучшается
Важно: это работает только для Non-Reasoning. С ризонингом эффект нейтральный или слегка положительный, так что применять смысла особо нет.
Но вот для Non-Reasoning лайфхак должен быть рабочий, и к тому же очень простой и (почти) бесплатный. Авторы показывают, что количество генерируемых токенов от повтора промпта не растет, как и задержка ответа.
Почему вообще это работает?
Все мы уже выучили, что порядок токенов в промте важен. И это потому, что большинство моделей обучаются каузально, то есть предыдущие токены не получают доступа к следующим. Тут в основе та же логика. Грубо говоря, получается, что какие-то токены в промпте никогда не видят другие, а повторяя запрос, мы эту ассиметрию устраняем -> качество растет.
Почему тогда для ризонеров не канает?
Тут тоже есть объяснение. Просто ризонеры уже самостоятельно научились повторять промпт сами себе (вы точно это замечали). То есть здесь еще одно повторение уже не дает такого импакта, а в случае с не-ризонерами этот эффект мы просто выносим в prefill.
Пользуйтесь: arxiv.org/pdf/2512.14982
❤172😁67👍52🔥16🤔4😎2
Пентагон заключил контракт с xAI
Теперь Grok будут пользоваться все, кто так или иначе относится к министерству обороны США: всего его развернут на ~3 миллиона военнослужащих и гражданских.
Это будет не обычный Grok, а специально адаптированный под соответствующие задачи. Его так и назвали – «Grok for Government».
Доступ будет предоставлен на уровне IL5 (Impact Level 5). В системе безопасности Пентагона это означает сертификацию для работы с конфиденциальными данными, включая секретную информацию.
И еще интересный момент: пишут, что Grok будет также предоставлять служащим онлайн данные с X. Формулировки очень размытые, но видимо это означает: анализ постов, выявление паттернов «дезинформации», геолокации событий или настроений аудитории по тому или иному вопросу. Все это нужно для «оперативной разведки».
Теперь Grok будут пользоваться все, кто так или иначе относится к министерству обороны США: всего его развернут на ~3 миллиона военнослужащих и гражданских.
Это будет не обычный Grok, а специально адаптированный под соответствующие задачи. Его так и назвали – «Grok for Government».
Доступ будет предоставлен на уровне IL5 (Impact Level 5). В системе безопасности Пентагона это означает сертификацию для работы с конфиденциальными данными, включая секретную информацию.
И еще интересный момент: пишут, что Grok будет также предоставлять служащим онлайн данные с X. Формулировки очень размытые, но видимо это означает: анализ постов, выявление паттернов «дезинформации», геолокации событий или настроений аудитории по тому или иному вопросу. Все это нужно для «оперативной разведки».
GLM-4.7 – новая опенсорсная сота для кодинга
Похоже, новая китайская звезда – это стартап Z.ai. Они уже в который раз выпускают очень достойные модельки, и на днях у них вышла GLM-4.7.
На метрики можете взглянуть сами на графиках выше, они удивляют. На SWE Bench уровень почти GPT-5.1.
По сравнению с GPT-5.2 и Gemini 3 ощущается, конечно, хуже. Но среди опенсорса – точно топ.
При этом годовой самый мощный тариф обойдется вам примерно как полтора месяца подписки на ChatGPT Pro или аналогичный Max антропиков.
Потестить бесплатно можно здесь
Веса | Блогпост
Похоже, новая китайская звезда – это стартап Z.ai. Они уже в который раз выпускают очень достойные модельки, и на днях у них вышла GLM-4.7.
На метрики можете взглянуть сами на графиках выше, они удивляют. На SWE Bench уровень почти GPT-5.1.
По сравнению с GPT-5.2 и Gemini 3 ощущается, конечно, хуже. Но среди опенсорса – точно топ.
При этом годовой самый мощный тариф обойдется вам примерно как полтора месяца подписки на ChatGPT Pro или аналогичный Max антропиков.
Потестить бесплатно можно здесь
Веса | Блогпост
🔥82👍17❤16😁2
This media is not supported in your browser
VIEW IN TELEGRAM
POV: ИИ-компании смотрят на те самые 300ТБ Spotify треков на Anna’s Archive
😁398❤23👾12🔥5 3
Команда ML Т-Банка выпустила обновление языковых моделей T-Pro 2.1 и T-Lite 2.1
Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”.
В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.
Основной фокус релиза — улучшение точного следования инструкциям (Instruction Following) и Tool Calling. Для достижения результата команда разработала собственный пайплайн генерации синтетических данных для обучения и применила RL-обучение (GRPO) с гибридной reward-функцией, которая одновременно проверяет формальную корректность и осмысленность ответа, что позволило избежать проблемы “reward hacking”.
В результате дообучения на синтетических данных и применения RL-обучения с гибридным ревардом модели стали стабильнее в продакшене, точнее держат заданный формат, увереннее работают в многошаговых агентских сценариях и при этом сохраняют скорость и общее качество генерации. T-Pro 2.1 (32B) позиционируется как оптимальный выбор для сложных русскоязычных систем, а T-Lite 2.1 (8B) — как практичное решение для развертывания с ограниченными ресурсами. Обе модели доступны под открытой лицензией Apache 2.0.
❤133😁29🔥19🗿15👍3🎄2👌1
Data Secrets
А что вообще за автоэнкодеры такие? Сегодня Google выкатила свою новую модель Gemma 2 2B (наш разбор). Однако взгляды сообщества в большей мере направлены не на нее саму, а на сопутствующий релиз семейства Gemma Scope. Объясняем, почему. Что это такое? Gemma…
Google релизнули новую версию своего «LLM-микроскопа» – Gemma Scope 2
Это модель, а точнее набор инструментов (interpretability tools), предназначенный для интерпретации поведения LLM. В частности, из семейства Gemma 3.
Работает Scope на основе SAE – это разреженные автоэнкодеры. Они представляют из себя модели, которые распутывают активации LLM и достают из них интерпретируемые концепции. Их называют «фичи»: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).
По сути, анализируя эти фичи, мы можем видеть, о чем на самом деле думала модель, генерируя тот или иной output. Например, она генерирует с виду безобидный код, но «думает» о концепции «кибератака». И это о чем-то нам говорит.
SAE, кстати, еще в 2023 предложили использовать Anthropic (вот наш разбор их статьи, которая сделала подход популярным). Но именно Google вывели автоэнкодеры на уровень продакшена. Сейчас это, фактически, первый и единственный открытый инструмент для вот такой детальной интерпретации LLM.
Первая версия Scope вышла в 2024. Тогда это работало только для небольших моделей и простых запросов. Теперь же подход масштабировали даже для модели на 27B.
Плюс, теперь инструмент стал более универсальным. Если оригинальная Scope существовала только для ограниченного числа слоев, то теперь можно целиком анализировать сложные диалоговые механизмы.
Судя по статье, в основном это получилось благодаря добавлению в модель Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между отдаленными слоями и облегчают анализ распределенных вычислений. А еще, кстати, SAE обучали по методу матрешки, как Gemma 3n (мы писали про этот метод вот тут).
Если хотите попробовать и покопаться в мыслях у моделей:
– здесь все необходимые веса
– здесь полезный Colab ноутбук с готовым кодом
– здесь техотчет, а вот тут хорошая понятная документация
Это модель, а точнее набор инструментов (interpretability tools), предназначенный для интерпретации поведения LLM. В частности, из семейства Gemma 3.
Работает Scope на основе SAE – это разреженные автоэнкодеры. Они представляют из себя модели, которые распутывают активации LLM и достают из них интерпретируемые концепции. Их называют «фичи»: это могут быть вещи из реального мира (мосты, коровы) или абстракции (ложь, отзывчивость).
По сути, анализируя эти фичи, мы можем видеть, о чем на самом деле думала модель, генерируя тот или иной output. Например, она генерирует с виду безобидный код, но «думает» о концепции «кибератака». И это о чем-то нам говорит.
SAE, кстати, еще в 2023 предложили использовать Anthropic (вот наш разбор их статьи, которая сделала подход популярным). Но именно Google вывели автоэнкодеры на уровень продакшена. Сейчас это, фактически, первый и единственный открытый инструмент для вот такой детальной интерпретации LLM.
Первая версия Scope вышла в 2024. Тогда это работало только для небольших моделей и простых запросов. Теперь же подход масштабировали даже для модели на 27B.
Плюс, теперь инструмент стал более универсальным. Если оригинальная Scope существовала только для ограниченного числа слоев, то теперь можно целиком анализировать сложные диалоговые механизмы.
Судя по статье, в основном это получилось благодаря добавлению в модель Skip-transcoders и Cross-layer transcoders. Это модули, которые помогают увидеть связи между отдаленными слоями и облегчают анализ распределенных вычислений. А еще, кстати, SAE обучали по методу матрешки, как Gemma 3n (мы писали про этот метод вот тут).
Если хотите попробовать и покопаться в мыслях у моделей:
– здесь все необходимые веса
– здесь полезный Colab ноутбук с готовым кодом
– здесь техотчет, а вот тут хорошая понятная документация
❤68👍32🔥13😁2
ARC-AGI 2, фактически, можно признавать решенным: система от стартапа Poetiq выбила ~75%
Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность.
То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд.
Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека.
Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу.
Код от Poetiq
Про подход этих ребят мы уже писали тут. У них нет своих моделей, они берут сильные базовые (в этом случае GPT-5.2) и с помощью специального пайплайна бустят их производительность.
То есть это, фактически, просто test-time надстройка над GPT-5.2: цикл с генерацией гипотез, самопроверками, программным поиском и тд.
Но в то время, как оригинальная GPT-5.2 выбивает около 60%, здесь результат на 15 процентных пунктов выше. Это первая система, которая настолько уверенно обходит на ARC-AGI-2 уровень среднего человека.
Стоимость, кстати, остается при этом в рамках +-адекватной нормы: 8 долларов на задачу.
Код от Poetiq
👍81🔥13❤9😁3🤯3👏1
«Плотность ИИ на гигабайт в Tesla на порядок выше, чем где бы то ни было» – Илон Маск
Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.
Кстати, еще год назад Андрей говорил, что у Tesla проблемы с ПО, и прошивка Waymo побеждает.
Напоминаем, что между двумя производителями существует принципиальная разница:
Waymo – это модульная система: она опирается на HD‑карты, лидары, датчики, 5G‑связь и множество нейросетей. Это работает хорошо и очень надежно, но только если какой-нибудь модуль случайно не откажет.
Tesla – это end‑to‑end: один огромный нейросетевой блок напрямую преобразует пиксели с камер в команды руления и торможения.
Так он прокомментировал твит Андрея Карпаты о том, что Tesla и Waymo сейчас находятся примерно на одном уровне.
Понимание Андрея устарело на данный момент. Программное обеспечение Tesla AI значительно продвинулось со времен, когда он ушел.
Кстати, еще год назад Андрей говорил, что у Tesla проблемы с ПО, и прошивка Waymo побеждает.
Напоминаем, что между двумя производителями существует принципиальная разница:
Waymo – это модульная система: она опирается на HD‑карты, лидары, датчики, 5G‑связь и множество нейросетей. Это работает хорошо и очень надежно, но только если какой-нибудь модуль случайно не откажет.
Tesla – это end‑to‑end: один огромный нейросетевой блок напрямую преобразует пиксели с камер в команды руления и торможения.
1❤62 35😁26👍8
Media is too big
VIEW IN TELEGRAM
Сэм Альтман про конкуренцию с Google*
➖ В 2023 году Google могла бы легко снести OpenAI, если бы компания отнеслась к стартапу серьезно и сфокусировалась на ИИ. Сейчас им сложнее наверстать упущенное.
➖ Дистрибуция Google колоссальна, но по качеству продукта и скорости эволюции OpenAI, как считает Альтман, может выиграть.
➖ Он называет бизнес-модель Google лучшей во всей технологической индустрии, но именно из‑за этого, по его словам, им трудно отказаться от классического поиска с рекламой ради радикально нового AI‑продукта. OpenAI же, грубо говоря, нечего терять.
➖ Google остается главным и очень опасным конкурентом. OpenAI, чтобы не отстать, планируют «строительство полноразмерной AI‑платформы, включающей модели + инфраструктуру + устройства/интерфейсы».
*из нового подкаста youtu.be/2P27Ef-LLuQ
*из нового подкаста youtu.be/2P27Ef-LLuQ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58😁47👍22🔥6 5🦄1