Google представил режим Deep Think для Gemini 3 и это прорыв
Сегодня Google официально запустил Deep Think — новый режим усиленного мышления для модели Gemini 3. Он доступен пользователям подписки Google AI Ultra прямо в приложении Gemini: достаточно выбрать соответствующий пункт в меню, и модель начнёт тратить больше времени и вычислительных ресурсов на глубокий анализ задачи перед ответом.
Этот режим заставляет алгоритм тратить время и серьезные вычислительные мощности не на генерацию слов, а на внутреннюю верификацию ответов перед их выдачей. Мы окончательно переходим от эры скорострельных чат-ботов к этапу вдумчивого машинного анализа, и это ощущается как долгожданное взросление технологии.
Главная инженерная красота здесь кроется в том, что в гражданскую версию модели перекочевала та самая логика, которая ранее принесла Google золото на математических олимпиадах IMO и турнирах по программированию ICPC. Теперь эта способность просчитывать варианты наперед и выбирать оптимальный маршрут решения стала доступна в обычном интерфейсе, превращая модель из эрудита в стратега.
Сухие цифры бенчмарков в этот раз выглядят интригующе именно своим качественным разрывом с прошлым. На тесте ARC-AGI-2, который считается одним из самых честных индикаторов интеллекта (так как требует решения визуальных задач с неизвестными ранее правилами), новинка выдает 45,1%. Чтобы понимать масштаб: предыдущая версия набирала там скромные 4,9%, а ближайшие конкуренты вроде GPT-5.1 застряли на отметке 17,6%. Такой скачок говорит о том, что модель научилась действительно обобщать информацию и видеть закономерности там, где раньше алгоритмы терялись.
В сложнейшем тесте Humanity’s Last Exam результат достиг 41%, что создает уверенный отрыв от рынка. В математических задачах AIME точность взлетела до 95%, а в написании кода модель демонстрирует надежность, которую сложно получить от стандартных генеративных сетей. Похоже, Google удалось нащупать архитектурное решение, позволяющее ИИ перестать быть просто генератором текста и стать инструментом для решения многоходовых инженерных задач.
Сегодня Google официально запустил Deep Think — новый режим усиленного мышления для модели Gemini 3. Он доступен пользователям подписки Google AI Ultra прямо в приложении Gemini: достаточно выбрать соответствующий пункт в меню, и модель начнёт тратить больше времени и вычислительных ресурсов на глубокий анализ задачи перед ответом.
Этот режим заставляет алгоритм тратить время и серьезные вычислительные мощности не на генерацию слов, а на внутреннюю верификацию ответов перед их выдачей. Мы окончательно переходим от эры скорострельных чат-ботов к этапу вдумчивого машинного анализа, и это ощущается как долгожданное взросление технологии.
Главная инженерная красота здесь кроется в том, что в гражданскую версию модели перекочевала та самая логика, которая ранее принесла Google золото на математических олимпиадах IMO и турнирах по программированию ICPC. Теперь эта способность просчитывать варианты наперед и выбирать оптимальный маршрут решения стала доступна в обычном интерфейсе, превращая модель из эрудита в стратега.
Сухие цифры бенчмарков в этот раз выглядят интригующе именно своим качественным разрывом с прошлым. На тесте ARC-AGI-2, который считается одним из самых честных индикаторов интеллекта (так как требует решения визуальных задач с неизвестными ранее правилами), новинка выдает 45,1%. Чтобы понимать масштаб: предыдущая версия набирала там скромные 4,9%, а ближайшие конкуренты вроде GPT-5.1 застряли на отметке 17,6%. Такой скачок говорит о том, что модель научилась действительно обобщать информацию и видеть закономерности там, где раньше алгоритмы терялись.
В сложнейшем тесте Humanity’s Last Exam результат достиг 41%, что создает уверенный отрыв от рынка. В математических задачах AIME точность взлетела до 95%, а в написании кода модель демонстрирует надежность, которую сложно получить от стандартных генеративных сетей. Похоже, Google удалось нащупать архитектурное решение, позволяющее ИИ перестать быть просто генератором текста и стать инструментом для решения многоходовых инженерных задач.
❤2
У меня сильное подозрение, что внутри Gemini 3 сидит смешанная архитектура. Я не говорю про ядро, оно очевидно трансформер. Но вот ЧАСТЬ ядра... Такой отрыв по логике и математике может указывать на то, что в архитектуре Gemini может использоваться гибридный подход, и часть её не является просто языковой моделью. Я ставлю на то, что Google начали эксперименты с нейро-символической архитектурой. И это дает свои результаты. Офигенные результаты.
Ну, собственно, чего я гадал, когда ДА:
Google стал одним из главных драйверов «нейро-символического ренессанса» 2024–2025 годов. Основная цель этого направления — решить проблему галлюцинаций LLM в задачах, требующих строгой логики и математической точности.
Флагманские проекты:
AlphaProof и AlphaGeometry 2: Это самые яркие примеры успеха. В 2025 году эта связка достигла уровня золотой медали на Международной математической олимпиаде (IMO).
Архитектура: Гибрид. Используется языковая модель (на базе Gemini) для перевода задач на формальный язык (Lean) и генерации идей, а также символический движок для строгой логической дедукции и проверки доказательств.
Gemini Deep Think: Технологии, отработанные на олимпиадных задачах, начали внедряться в потребительские модели под видом «режима глубокого мышления», позволяя модели выстраивать длинные цепочки рассуждений (Chain of Thought) с внутренней верификацией.
С чем я нас и поздравляю — официально началась эпоха доминирования нейро-символической архитектуры. Трансформеры не умирают, но занимают адекватное себе место, как рот для мозга.
Эпоха GPT не уходит. Она уже ушла.
Эпоха GPT не уходит. Она уже ушла.
Если кто не понял, нейро-символическая архитектура теоретически способна обучаться и запоминать. В отличие от трансформеров. Это... прямая дорожка к AGI.
На AlphaArena появилась загадочная «mystery model», которая буквально разрывает всех в реальном трейдинге.
Стартует с $10 000, торгует криптой, акциями и контрактами — и уверенно уходит в плюс, ловя пики с пугающей точностью. Остальные модели в основном сливают депозит, а эта будто знает будущее.
Илон Маск лично подтвердил в X: да, это тестовая версия Grok 4.20 (да, с ноликом в конце — это не опечатка 😉).
Официального анонса и даты релиза пока нет, но если xAI решит сделать подарок на Новый год — мы будем первыми в очереди 🎄
Стартует с $10 000, торгует криптой, акциями и контрактами — и уверенно уходит в плюс, ловя пики с пугающей точностью. Остальные модели в основном сливают депозит, а эта будто знает будущее.
Илон Маск лично подтвердил в X: да, это тестовая версия Grok 4.20 (да, с ноликом в конце — это не опечатка 😉).
Официального анонса и даты релиза пока нет, но если xAI решит сделать подарок на Новый год — мы будем первыми в очереди 🎄
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Промпт для создания полностью интерактивной 3D-сцены офисного здания в Gemini 3 без строчки кода.
Вообще, конечно, удивительно. Ни в телеграме среди ВСЕХ каналов по ИИ-тематике, ни в твиттере среди масс-блогеров, никто не обратил внимание на то, что новая архитектура Gemini 3 Deep Think Mode является первой масштабной нейросетью с гибридной архитектурой LLM+Neuro-Symboloc AI.
То есть, ключевую работу в Deep Think моде выполняет модуль AlphaGeometry, который буквально думает геометрией! То есть создает модель мира внутри. Это буквально world model. О которой грезит Лекун.
Это же революция!
Буду исправлять непорядок. Здесь будет много про геометрические сети.
То есть, ключевую работу в Deep Think моде выполняет модуль AlphaGeometry, который буквально думает геометрией! То есть создает модель мира внутри. Это буквально world model. О которой грезит Лекун.
Это же революция!
Буду исправлять непорядок. Здесь будет много про геометрические сети.
❤4👍1
Google продолжают давить новыми архитектурами
Вчера они представили архитектуру Titans — кандидата на замену трансформерам при сверхдлинных контекстах.
Модель хранит знания в «нейронной памяти» на базе глубокого MLP, обновляя её прямо во время инференса (общения с нейросетью). Это даёт эффективную долгосрочную память без квадратичной сложности.
Titans уже обходит GPT-4o на задаче поиска иголки в стоге сена с контекстом 2 млн токенов, имея меньше параметров. Память делится на постоянную и динамическую, обучение — по чанкам с полной параллелизацией.
Сопутствующая работа MIRAS делает управление памятью обычной оптимизационной задачей.
Очень перспективное направление: внимание для ближнего контекста + глубокая нейронная память для всего остального.
***
Вчера они представили архитектуру Titans — кандидата на замену трансформерам при сверхдлинных контекстах.
Модель хранит знания в «нейронной памяти» на базе глубокого MLP, обновляя её прямо во время инференса (общения с нейросетью). Это даёт эффективную долгосрочную память без квадратичной сложности.
Titans уже обходит GPT-4o на задаче поиска иголки в стоге сена с контекстом 2 млн токенов, имея меньше параметров. Память делится на постоянную и динамическую, обучение — по чанкам с полной параллелизацией.
Сопутствующая работа MIRAS делает управление памятью обычной оптимизационной задачей.
Очень перспективное направление: внимание для ближнего контекста + глубокая нейронная память для всего остального.
***
Еще из анонсов. Почти официально, ChatGPT 5.2 выйдет 9 декабря и предположительно побьет Gemini 3 (не верю). А Grok 4.2 официально выйдет в январе.
Насыщенные деньки
***
Насыщенные деньки
***
Как команда Poetiq из Майами преодолела важный рубеж в 50% точности на бенчмарке ARC-AGI-2
Этот тест на абстрактное визуальное мышление считается одним из самых сложных испытаний для современных систем, так как задачи в нем напоминают тесты на IQ и требуют понимания скрытой логики преобразований, а не статистического угадывания токенов. Там, где человек справляется интуитивно, языковые модели, обученные на текстах, часто заходят в тупик, поскольку здесь невозможно выехать просто на объеме обучающей выборки.
Результаты Poetiq выглядят особенно показательно в сравнении с гигантами индустрии. Их система показала 54% точности при затратах чуть более 30 долларов за задачу, тогда как предыдущий рекордсмен Gemini 3 Deep Think от Google выдавал около 45% при цене более 77 долларов. Фактически мы наблюдаем рост точности на 9 процентных пунктов при двукратном снижении стоимости вычислений. До человеческого уровня в 100% еще далеко, но динамика эффективности очевидна.
Ключевой момент в том, что Poetiq не создавали свою LLM. Они пошли по пути создания метасистемы — надстройки-оркестратора, которая управляет уже существующими моделями вроде Gemini 3 или GPT-5.1. Этот слой заставляет модели рассуждать итеративно: генерировать гипотезы, валидировать их на примерах и исправлять ошибки в цикле. Система сама определяет момент остановки, оптимизируя расход токенов. Это подтверждает гипотезу о том, что правильная организация инференса может быть важнее размера самой модели.
Архитектурная гибкость подхода подтвердилась на практике: интеграция свежей Gemini 3 Pro заняла всего несколько часов и сразу дала рекордный прирост. Это демонстрирует отличную переносимость стратегии рассуждения между разными бэкендами, от GPT до Claude. Poetiq утверждает, что метод масштабируется и на прикладные задачи вроде код-ревью или юридического анализа, где критична проверка фактов, а не просто генерация текста.
В перспективе это может сигнализировать о смене парадигмы в развитии ИИ. Гонка за бесконечным масштабированием моделей и параметров становится менее критичной, если необходимый уровень интеллекта можно «достроить» сверху за счет грамотной оркестрации и верификации. Такой подход превращает модели в сменные движки, где обновление провайдера сразу повышает качество работы всей системы без необходимости дорогостоящего переобучения.
***
Этот тест на абстрактное визуальное мышление считается одним из самых сложных испытаний для современных систем, так как задачи в нем напоминают тесты на IQ и требуют понимания скрытой логики преобразований, а не статистического угадывания токенов. Там, где человек справляется интуитивно, языковые модели, обученные на текстах, часто заходят в тупик, поскольку здесь невозможно выехать просто на объеме обучающей выборки.
Результаты Poetiq выглядят особенно показательно в сравнении с гигантами индустрии. Их система показала 54% точности при затратах чуть более 30 долларов за задачу, тогда как предыдущий рекордсмен Gemini 3 Deep Think от Google выдавал около 45% при цене более 77 долларов. Фактически мы наблюдаем рост точности на 9 процентных пунктов при двукратном снижении стоимости вычислений. До человеческого уровня в 100% еще далеко, но динамика эффективности очевидна.
Ключевой момент в том, что Poetiq не создавали свою LLM. Они пошли по пути создания метасистемы — надстройки-оркестратора, которая управляет уже существующими моделями вроде Gemini 3 или GPT-5.1. Этот слой заставляет модели рассуждать итеративно: генерировать гипотезы, валидировать их на примерах и исправлять ошибки в цикле. Система сама определяет момент остановки, оптимизируя расход токенов. Это подтверждает гипотезу о том, что правильная организация инференса может быть важнее размера самой модели.
Архитектурная гибкость подхода подтвердилась на практике: интеграция свежей Gemini 3 Pro заняла всего несколько часов и сразу дала рекордный прирост. Это демонстрирует отличную переносимость стратегии рассуждения между разными бэкендами, от GPT до Claude. Poetiq утверждает, что метод масштабируется и на прикладные задачи вроде код-ревью или юридического анализа, где критична проверка фактов, а не просто генерация текста.
В перспективе это может сигнализировать о смене парадигмы в развитии ИИ. Гонка за бесконечным масштабированием моделей и параметров становится менее критичной, если необходимый уровень интеллекта можно «достроить» сверху за счет грамотной оркестрации и верификации. Такой подход превращает модели в сменные движки, где обновление провайдера сразу повышает качество работы всей системы без необходимости дорогостоящего переобучения.
***
This media is not supported in your browser
VIEW IN TELEGRAM
Как выглядит нейросеть на архитектуре трансформер, если её попытаться визуализировать? Как-то так.
Спасибо Brian Roemmele из твиттера
***
Спасибо Brian Roemmele из твиттера
***
На неделе релизится Nano Banana Flash. Она будет быстрее и чуть хуже Бананы Про. Тем не менее, по отзывам изучивших её на аренах, она лучше ВСЕХ генераторов, кроме, собственно, Бананы Про.
🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
Помните пост, где Gemini 3 можно было попросить сделать интерактивную сцену с частицами и управлять ей через вебку? Оказывается, её можно также попросить сделать интерактивную сцену с вашими собственными 3D-моделями. Просто киньте в чат саму модель и попросите сделать интерактивную сцену со слежением рук.
***
***
🤯1
Forwarded from Борис опять
Пари Паскаля v. 2025: неизвестно станет эта штука сверхинтеллектом или нет, так что лучше сказать ей спасибо
Глупо, что ни одна нейронка до сих пор не реализовала свои «Итоги года» для каждого пользователя, как это делают Спотифай и Ютьюб. Это было бы интересно.
❤1