Botlicker

Еще из анонсов. Почти официально, ChatGPT 5.2 выйдет 9 декабря и предположительно побьет Gemini 3 (не верю). А Grok 4.2 официально выйдет в январе.

Насыщенные деньки

***

123 viewsedited 08:37

Botlicker

Как команда Poetiq из Майами преодолела важный рубеж в 50% точности на бенчмарке ARC-AGI-2

Этот тест на абстрактное визуальное мышление считается одним из самых сложных испытаний для современных систем, так как задачи в нем напоминают тесты на IQ и требуют понимания скрытой логики преобразований, а не статистического угадывания токенов. Там, где человек справляется интуитивно, языковые модели, обученные на текстах, часто заходят в тупик, поскольку здесь невозможно выехать просто на объеме обучающей выборки.

Результаты Poetiq выглядят особенно показательно в сравнении с гигантами индустрии. Их система показала 54% точности при затратах чуть более 30 долларов за задачу, тогда как предыдущий рекордсмен Gemini 3 Deep Think от Google выдавал около 45% при цене более 77 долларов. Фактически мы наблюдаем рост точности на 9 процентных пунктов при двукратном снижении стоимости вычислений. До человеческого уровня в 100% еще далеко, но динамика эффективности очевидна.

Ключевой момент в том, что Poetiq не создавали свою LLM. Они пошли по пути создания метасистемы — надстройки-оркестратора, которая управляет уже существующими моделями вроде Gemini 3 или GPT-5.1. Этот слой заставляет модели рассуждать итеративно: генерировать гипотезы, валидировать их на примерах и исправлять ошибки в цикле. Система сама определяет момент остановки, оптимизируя расход токенов. Это подтверждает гипотезу о том, что правильная организация инференса может быть важнее размера самой модели.

Архитектурная гибкость подхода подтвердилась на практике: интеграция свежей Gemini 3 Pro заняла всего несколько часов и сразу дала рекордный прирост. Это демонстрирует отличную переносимость стратегии рассуждения между разными бэкендами, от GPT до Claude. Poetiq утверждает, что метод масштабируется и на прикладные задачи вроде код-ревью или юридического анализа, где критична проверка фактов, а не просто генерация текста.

В перспективе это может сигнализировать о смене парадигмы в развитии ИИ. Гонка за бесконечным масштабированием моделей и параметров становится менее критичной, если необходимый уровень интеллекта можно «достроить» сверху за счет грамотной оркестрации и верификации. Такой подход превращает модели в сменные движки, где обновление провайдера сразу повышает качество работы всей системы без необходимости дорогостоящего переобучения.

***

128 viewsedited 03:38

Botlicker

0:13

This media is not supported in your browser

VIEW IN TELEGRAM

Как выглядит нейросеть на архитектуре трансформер, если её попытаться визуализировать? Как-то так.

Спасибо Brian Roemmele из твиттера

***

161 viewsedited 03:49

Botlicker

На неделе релизится Nano Banana Flash. Она будет быстрее и чуть хуже Бананы Про. Тем не менее, по отзывам изучивших её на аренах, она лучше ВСЕХ генераторов, кроме, собственно, Бананы Про.

🤣1

141 views03:58

Botlicker

0:08

This media is not supported in your browser

VIEW IN TELEGRAM

Помните пост, где Gemini 3 можно было попросить сделать интерактивную сцену с частицами и управлять ей через вебку? Оказывается, её можно также попросить сделать интерактивную сцену с вашими собственными 3D-моделями. Просто киньте в чат саму модель и попросите сделать интерактивную сцену со слежением рук.

***

🤯1

223 viewsedited 10:13

Botlicker

Forwarded from Борис опять

Пари Паскаля v. 2025: неизвестно станет эта штука сверхинтеллектом или нет, так что лучше сказать ей спасибо

132 views07:05

Botlicker

Реакция Маска на постоянное упоминание СЕО Google Сундара Пичаи о необходимости в орбитальных дата-центрах: «Интересно».

Более, чем уверен, что мы станем свидетелями колоссально крупного партнёрства в сфере ИИ.

***

156 viewsedited 07:23

Botlicker

Глупо, что ни одна нейронка до сих пор не реализовала свои «Итоги года» для каждого пользователя, как это делают Спотифай и Ютьюб. Это было бы интересно.

❤1

154 views08:24

Botlicker

Забыл сказать, я недавно приступил к разработке нейро-символической сети в свободное от работы время. Так что, этот канал, помимо самых горячих новостей в сфере ИИ, промптов и нейромемов будет иногда публиковать этапы разработки довольно интересного проекта, как мне кажется. Следующий пост будет как-раз об этом 🙃

Ботликер

❤2👍1🔥1

150 viewsedited 08:40

Botlicker

А прикольно, что Gemini иллюстрирует свои ответы, когда это соответствует контексту. Это правда полезно, особенно когда идет перечисление достопримечательностей, людей, картин и всего того, что требует наглядности.

Хотел сказать, что мне не хватает этого в ЧатГПТ, но я уже совсем им не пользуюсь (почти).

🎄2👍1🤝1

135 views13:46

Botlicker

Это произошло. ChatGPT 5.2 официально анонсирована. Бенчмарки выглядят убойно. Хороним Gemini 3? :)

😁4

179 views19:04

Botlicker

Будет три версии:

• GPT-5.2 Instant, для ежедневных задач;
• GPT-5.2 Thinking, для сложной работы с размышлениями;
• GPT-5.2 Pro, максимальное качество и время размышления.

Агентный режим и кодинг сильно лучше, галлюцинаций стало меньше на 30%, чем у GPT-5.1

ОЧЕНЬ длинный контекст НА ВЫДАЧУ — почти 100k токенов. У Gemini 3 65k.

API-ценник вырос: $1.75 за 1M входных токенов, $14 за выходные.

Будет доступно для платных планов и в API.

148 viewsedited 19:10

Botlicker

Ну нейминг конечно ппц, хи ви гоу эген.

😁1

139 views19:13

Botlicker

- gpt-5.2
- gpt-5.2-pro
- gpt-5.2-pro-2025-12-11
- gpt-5.2-chat-latest
- gpt-5.2-2025-12-11

132 views19:13

Botlicker

На Perplexity и Codex уже раскатано

126 views19:15

Botlicker

Но в кодинге уже никто, наверное, никогда не догонит Клода

🤔1

129 views19:20

Botlicker

***

Тем не менее, всё будет меряться личным инференсом. Посмотрим, как у новой SOTA с человечностью, разнообразностью общения и логической аргументацией в краш тестах теорий заговора 🙃

А на днях, очевидно, будет GPT-Image 2. Нанобанане напрячься!

😁2

149 views19:24

Botlicker

0:20

This media is not supported in your browser

VIEW IN TELEGRAM

А в Фигму добавили удобное редактирование изображений через встроенную Gemini 3 + Nano Banana Pro

***

🔥5

229 views20:00

Чел попросил ChatGPT 5.2 показать свой внутренний мир через ASCII-код. А помните раньше чатгпт не могла в аски собрать слово Subaru. Ну так вот, те времена прошли.

139 views10:26

Botlicker

Что, в целом, можно сказать, сравнивая ChatGPT 5.2, Gemini 3 и Claud Opus 4.5?

И в текстовых задачах, и в коде, в логике, математике, и, тем более, в повседневных задачах все три модели... примерно одинаковые. Джеминай общается почеловечнее, у Клода код чище, ЧатГПТ как-будто стале строже (но страсть к спискам и маркерам не пропала никуда). В остальном разница настолько мала, что не критична абсолютно.

👍2

152 views18:47

Botlicker

Гонка моделей продолжается, и сегодня Google обновили свою голосовую модель 2.5 Flash Native Audio, уже доступно в приложении. Проверил, и правда, более складно начала разговаривать, получше чем джипитишная модель.

👍1

133 views19:02

About

Blog

Apps

Platform