Заместители

Утекла в сеть карточка с описанием и бенчмарками Gemini 3.0 Pro, и другие релизы ТОПовых моделей

На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.

Начнем с самого интересного:
1. В сеть утекла карточка Gemini 3.0 Pro (даю ссылку не прямо на карточку, а на список карточек - там смотрите последнюю, тк гуглоиды перезаливают еще эту карточку и она то появляется, то пропадает). Новая Gemini будет mixture-of-experts (MoE) моделькой. Инпут до 1М токенов (включая текст, изображения, аудио, видео). Аутпут - текст, до 64К токенов.
Выглядят бенчмарки тоже весьма впечатляюще. Если это будет правда — Google, похоже обскочит всех в этом году. доступна будет модель как в приложениях, так и через API.

UPD: Буквально на полчаса опередил официальный релиз 😁
Официальный пресс-релиз тут. И да, все бенчмарки подтвердились.

2. Вчера релизнулся новый Grok 4.1. Эмоциональный интеллект прокачали. На LLM Arena занимает лидерские позиции, переплюнул Gemini Pro 2.5 (см. вторую картинку). В 3 раза меньше галлюцинаций обещаеют. Но не понятно как бьется с GPT-5.1, т.к. его нет на стандартных лидербордах пока. И совсем не понятно, как бьется с Gemini 3.0. Есть ощущение, что последняя будет хоть немного, но получше. Не зря же маринуют там дольше всех.

UPD: Так и есть — Gemini 3.0 Pro обошла Grok и по праву заняла первое место.

3. Почти неделю назад выкатили GPT-5.1. Две версии: Instant и Thinking. Умнее уже некуда (решили они почему-то), поэтому улучшают "эмоциональный интеллект", эффективность (решение модели, сколько токенов потратить на thinking) и следование инструкциям. В общем-то минорный апдейт. Пытаются вернуть тех юзеров, кто расстроился при переходе с 4o на 5 версию из-за недостатков как-раз по вышеперечисленным фронтам. При этом основной упор на агентные задачи и задачи по кодингу в GPT-5.1 остается.

☕️

Что будет на практике?

На практике все эти оценки "в попугаях", конечно, лишь немного проливают свет на сами модели и на юзер экспириенс от их использования — а платят юзеры как раз за него.

И на мой взгляд, OpenAI очень правильно делают ставку не на бенчмарки, а на отработку "удовлетворенности" пользователей. Простые юзеры во-многом не используют "интеллект" даже существующих моделей на 100%. Им +/- 10% на каком-то бнчмарке погоды вообще не сделают. А вот следование инструкциям и эмоциальный интеллект — это то, что "чувствуется" при каждом взаимодействии с моделью.

Тенденция на такое смещение акцента чувствуется уже у всех разработчиков AI. Все больше ИИ превращается из технологии в продукты, которые решают конкретные боли юзеров.

Заместители

Please open Telegram to view this post