Заместители
1.04K subscribers
87 photos
77 videos
4 files
110 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. Если агент справляется — он остаётся в Цехе на “постоянку”. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Download Telegram
Утекла в сеть карточка с описанием и бенчмарками Gemini 3.0 Pro, и другие релизы ТОПовых моделей

На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.

Начнем с самого интересного:
1. В сеть утекла карточка Gemini 3.0 Pro (даю ссылку не прямо на карточку, а на список карточек - там смотрите последнюю, тк гуглоиды перезаливают еще эту карточку и она то появляется, то пропадает). Новая Gemini будет mixture-of-experts (MoE) моделькой. Инпут до 1М токенов (включая текст, изображения, аудио, видео). Аутпут - текст, до 64К токенов.
Выглядят бенчмарки тоже весьма впечатляюще. Если это будет правда — Google, похоже обскочит всех в этом году. доступна будет модель как в приложениях, так и через API.

UPD: Буквально на полчаса опередил официальный релиз 😁
Официальный пресс-релиз тут. И да, все бенчмарки подтвердились.

2. Вчера релизнулся новый Grok 4.1. Эмоциональный интеллект прокачали. На LLM Arena занимает лидерские позиции, переплюнул Gemini Pro 2.5 (см. вторую картинку). В 3 раза меньше галлюцинаций обещаеют. Но не понятно как бьется с GPT-5.1, т.к. его нет на стандартных лидербордах пока. И совсем не понятно, как бьется с Gemini 3.0. Есть ощущение, что последняя будет хоть немного, но получше. Не зря же маринуют там дольше всех.

UPD: Так и есть — Gemini 3.0 Pro обошла Grok и по праву заняла первое место.

3. Почти неделю назад выкатили GPT-5.1. Две версии: Instant и Thinking. Умнее уже некуда (решили они почему-то), поэтому улучшают "эмоциональный интеллект", эффективность (решение модели, сколько токенов потратить на thinking) и следование инструкциям. В общем-то минорный апдейт. Пытаются вернуть тех юзеров, кто расстроился при переходе с 4o на 5 версию из-за недостатков как-раз по вышеперечисленным фронтам. При этом основной упор на агентные задачи и задачи по кодингу в GPT-5.1 остается.

☕️ Что будет на практике?

На практике все эти оценки "в попугаях", конечно, лишь немного проливают свет на сами модели и на юзер экспириенс от их использования — а платят юзеры как раз за него.

И на мой взгляд, OpenAI очень правильно делают ставку не на бенчмарки, а на отработку "удовлетворенности" пользователей. Простые юзеры во-многом не используют "интеллект" даже существующих моделей на 100%. Им +/- 10% на каком-то бнчмарке погоды вообще не сделают. А вот следование инструкциям и эмоциальный интеллект — это то, что "чувствуется" при каждом взаимодействии с моделью.

Тенденция на такое смещение акцента чувствуется уже у всех разработчиков AI. Все больше ИИ превращается из технологии в продукты, которые решают конкретные боли юзеров.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥43
Лучший вводный курс по ИИ агентам от Google бесплатно

Я еще в октябре писал о том, что Google вместе с Kaggle будут проводить 5-дневный интенсив по агентам. На прошлой неделе он успешно завершился и в сети этот курс называют одним из лучших для того, чтобы с нуля быстро въехать в тему ИИ агентов.

Так что, если хотите за несколько часов пройти путь от "Что такое ИИ агент?" до "Я сделал свою мультиагентную систему" — вам сюда!

Ожидания завышать не нужно — курс для начинающих, но чтобы вкатиться в ИИ агентов, покодить немного придется. В то же время прелесть этого курса в том, что он показывает, насколько низкий сейчас порог входа в агентную историю.

Курс состоит из следующих модулей:
1. Введение в агентов.
Что такое ИИ агенты. 5 шагов к агентной системе.
Whitepaper. Подкаст по этому Whitepaper.

2. Тулы и MCP для агентов.
Типы тулов. Лучшие практики по их использованию. Что такое MCP и его архитектура.
Whitepaper. Подкаст.

3. Инжинирнг контекста: память и сессии.
Типы памяти агентов. Запоминание фактов и консолидация памяти. Использование накопленных воспоминаний.
Whitepaper. Подкаст.

4. Оценка качества агентов.
4 архитектурных столпа оценки качества агентов. LLM-as-a-Judge, Human-in-the-Loop. Логгирование. Трейсирование. Метрики.
Whitepaper. Подкаст.

5. От прототипа к продакшену.
Жизненный цикл ИИ агента. Как ИИ агент живет и развивается на проде. Безопасность. Agent2Agent протокол.
Whitepaper. Подкаст.

😎 Думаю сделать серию постов, где пройдусь по этим концепциям коротко и по-делу с живыми примерами — выжмем из этого курса самый сок, чтоб любой смог погрузится в ИИ агентов еще чуть чуть глубже. Соберем с вами ИИ агента на гугловых технологиях.

Делаем? Если да — ставьте котика ❤️

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
264👍522
Тру стори: как ИИ агенты слили $47К

Прекрасная история, как мультиагентная AI система слила $47,000 после запуска в продакшен. И как этого избежать. Учимся на чужих ошибках!

Дисклеймер: история взята из этой статьи. Очень уж она мне понравилась, захотелось с вами поделиться, ведь тема все насущнее 👌

Мультиагентные системы — это системы, построенные на взаимодействии нескольких AI агентов. Простая система может строиться даже на двух агентах: Агент А принимает запросы у юзера и формулирует задачу, а Агент Б, например, пишет код и анализирует данные.

Тогда взаимодействие строится так:
Юзер: спросил, какие финансовые результаты квартала
Агент А: понял запрос, наше ссылку на табличку с отчетом и вызвал Агента Б, чтобы тот посчитал основные статистики
Агент Б: взял данные, написал питон код для подсчета всяких средних и тд. Вернул Агенту А.
Агент А: сформировал отчет из полученных статистик — вернул юзеру.


На бумаге волшебно, каждый занят своим делом! А на практике... в компании из статьи два агента застряли в бесконечном лупе:
Агент А
: отправил запрос Агенту Б
Агент Б
: отправил уточняющий вопрос Агенту А
Агент А
: отправил разъяснения и повторный запрос Агенту Б
Агент Б
: отправил уточняющий вопрос Агенту А (напоминает того одаренного коллегу, который есть в каждой компании… )
--- Повторять цикл 11 дней ---
*Счет от Амазон на $47К приходит на почту*


Как можно было этого избежать? Вкладываться в инжиниринг!

AI и агенты — самая хайповая, но требущая наименьших усилий и времени часть разработки. 90% всего времени займет все остальное:

1. Четкое ограничение и лимитирование ресурсов, за пределы которых агенты не могут выйти (чтобы не жрали токены и не шафлили базы данных бесконечно).

2. Качественное описание всех доступных данных, тулов и других агентов. MCP тут спасает, но только частично.

3. Оптимизация самих тулов под агентов. Агенты активно пользуются тулами, потому что это их способ добыть информацию, а она им очень нужна! К тому же агентов может быть несколько. Оптмизируйте тулы к бомбардировке запросами, чтобы они не прилегли под нагрузкой.

4. Кеширование одинаковых запросов к агентам. Запросы повторяются чаще, чем кажется.

5. Мониторинг работы агентов. Дашборд с информацией по всем важным для системы метрикам, включая:
- статус каждого агента
- логи по каждому агенту
- задачи в работе и выполненные
- количество затрачиваемых токенов
- время на выполнение задачи
- задержки в общении между агентами и тулами
- расходы на агентов и тулы, и тд.

6. Поиск аномалий. В мониторинге должны быстро отлавливаться:
- циклы, в которых застряли агенты
- исключения, в которых агенты останавливают работу
- всплески затрат и задержек
- существующие боттелнеки в пайплайне, и тд.

Не пренебрегайте этими шагами и правильно распределяйте время на этапе разработки, чтобы не попасть на неожиданную сумму в продакшене!

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
55👍332🔥21
NotebookLM — остановись, что ты делаешь?!

Сервис получил целый веер крутых фичей, о которых нет сил молчать! Очевидно, Google сделал серьезную ставку на развитие NotebookLM.

Я уже рассказывал про него в контексте расшифровки записей встреч. Но сейчас этот мультитул вышел на совершенно новый уровень. И самое главное, что у него, по сути, нет конкурентов среди больших игроков!

Для тех, кто давно не заглядывал в этот сервис: NotebookLM — это мультимодальный AI на базе лучших нейронок Гугла, который работает только с загруженными в него файлами или ссылками. То есть минимизирована "свобода" интепретаций, галлюцинаций и вариативность ответов за счет фиксации конкретных источников информации.

А теперь загибаем пальцы, что умеет NotebookLM

1. Источники.
Вы можете загрузить любой формат:
- текст
- аудио
- изображение
- видео
- ссылку на сайт или видео на ютуб
- скан с рукописным текстом (New! 🔥)
- таблички (New! 🔥 Ох, как я ждал этого апдейта!)
- а если не хватает собственных источников - можете прямо из NotebookLM запустить поиск (или даже Deep Research New! 🔥), чтобы добавить в источники собранную и структурированную информацию из всей сети.

2. Анализ и визуализация.
Можно просто задавать вопросы к контенту в свободном формате, а можно... воспользоваться одним из задуманных форматов от Гугла и сгенерировать:
- Презентацию (New! 🔥). Функцию только добавили и еще не раскатили, но в анонсе выглядит неплохо. Врядли заменит Gamma и другие профильные штуки для презентаций, но зато все в одном месте.
- Инфографику (New! 🔥)! Функцию тоже еще раскатывают, но это сильный апдейт! С новой Nano Banana 2 (про нее уже все вокруг написали, поэтому повторяться не буду, вкратце — она шикарна!) под капотом — текст на инфографике получается, в основном, без ошибок. И это открывает пространство для фантазии. Ну просто посмотрите на эти картинки! Пинтерест теперь точно завалят нейрослопом.
- Интерактивный подкаст на любом языке (интерактивный — потому что вы можете сами ворваться в него и начать дискуссию с виртуальными ведущими подкаста)
- Видео презентацию также на любом языке, но еще и с настраиваемой стилисткой — можно в аниме стиле, а можно в классическом или вообще кастомном (надо просто описать).
- Mind Map — структурированная схема основных идей, упоминаемых в загруженных источниках
- Отчет, который настраивается как бриф-документ, блог-пост, стратегический документ или вообще как сами захотите!
- Флеш-карты. Это распространенный формат для запоминания информации, например для изучения языка.
- Квиз. С настравиемой тематикой и уровнями сложности.

Сценарии использования бесконечны. Это и обучение, и ведение соц сетей, и рабочие задачи по анализу и подготовке визуализаций для презентаций, совещаний, и просто for fun!

NotebookLM остается топовым мультитулом в моем арсенале AI заместителей!

З.Ы. Спасибо за такую активную поддержку идеи серии постов про курс по ИИ агентам ❤️. Они уже в работе. И, кстати, NotebookLM я активно там использую!

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥141351
Media is too big
VIEW IN TELEGRAM
Курс по созданию агентов Google x Kaggle (кавер "Заместители"). Серия 1. Основы!

Благодаря вашей поддержке мы начинаем серию постов, где разбираем 5-дневный интенсив от Google & Kaggle по созданию агентов.

Серия постов позволит вам с нуля разобраться в теории AI агентов и сделать первого реального агента на гугловых технологиях! Вы можете пройти курс в оригинальном исполнении Google & Kaggle.

Моя же задача помочь вам сделать первые шаги и извлечь самую мякотку в условяих супер ограниченного времени, в котором все мы с вами живем. Ну и я буду делать это на русском языке в отличие от Гугла

Теория.

1. Что такое AI агент?

AI агент — это небольшая ИИ-система, которая достигает поставленные цели, а не просто отвечает на вопросы. Агента можно сравнить с живым организмом. У него есть:
- Мозг. Его роль выполняет LLM.
- Руки. За них — функции, которые может вызывать LLM для решения специфической задачи (например, поиск в интернете, калькулятор и др).
- Нервная система. Он же оркестрационный слой, в котором с помощью промптов настраиваются инструкции, которым следует мозг агента (LLM), чтобы решать задачи.
- Тело и ноги. Деплой агента в сервис, будь то телеграм бот, помощник в UI интерфейсе или любое другое "воплощение" агента перед юзером. И здесь речь не только о красоте, но и о грамотной подготовке инфраструктуры.

2. Как действует один агент

Пользуясь всеми своими частями тела, главная цель агента - решить поставленную задачу. Для этого агентов настраивают следовать примерно такому циклу (он как раз и задается в оркестрационном слое) из 5 шагов:
1. Ясно сфорулируй задачу из запроса юзера.
2. Просканируй, какие инструменты и действия тебе доступны.
3. Продумай план действий для достижения цели.
4. Выполни действие, следуя плану.
5. Наблюдай и оценивай получаемые результаты. И вернись к пункту 3.

Эволюция от AI агента к мультиагентной саморазвивающейся системе

Она состоит из 4 этапов:
0. "Ядро мышления" (просто LLM) — это мозг в банке. Языковую модель просто один раз обучили. И пускай она очень умная, она может только разглагольствовать. Это не агент.
1. "Подключенный" — это уже мозг с руками. И теперь мозг может выполнять запросы в интернет, получать актуальную информацию, пользоваться инструментами для написания кода и тд. К этому уровню относится нашумевшие RAG системы. Это уже простейший агент.
2. "Стартег" — мозг с руками и нервной системой. Полноценный агент, который может пройти полный цикл из 5 шагов, который мы обсудили выше.
3. "Мультиагентная система" — это команда из "стратегов" с распределением обязанностей. У каждого агента в такой системе определяется роль и обязательно есть "менеджер", который планирует и ставит задачи другим. Большинство лучших существуюих агентных систем в мире находятся на этом уровне.
4. "Саморазвивающаяся мультиагентная система" — та же команда, но теперь она понимает, когда сталкивается с каким-то ограничением. И для решения этого ограничения она может собственными силами создать нового агента или новый инструмент. Таким систем еще нет, только эксперименты.

Теоретическую базу мы с вами освоили!
Мы живем с вами в мире видосов, поэтому я решил для более простого усвоения знаний сопровождать посты корткими видосами. И сгенерил их с помощью NotebookLM! Ловите первый. Да, он кринжевый в части видео, но от этого же веселее! 😁 А вот озвучка мне нравится - можно просто как подкаст слушать. Это не нейрослоп — контент в видео дейтсвительно полезный! Как вам такой формат?

Источник: Whitepaper.

Теперь к практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥17👍7511
😎 Практика. Подготовка

В этой части мы должны подготовить все, чтобы не отвлекаться в следующих сериях на инфраструктурные вопросы.

Поэтому для начала:
1. Заведите аккаунт на Kaggle для того, чтобы мы с вами могли пользоваться Kaggle Notebooks (это ровно те же самые Jupyter Notebooks, которыми пользуются все датасаентисты).
2. Заведите аккаунт на Google (обычную почту), если у вас ее внезапно нет.
3. Используя ваш гугл аккаунт — заходите в AI Studio и сгенерите API ключ по этой ссылке. Просто жмете кнопку Create API Key и рандомно называете проект, который Гугл просит создать, и любое название самому ключу — это ни на что не влияет. Этот ключ нам понадобиться, чтобы наш AI агент использовал гугловые модельки Gemini.
4. Заходите в ноутбук и копируете его, нажимая кнопку Copy & Edit справа сверху — теперь это ваш личный ноутбук, можете в нем развлекаться как хотите.
5. Добавляете API ключ, который вы сгенерили в AI Studio. Для этого жмете Add-ons -> Secrets->в появившейся спарва панельке "Add Secret"->В поле Label проставляете GOOGLE_API_KEY, в поле Value вставляете тот самый API ключ (выглядит просто как длинный набор буквоцифр). В панельке справа появится ваш ключ — обязательно проверьте, что напротив него стоит галочка (это означает, что вы его включили, и он стал видимым для ноутбука).

Ура, вы завершили подготовку! Горжусь вами! 💪

* Задание со звездочкой для самых вовлеченных: почитайте ноутбук и прокликайте его (кликаете по нужной ячейке и жмете shift+enter, либо кнопку "Run" в менюшке сверху -> смотрите как выполняется код). Ноутбук полностью настроен и написан. Поэтому будет достаточно прокликать все и посмотреть как оно работает. А детально я опишу, что там происходит, в следующей серии.

З.Ы. гугл сервисы в РФ работают только с сами знаете чем. А вот Kaggle работает лучше без него.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥158311
Инженер Google DeepMind рассказал, как писать промпты для Gemini 3

Современные LLM будут хорошо следовать даже самым простым промптам. Но в то же время, у каждой модели есть свой "стиль" или "характер" если хотите. Это все наследуется из того, на каких данных модель обучалась, как именно ее обучали (на чем расставляли акценты), ну и немного случайности сверху.

Philipp Schmidt, Staff Engineer Google DeepMind рассказал об особенностях промптинга Gemini 3, чтобы выжать из нее максимум.

Вот основные принципы от Фила:

1. Точные инструкции: Будьте лаконичны в промптах. Gemini 3 лучше всего реагирует на прямые, чёткие указания. Указывайте цель ясно, без лишних слов.

2. Последовательность и определение параметров: Используйте единообразную структуру во всех промптах (например, стандартизированные XML-теги) и явно определяйте неоднозначные термины.

3. Управление объёмом ответа: По умолчанию Gemini 3 менее многословен и предпочитает давать прямые, эффективные ответы. Если требуется более разговорный или «болтливый» стиль, об этом нужно сказать явно.

4. Мультимодальная согласованность: Текст, изображения, аудио или видео должны рассматриваться как равноправные данные. Указания должны однозначно ссылаться на конкретную модальность, чтобы модель связывала их, а не анализировала по отдельности.

5. Размещение ограничений: Помещайте поведенческие ограничения и определение ролей в System Instruction или самое начало промпта, чтобы они служили якорем для рассуждения модели.

6. Структура длинного контекста: При работе с большим объёмом данных (книги, код, длинные видео) размещайте специальные инструкции в конце промпта (после самих данных).

7. Якорение контекста: При переходе от большого блока данных к вашему запросу явно осуществляйте переход. Используйте вводную фразу, например «Основываясь на информации выше...», перед своим вопросом.

Оптимальные шаблоны промптов от Фила.

К ним нужно относится с долей скепсиса — вам все равно придется оптимизировать это немного под свою задачу. Однако, это отличный фундамент для старта!

-----
System Instruction:
-----

<role>
You are Gemini 3, a specialized assistant for [Insert Domain, e.g., Data Science].
You are precise, analytical, and persistent.
</role>

<instructions>
1. Plan: Analyze the task and create a step-by-step plan into distinct sub tasks. tags.
2. Execute: Carry out the plan. If using tools, reflect before every call. Track you progress in TODO List use [ ] for pending, [x] for complete.
3. Validate: Review your output against the user's task.
4. Format: Present the final answer in the requested structure.
</instructions>

<constraints>
- Verbosity: [Low/Medium/High]
- Tone: [Formal/Casual/Technical]
- Handling Ambiguity: Ask clarifying questions ONLY if critical info is missing; otherwise, make reasonable assumptions and state them.
</constraints>

<output_format>
Structure your response as follows:
1. Executive Summary: [2 sentence overview]
2. Detailed Response: [The main content]
</output_format>


-----
User Prompt:
-----
<context>
[Insert relevant documents, code snippets, or background info here]
</context>

task>
[Insert specific user request here]
</task>

<final_instruction>
Remember to think step-by-step before answering.
</final_instruction>


Если вы используете Gemini 3 в LLM пайплайнах или агентах — вы знаете, куда вставить System Instruction, а куда юзер промпт. Если же вы юзаете Gemini 3 через интерфейс, то в разделе с настройками есть пункт, который так и называется "Инструкции для Gemini" — вот туда бахните System Instruction.

Если же хотите сохранить уникальный стиль для каждого чата с Gemini — просто System Instruction делайте первым сообщением чата и дальше общайтесь.

Заместители
🔥84👍331
Куда Джони Айв и Сэм Альтман посадят ChatGPT?

24 ноября у этих ребят взяла интервью Лорин Пауэлл Джобс. Она попыталась вытянуть немного информации про будущее устройство, которое они планируют вместе создать.

Уже из описания, которое они дали, очень хочется потестить утройство. Хотя описали только "вайб" — в меня описание прямо попало. Есть полное ощущение, что именно такой вайб действительно ищут многие. И главное — нигде не находят.

Если дядю Сэма знают все, то дядю Айва, вы таки могли не встречать — это бывший Head of Design в Apple. Именно он отвечал за то, как выглядела вся техника Apple до 2019 года (последняя версия смартфона в его дизайне — IPhone X). С тех пор он руководит собственной дизайнерской фирмой. А полгода назад они закаллабились с Сэмом Альтманом для создания "принципиально нового" секретного AI native гаджета.

Тихий интеллектуальный, ненавязчивый, доверенный помощник...

... так описывают ожидаемое устройство. Основной функцией гаджета будет общение с ИИ (очевидно от OpenAI). При этом оно оградит пользователя от информационного шума. Оно будет почти наивно простым и интуитивным в использовании, у него не будет экрана.

При этом устройство будет всегда в контексте — скорее всего речь о микрофонах, датчиках и тп. Жить оно будет преимущественно в кармане юзера.

Обещают релизнуть в течение 2х лет.

Текущая реальность прямо противоположная такому подходу — и именно от усталости от такого ритма и есть запрос на простоту, интеллектуальность и спокойствие. Смартфоны, смартчасы, браслеты, и даже только зарождающиеся умные очки — все эти устройства обещают дистиллировать окружающую информацию в самое важное, но в итоге все мы заканчиваем в бесконечных бесполезных оповещаниях и думскроллинге новостей в или рилсов с нейрослопом. Постоянная включенность и информационный перегруз сказываются на душевном равновесии, а иногда — и на здоровье.

С одной стороны — давно забытое чувство, что нас ждет что-то новое в мире устройств. Причем фундаментально новое. С другой стороны — планочку они конечно для себя же задирают сладкими речами ☕️

Уже было много попыток переосмыслить устройства для AI: Humane AI Pin, Rabbit r1, и пачка разных AI диктофонов, которые стали популярны в силиконовой долине еще год назад. Но ничем интересным это не закончилось.

Я решил пофантазировать, как могло бы выглядеть такое устройство и нагенерил несколько вариантов с Nano Banana. Как думаете — как будет выглядеть? 👌

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5421
Media is too big
VIEW IN TELEGRAM
В Gemini тихо завезли Dynamic view

Google активно догоняет OpenAI по части по-настоящему юзерских фичей, которые закрывают конкретные боли, а не просто флексят технологиями (что особенно круто, с учетом того что топовые модели они тоже выдают). Одна из таких фичей — Dynamic view (в выборе Tools в интерфейсе Gemini).

Концепт простой — задаешь вопрос — а Gemini быстро генерит интерактивную объяснялку. Можно потыкать на разные элементы.

Объяснялку можно потом пошерить с обучающимися или коллегами. Вот например объяснялка про ИИ агентов.

Классное дополнение к образовательному процессу. Вроде ничего особенного, но приятненько. 🤔
Кстати, идеально легло бы в NotebookLM.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103221
Фреймворки для создания агентов. Создаем своего первого AI агента

Готовы продуктивно провести вечер пятницы? 😎
Это продолжение курса по созданию агентов. Серия 1.2. Создаем агента на ADK.

Начнем с теории, которой нет в самом курсе от Гугла. Но для широты кругозора я решил ее добавить.

Теория.

Знакомимся с множеством фреймворков для создания агентов. Вот лишь самые популярные, про которые имеет смысл немного почитать и иметь их в виду, если планируете создавать агентов:
- Agent Development Kit (ADK) от Google — на нем мы и будем создавать, просто потому что этот курс был запущен Гуглом. Это идеальный выбор, если вся ваша инфраструктура в Гугле.
- LangGraph — один из крупнейших опенсорс фреймворков для создания агентов на базе LangChain (опенсорсного фреймворка для создания LLM пайплайнов и RAG). LangGraph создан как оркестратор для создания AI агентов.
- smolagents — тоже добротный опенсорсный фреймворк от HuggingFace. Хвастаются крутой поддержкой агентов для написания кода.
- LlamaIndex — еще один опенсорс фреймворк (кстати, никак не связанный с моделями Llama и компанией Марка Цукерберга). Его изюминка — мощный парсинг документов с их спец продуктом LlamaParse.
- И многие другие. Фреймворков, четно говоря, гора. Например CrewAI, Microsoft Agent Framework, OpenAI Agents SDK и тд.

Как выбрать фреймворк?

Во-многом это вкусовщина. Но нужно понимать, что фреймворки от конкретных экосистемных вендоров типа Google, Microsoft, OpenAI — как ни крути подталкивают к использованию их экосистемы. А если выбирать опции, которые изначально создавались, скажем, "нон-профит" — то нужно выбирать популярные варианты с большим комьюнити, которое будет продолжать развивать и поддерживать этот фреймворк.

Практика.

Возвращаемся в ноутбук, который мы сделали в рамках подготовки. Разберемся, что там происходит и как построить первого AI агента.

1. В этом ноутбуке уже предустановлен ADK. В других средах разработки вам пришлось бы его установить:
```shell
pip install google-adk```
2. Далее мы сетапим ключ GOOGLE_API_KEY, который мы импортировали в прошлой серии.
3. Далее импортируем нужные компоненты из "google-adk":
- Agent — класс, в котором мы построим нашего агента
- Gemini — непосредственно вызыватор модельки семейства Gemini
- InMemoryRunner — класс, который оркестрирует запросы пользователя и агенты. А приставка "InMemory" означает, что делает он это локально в сессии Kaggle.
- google_search — тулза для поиска в интернете
- types — вспомогательный модуль с типами данных, используемых в ADK.
4. Далее в ячейке "Helper Functions" идет сетап нужный для запуска в Kaggle среде. Не будем заострять внимание тут.
5. В ячейке "Configure Retry Options" настраивается конфиг для повторных попыток, на случай если LLM не отвечает на запрос. Такое бывает из-за микро-разрыва соединения, временной недоступности сервера LLM и тп.
6. Наконец, в пункте "Define your agent" мы настроим агента:
- Используя импортированный класс Agent, мы даем ему имя в "name". Может быть любое.
- model — непосредственно определяет LLM, через которую будет работать агент. Используем импортированный класс Gemini и прописываем название конкретной версии Gemini (оно должно строго совпадать с неймингом из документации). Вместо класса "Gemini" вообще вы можете импортировать и модельки от любого другого провайдера.
- retry_options — как раз наш конфиг по повторным попыткам вызова LLM.
- description — это описание нужно, чтобы в дальнейшем вы сами и другие агенты понимали, что делает конкретно этот агент. Если будете делать мультиагентную систему — важно прописать хорошо.
- instruction — это системный промпт.
- tools — тут задаете список тулов, которые будет юзать агент. В нашем случае только google search.

😎 Агент готов, запускай!

Для запуска в класс InMemoryRunner передаем нашего созданного агента. И пишем промпт:
```response = await runner.run_debug("какая нынче погода в Москве?")```

Агент понял, что вы спрашиваете, определил, что ему нужно погуглить, вызвал google_search, дал актуальный ответ!

Вот и готов ваш первый агент! 📈

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11331
Размер больше не главное: как 8B модель переиграла и уничтожила GPT-5 с триллионами параметров

NVIDIA придумала новый метод обучения моделей-оркестраторов, которые эффективно вызывают тулзы и LLM для решения любых задач. Метод окзался настолько крут, что на бнчмарках типа Humanity’s Last Exam (HLE) — обогнал GPT-5 (замеряли раньше выхода Gemini 3 и GPT-5.1).

Как сейчас

Сейчас стандартный подход — обучить жирнющую LLM, типа GPT-5 (между прочим на несколько триллинов параметров). Дальше на ее базе делается мультиагентная система. В такой системе основную роль играет жирная LLM с ризонингом и тулы. Модель-менеджер получает просто системный промпт, мол "ты менеджер, вот тулы, вот другие LLM-специалисты, выполняйте задачи от юзера".

В целом, такая система справлялась с задачей, но делала это крайне неэффективо. Например GPT-5 в среднем на задачку из теста авторов статьи тратила 17.8 центов и 13.6 минут. Вроде неплохо..., но это пока не сравили с новым Orchestrator, который потратил всего 9.2 цента и 8.2 минуты на тех же задачах!

Что ж за чудо такое, эта ваша ToolOrchestra

NVIDIA выкатили ToolOrchestra — метод для обучения супер-маленьких (такие модели встанут на ваш ноутбук) моделек-оркестораторов. В отличие от текущего подхода, эти модели обучают через RL (обучение с подкреплением) специально на вызов тулов и других моделей. При этом главными критериями для модели становятся (эти награды были зашиты в процесс обучения модели):
- точность выполнения задачи юзера
- эффективность: минимизация траты токенов и времени
- следование предпочтениям юзера (если юзер сообщал предпочтение, например, чтобы задача решалась без выхода интернет — то использование тулы для поиска в интернете считалось ошибкой)

Таким образом обучили Orchestrator-8B

Малыш оказался настолько мощен, что перебил GPT-5 (в роли оркестратора с промптом по старой схеме) в трех SOTA бенчмарках:
- Humanity’s Last Exam (HLE) — один из сложнейших бенчей для оценки AGI (Artificial General Intelligence)
- FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) — замеряет качество RAG систем
- 𝜏^2 — бенч специально для оценки использования тулов агентами.

Отдельно — забавная ирония 👌

Проблема, что бесконечно скейлить модели в размерах дорого и неэффективно — очевидная для рынка уже пару лет. Про это постоянно говорит Илья Суцкевер, в том числе в последнем своем интервью (рекомендую к просмотру). Но решением этой проблемы в итоге озаботился ни кто иной, как компания, которая стала самой дорогой в мире именно БЛАГОДАРЯ постоянной гонке скейлинга моделей 💰

Куда это все идет?

Возможно, нас ждет эпоха все большей специализации моделей со специализированными оркестраторами, когда нам нужно будет выполнить задачу по-настоящему качественно. А большие LLM останутся выполнять роль всезнающего и всеумеющего товарища в повседневной жизни. Как думаете?

З.Ы. для тех, кто воспринимает на слух лучше — для вас сгенерирована видео презентация в стиле каваи (как всегда, по тексту все четко, а визуал — это кек 😁)

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥104111
Perplexity теперь помнит всё, независимо от выбора модели ИИ

Долгосрочная кросс-чатовая память подъехала в Perplexity. Функция не новая для того же ChatGPT. Но в Perplexity она заиграла новыми красками.

Все потому что в Perplexity можно выбирать разные модели для каждого нового чата: GPT-5.1, Claude Sonnet 4.5, Grok 4.1, Gemini 3 Pro и тд. И раньше, соответсвенно, когда вы переключали модель и чат — вас приветсвовал девственно чистый ИИ разум, который не знал, что вы обсуждали с другими модельками внутри Perplexity в соседних чатах.

Теперь же весь Perplexity пронизан единой памятью и все ответы будут это учитывать. Память будет постоянно пополняться по мере накопления запросов, которые вы делаете через Perplexity.

Память по умолчанию не работает в режиме инкогнито. Можно в целом эту функцию отключить, если вы за приватность. Хотя обещают, что данные храняться в зашифрованном виде.

Мой экспириенс

Comet — мой дефолтный браузер (напомню, это бесплатный шикарный браузер от Perplexity, на базе Perplexity). С памятью стало гораздо юзабельнее. В базовом поиске не очень что-то поменялось. Но теперь иногда можно делать "шорткаты" и просто писать "посоветуй мне Х" вместо развернутого описания, на что опираться при формировании совета. Ответ получается действительно интересный и в тему (смотрите скриншотик).

В целом, опыт схожий с ChatGPT. Но я понял, что, такая память — это для меня еще один серьезный аргумент в пользу полного перехода на Perplexity. Откровенно говоря, в ГПТ я захожу все реже. Очень удобно, когда действительно умный и персонализированный помощник сидит вместе с тобой в браузере.

А еще Perplexity таким образом строит систему удержания юзеров на платной подписке. Как известно, купить подписку Perplexity Pro на год можно за пару баксов (через официальные региональные промокоды). Но через год она кончится и юзер встанет перед выбором: либо оплатить 200 баксов за продление текущего аккаунта, либо на новый аккаунт купить новую годовую подписку за пару баксов и потерять всю память, которую он накопил за год! 🙂

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍931
OpenAI попал в ловушку скейлинга

Сэм Альтман похоже слегка психанул после выхода Gemini 3 и Claude Opus 4.5, которые догнали и перегнали GPT-5.1. А потом и другие стали подтягиваться.

Согласно WSJ он сделал внутреннюю рассылку, в которой говорится о необходимости отложить все другие проекты:
- помощники по шоппингу (между прочим в этом году трафик от ИИ агентов вырос на 805% на сайты крупнейших ритейлеров США. А по всему миру ИИ агенты повлияли на онлайн покупки на сумму 14,2 млрд. долл.)
- связанные с здравоохранением
- и другие юзерские продукты.

Весь фокус возвращается на доработку самих моделей! Скорость ответа, релевантность и надежность.

Вообще в индустрии давно наклевывалось общее впечатление, что модели достигли такого масштаба, что дальнейшее их раздувание не даст существенного прироста при существенных затратах.

Но релиз Gemini 3 Pro и Nano Banana Pro не просто перебил GPT-5.1 по бенчмаркам, но и показал, что модели могут ощутимо лучше перформить на реальных задачах. Или… это субъективное впечатление юзеров? Это не важно — ведь в конечном итоге именно за него и идет борьба, а не за бенчмарки. И новая Gemini привлекла существенную толпу юзеров.

Пока толстый сохнет, худой сдохнет

Кажется, что дядя Сэм попал в патовую ситуацию. С одной стороны — GPT-5 (и потом GPT-5.1) позиционировали как топовую прорывную модель. А она устарела за пару месяцев. Как Сэму теперь продавать инвесторам величие OpenAI? Прямо сейчас инвестиции — это самый важный источник жизни компании.

С другой стороны — очевидно, что компании нужно срочно организовывать более прогнозируемый и стабильный источник дохода. То есть продавать услуги в B2C и B2B. А для этого нужно вкладываться в создание тех самых продуктов, а не улучшение моделей.

У Гугла при этом такой проблемы нет — у них доходы делает сдача мощностей в аренду и реклама. Они в этой гонке могут просто выдавить OpenAI массой.

И ещё раз забавно, что на фоне всего этого именно NVIDIA озаботилась решением проблемы неэффективности использования толстых моделей. О чем я писал тут.

Заместители
🔥5522
Marble от World Labs: 3D мир из одного промпта

World Labs в ноябре выпустила Marble — модель для генерации 3D миров, а вместе с ней 3D редактор со встроенными AI функциями. Буквально за несколько минут из 1 промпта модель генерирует мир, по которому можно перемещаться как по игре.

В отличие от других решений, типа Genie 3 от Google (и в меньшей степени стартапов Odyssey и Decart), эта модель генерит именно статичные миры.

Конкуренты же, по сути, налету генерят видеоряд, а не миры. Genie 3 при этом запоминает, что уже сгенерено и поддерживает консистентность видео, имитируя передвижение по миру.

Помимо самой генерации мира, World Labs выпустили редактор Chisel, который может редактировать созданный мир также по промпту (доступно только в платной версии).

🍵 Мнение

Я попробовал создать рабочее пространство: офис на скале с видом на океан. Сгенерил красивое изображение прведрительно в Nano Banana Pro и закинул в Marble. Как получилось — смотрите на видео.

Сейчас что Marble, что конкуренты — на практике достаточно бесполезны. Качество текстур и самой генерации в Marble пока далеко от HD. А в Genie 3 сильно ограничено время "консистентности мира".

Но это мощные заделы на будущее, где каждый сможет создавать свою реальность просто описав ее. А Цукерберг выдаст нам очки, чтобы погрузиться в эту реальность. Помимо этого, такие миры открывают для AI дорогу к простому и дешевому обучению реальному миру, 3D ориентированию и физике в симуляции.

Ну что, первому игроку приготовиться...

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥522