AI итоги 2025 года в двух авторитетных отчетах "State of AI Report" и "The State of AI in 2025".
В Москве сегодня пошел снег. А значит 2025 потихоньку движется к своему заврешнию (до НГ, кстати, ровно полтора месяца)! Но итоги года в сфере ИИ подвели уже в октябре. Из двух отчетов я хочу обсудить только самые интересные инсайты.
1. State of AI Report
Отчет уже 8 лет ежегодно публикуется инвестиционной компанией Air Street Capital. На 300 слайдах он охватывает научный, коммерческий, политический и другие аспекты развития ИИ технологий за год.
2025 год назвали годом "рассуждающих" моделей. Речь о ныне уже распространенных "thinking" версиях моделей, которые отвечают не сразу, а сначала проходят стадию "рефлексии" по вопросу пользователя.
Наиболее интересные итоги:
- ИИ становится научным помощником: системы типа DeepMind Co-Scientist и Stanford Virtual Lab автоматически генерируют, тестируют и проверяют гипотезы.
- Reasoning вышел в физический мир благодаря "Chain-of-Action" — воплощённым ИИ-системам, типа AI2 Molmo-Act и Google Gemini Robotics 1.5, которые "рассуждают" перед действием.
- Коммерческое развитие ускорилось: 44% американских компаний теперь платят за ИИ-инструменты (по сравнению с 5% в 2023 году), средний размер контракта достиг $530,000, а AI-стартапы растут в 1,5 раза быстрее конкурентов (по данным Ramp и Standard Metrics).
- Первый проведенный авторами отчета опрос специалистов по ИИ (более 1 200 респондентов) показал: 95% профессионалов используют ИИ на работе или дома, 76% платят за инструменты из своего кармана, большинство отмечают устойчивый рост продуктивности — есть убедительные признаки массового внедрения технологии.
- Началась промышленная эра ИИ: дата-центры на мульти-ГВт (пример: Stargate) — новая волна вычислительной инфраструктуры финансируется суверенными фондами из США, ОАЭ и Китая, а электрообеспечение становится главным ограничителем роста.
- AI политизируется еще сильнее: США продвигают «America-first AI», европейский закон об ИИ столкнулся с трудностями, Китай расширяет экосистему открытых моделей и наращивает производство локальных чипов.
- Дебаты об экзистенциальных рисках поутихли — внимание переключилось на более конкретных вопросах надёжности, киберустойчивости и долгосрочном управлении всё более автономными системами.
2. The state of AI in 2025: Agents, innovation, and transformation
Второй интересный отчет за авторством McKinsey. Он строится на опросе 1933 специалистов из 105 стран. Данные взвешены по ВВП стран, из которых отвечали респонденты. Отчет тоже уже несколько лет публикуется компанией.
Самые интересные инсайты "маков":
- Высокий интерес к ИИ-агентам: 62% респондентов сообщили, что их организации как минимум проводят эксперименты с ИИ-агентами.
- Положительные предварительные показатели влияния ИИ: 64% говорят, что ИИ способствует инновациям. Однако лишь 39% видят влияние ИИ на показатель EBIT на уровне всей компании.
- Передел рабочих процессов — ключевой фактор успеха: половина лидирующих компаний планирует использовать ИИ для трансформации бизнеса, и большинство из них уже меняют рабочие процессы.
- Разные взгляды на влияние ИИ на занятость: ожидания респондентов по поводу влияния ИИ на общий размер персонала в следующем году различаются: 32% прогнозируют снижение, 43% — отсутствие изменений и 13% — рост.
И это только маленькая доля инсайтов из отчетов. Поэтому рекомендую самим полистать на выходных📕
Заместители
В Москве сегодня пошел снег. А значит 2025 потихоньку движется к своему заврешнию (до НГ, кстати, ровно полтора месяца)! Но итоги года в сфере ИИ подвели уже в октябре. Из двух отчетов я хочу обсудить только самые интересные инсайты.
1. State of AI Report
Отчет уже 8 лет ежегодно публикуется инвестиционной компанией Air Street Capital. На 300 слайдах он охватывает научный, коммерческий, политический и другие аспекты развития ИИ технологий за год.
2025 год назвали годом "рассуждающих" моделей. Речь о ныне уже распространенных "thinking" версиях моделей, которые отвечают не сразу, а сначала проходят стадию "рефлексии" по вопросу пользователя.
Наиболее интересные итоги:
- ИИ становится научным помощником: системы типа DeepMind Co-Scientist и Stanford Virtual Lab автоматически генерируют, тестируют и проверяют гипотезы.
- Reasoning вышел в физический мир благодаря "Chain-of-Action" — воплощённым ИИ-системам, типа AI2 Molmo-Act и Google Gemini Robotics 1.5, которые "рассуждают" перед действием.
- Коммерческое развитие ускорилось: 44% американских компаний теперь платят за ИИ-инструменты (по сравнению с 5% в 2023 году), средний размер контракта достиг $530,000, а AI-стартапы растут в 1,5 раза быстрее конкурентов (по данным Ramp и Standard Metrics).
- Первый проведенный авторами отчета опрос специалистов по ИИ (более 1 200 респондентов) показал: 95% профессионалов используют ИИ на работе или дома, 76% платят за инструменты из своего кармана, большинство отмечают устойчивый рост продуктивности — есть убедительные признаки массового внедрения технологии.
- Началась промышленная эра ИИ: дата-центры на мульти-ГВт (пример: Stargate) — новая волна вычислительной инфраструктуры финансируется суверенными фондами из США, ОАЭ и Китая, а электрообеспечение становится главным ограничителем роста.
- AI политизируется еще сильнее: США продвигают «America-first AI», европейский закон об ИИ столкнулся с трудностями, Китай расширяет экосистему открытых моделей и наращивает производство локальных чипов.
- Дебаты об экзистенциальных рисках поутихли — внимание переключилось на более конкретных вопросах надёжности, киберустойчивости и долгосрочном управлении всё более автономными системами.
2. The state of AI in 2025: Agents, innovation, and transformation
Второй интересный отчет за авторством McKinsey. Он строится на опросе 1933 специалистов из 105 стран. Данные взвешены по ВВП стран, из которых отвечали респонденты. Отчет тоже уже несколько лет публикуется компанией.
Самые интересные инсайты "маков":
- Высокий интерес к ИИ-агентам: 62% респондентов сообщили, что их организации как минимум проводят эксперименты с ИИ-агентами.
- Положительные предварительные показатели влияния ИИ: 64% говорят, что ИИ способствует инновациям. Однако лишь 39% видят влияние ИИ на показатель EBIT на уровне всей компании.
- Передел рабочих процессов — ключевой фактор успеха: половина лидирующих компаний планирует использовать ИИ для трансформации бизнеса, и большинство из них уже меняют рабочие процессы.
- Разные взгляды на влияние ИИ на занятость: ожидания респондентов по поводу влияния ИИ на общий размер персонала в следующем году различаются: 32% прогнозируют снижение, 43% — отсутствие изменений и 13% — рост.
И это только маленькая доля инсайтов из отчетов. Поэтому рекомендую самим полистать на выходных
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍2❤1 1
Media is too big
VIEW IN TELEGRAM
Хороший гайд — это гайд, который хотя бы есть! А лучший — это который сделал за вас AI агент
Вы наверняка прочитали за свою жизнь не одну скучную и бестолково написанную инструкцию к сервису, продукту или процессу в вашей компании... И хорошо, если инструкция вовсе была — иногда просто сидишь тыкаешь наугад всякие эксель таблички, ссылки и пытаешься вкурить, что вообще происходит... И отмазка владельца такого процесса или сервиса всегда одна — "блин, да нет времени и рук делать эти инструкции! Спроси Васю — он тут 10 лет работает, все расскажет." Хватит это терпеть!🤡
Guidde просто создает красивые инструкции
Такой, на мой взгляд, должен быть слоган этого сервиса. Это AI расширение в Chrome, которое автоматически генерирует красивые, понятные, пошаговые инструкции для любых процессов или продуктов. И самое главное — вам не нужно будет ничего писать!
Работает элементарно:
1. Устанавливаете расширение и регистрируетесь
2. Жмакаете "Create a Guide"
3. Выбираете тип гайда и нажимаете "Start Capture"
4. А дальше просто заходите на вкладку браузера, где открыт нужный сервис / процесс и выполняете шаги, которые хотите, чтобы были в вашем гайде.
5. По окончании жмете Done на виджете на экране.
6. Заходите в ЛК на сайте Guidde — а там вас уже ждет полностью готовая инструкция в текстовом и ВИДЕО формате. Причем AI сам понимает, что за сервис и процесс был заснят и генерит закадровый голос, который рассказывает, что это за гайд и что нужно делать.
Я попробовал сделать гайд для нового сервиса от Google "Code Wiki". Сервис, который автоматически создает документацию для репозитория с кодом. Сейчас он работает только на ограниченной выборке опенсорс репозиториев, но в будущем обещают CLI версию для документации собственных проектов. Писал о нем короткий пост на Хабре. Вот так рассказал вам о двух классных продуктах для документации, получается... рекурсия😁
Потенциал применения Guidde большой:
- онбординг сотрудников в компанию по внутренним сервисам или процессам
- инструкции по новым фичам, в том числе для юзеров
- наполнение базы знаний компании понятными пошаговыми гайдами
- и другая документация, куда не хотелось вливать сотни человеко-часов...
Ушел обмазываться инструкциями всего, что еще осталось без инструкций...😈
Заместители
Вы наверняка прочитали за свою жизнь не одну скучную и бестолково написанную инструкцию к сервису, продукту или процессу в вашей компании... И хорошо, если инструкция вовсе была — иногда просто сидишь тыкаешь наугад всякие эксель таблички, ссылки и пытаешься вкурить, что вообще происходит... И отмазка владельца такого процесса или сервиса всегда одна — "блин, да нет времени и рук делать эти инструкции! Спроси Васю — он тут 10 лет работает, все расскажет." Хватит это терпеть!
Guidde просто создает красивые инструкции
Такой, на мой взгляд, должен быть слоган этого сервиса. Это AI расширение в Chrome, которое автоматически генерирует красивые, понятные, пошаговые инструкции для любых процессов или продуктов. И самое главное — вам не нужно будет ничего писать!
Работает элементарно:
1. Устанавливаете расширение и регистрируетесь
2. Жмакаете "Create a Guide"
3. Выбираете тип гайда и нажимаете "Start Capture"
4. А дальше просто заходите на вкладку браузера, где открыт нужный сервис / процесс и выполняете шаги, которые хотите, чтобы были в вашем гайде.
5. По окончании жмете Done на виджете на экране.
6. Заходите в ЛК на сайте Guidde — а там вас уже ждет полностью готовая инструкция в текстовом и ВИДЕО формате. Причем AI сам понимает, что за сервис и процесс был заснят и генерит закадровый голос, который рассказывает, что это за гайд и что нужно делать.
Я попробовал сделать гайд для нового сервиса от Google "Code Wiki". Сервис, который автоматически создает документацию для репозитория с кодом. Сейчас он работает только на ограниченной выборке опенсорс репозиториев, но в будущем обещают CLI версию для документации собственных проектов. Писал о нем короткий пост на Хабре. Вот так рассказал вам о двух классных продуктах для документации, получается... рекурсия
Потенциал применения Guidde большой:
- онбординг сотрудников в компанию по внутренним сервисам или процессам
- инструкции по новым фичам, в том числе для юзеров
- наполнение базы знаний компании понятными пошаговыми гайдами
- и другая документация, куда не хотелось вливать сотни человеко-часов...
Ушел обмазываться инструкциями всего, что еще осталось без инструкций...
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥5⚡3 1
Утекла в сеть карточка с описанием и бенчмарками Gemini 3.0 Pro, и другие релизы ТОПовых моделей
На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.
Начнем с самого интересного:
1. В сеть утекла карточка Gemini 3.0 Pro (даю ссылку не прямо на карточку, а на список карточек - там смотрите последнюю, тк гуглоиды перезаливают еще эту карточку и она то появляется, то пропадает). Новая Gemini будет mixture-of-experts (MoE) моделькой. Инпут до 1М токенов (включая текст, изображения, аудио, видео). Аутпут - текст, до 64К токенов.
Выглядят бенчмарки тоже весьма впечатляюще. Если это будет правда — Google, похоже обскочит всех в этом году. доступна будет модель как в приложениях, так и через API.
UPD: Буквально на полчаса опередил официальный релиз😁
Официальный пресс-релиз тут. И да, все бенчмарки подтвердились.
2. Вчера релизнулся новый Grok 4.1. Эмоциональный интеллект прокачали. На LLM Arena занимает лидерские позиции, переплюнул Gemini Pro 2.5 (см. вторую картинку). В 3 раза меньше галлюцинаций обещаеют. Но не понятно как бьется с GPT-5.1, т.к. его нет на стандартных лидербордах пока. И совсем не понятно, как бьется с Gemini 3.0. Есть ощущение, что последняя будет хоть немного, но получше. Не зря же маринуют там дольше всех.
UPD: Так и есть — Gemini 3.0 Pro обошла Grok и по праву заняла первое место.
3. Почти неделю назад выкатили GPT-5.1. Две версии: Instant и Thinking. Умнее уже некуда (решили они почему-то), поэтому улучшают "эмоциональный интеллект", эффективность (решение модели, сколько токенов потратить на thinking) и следование инструкциям. В общем-то минорный апдейт. Пытаются вернуть тех юзеров, кто расстроился при переходе с 4o на 5 версию из-за недостатков как-раз по вышеперечисленным фронтам. При этом основной упор на агентные задачи и задачи по кодингу в GPT-5.1 остается.
☕️ Что будет на практике?
На практике все эти оценки "в попугаях", конечно, лишь немного проливают свет на сами модели и на юзер экспириенс от их использования — а платят юзеры как раз за него.
И на мой взгляд, OpenAI очень правильно делают ставку не на бенчмарки, а на отработку "удовлетворенности" пользователей. Простые юзеры во-многом не используют "интеллект" даже существующих моделей на 100%. Им +/- 10% на каком-то бнчмарке погоды вообще не сделают. А вот следование инструкциям и эмоциальный интеллект — это то, что "чувствуется" при каждом взаимодействии с моделью.
Тенденция на такое смещение акцента чувствуется уже у всех разработчиков AI. Все больше ИИ превращается из технологии в продукты, которые решают конкретные боли юзеров.
Заместители
На одну неделю выпала прямо таки гора апдейтов топовых моделей. Конкуренция между AI разработчиками накалена, как между IPhone и Samsung в лучше годы. Пробежимся галопом по Европам, чтобы быть в курсе.
Начнем с самого интересного:
1. В сеть утекла карточка Gemini 3.0 Pro (даю ссылку не прямо на карточку, а на список карточек - там смотрите последнюю, тк гуглоиды перезаливают еще эту карточку и она то появляется, то пропадает). Новая Gemini будет mixture-of-experts (MoE) моделькой. Инпут до 1М токенов (включая текст, изображения, аудио, видео). Аутпут - текст, до 64К токенов.
Выглядят бенчмарки тоже весьма впечатляюще. Если это будет правда — Google, похоже обскочит всех в этом году. доступна будет модель как в приложениях, так и через API.
UPD: Буквально на полчаса опередил официальный релиз
Официальный пресс-релиз тут. И да, все бенчмарки подтвердились.
2. Вчера релизнулся новый Grok 4.1. Эмоциональный интеллект прокачали. На LLM Arena занимает лидерские позиции, переплюнул Gemini Pro 2.5 (см. вторую картинку). В 3 раза меньше галлюцинаций обещаеют. Но не понятно как бьется с GPT-5.1, т.к. его нет на стандартных лидербордах пока. И совсем не понятно, как бьется с Gemini 3.0. Есть ощущение, что последняя будет хоть немного, но получше. Не зря же маринуют там дольше всех.
UPD: Так и есть — Gemini 3.0 Pro обошла Grok и по праву заняла первое место.
3. Почти неделю назад выкатили GPT-5.1. Две версии: Instant и Thinking. Умнее уже некуда (решили они почему-то), поэтому улучшают "эмоциональный интеллект", эффективность (решение модели, сколько токенов потратить на thinking) и следование инструкциям. В общем-то минорный апдейт. Пытаются вернуть тех юзеров, кто расстроился при переходе с 4o на 5 версию из-за недостатков как-раз по вышеперечисленным фронтам. При этом основной упор на агентные задачи и задачи по кодингу в GPT-5.1 остается.
На практике все эти оценки "в попугаях", конечно, лишь немного проливают свет на сами модели и на юзер экспириенс от их использования — а платят юзеры как раз за него.
И на мой взгляд, OpenAI очень правильно делают ставку не на бенчмарки, а на отработку "удовлетворенности" пользователей. Простые юзеры во-многом не используют "интеллект" даже существующих моделей на 100%. Им +/- 10% на каком-то бнчмарке погоды вообще не сделают. А вот следование инструкциям и эмоциальный интеллект — это то, что "чувствуется" при каждом взаимодействии с моделью.
Тенденция на такое смещение акцента чувствуется уже у всех разработчиков AI. Все больше ИИ превращается из технологии в продукты, которые решают конкретные боли юзеров.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥4 3
Лучший вводный курс по ИИ агентам от Google бесплатно
Я еще в октябре писал о том, что Google вместе с Kaggle будут проводить 5-дневный интенсив по агентам. На прошлой неделе он успешно завершился и в сети этот курс называют одним из лучших для того, чтобы с нуля быстро въехать в тему ИИ агентов.
Так что, если хотите за несколько часов пройти путь от "Что такое ИИ агент?" до "Я сделал свою мультиагентную систему" — вам сюда!
Ожидания завышать не нужно — курс для начинающих, но чтобы вкатиться в ИИ агентов, покодить немного придется. В то же время прелесть этого курса в том, что он показывает, насколько низкий сейчас порог входа в агентную историю.
Курс состоит из следующих модулей:
1. Введение в агентов.
Что такое ИИ агенты. 5 шагов к агентной системе.
Whitepaper. Подкаст по этому Whitepaper.
2. Тулы и MCP для агентов.
Типы тулов. Лучшие практики по их использованию. Что такое MCP и его архитектура.
Whitepaper. Подкаст.
3. Инжинирнг контекста: память и сессии.
Типы памяти агентов. Запоминание фактов и консолидация памяти. Использование накопленных воспоминаний.
Whitepaper. Подкаст.
4. Оценка качества агентов.
4 архитектурных столпа оценки качества агентов. LLM-as-a-Judge, Human-in-the-Loop. Логгирование. Трейсирование. Метрики.
Whitepaper. Подкаст.
5. От прототипа к продакшену.
Жизненный цикл ИИ агента. Как ИИ агент живет и развивается на проде. Безопасность. Agent2Agent протокол.
Whitepaper. Подкаст.
😎 Думаю сделать серию постов, где пройдусь по этим концепциям коротко и по-делу с живыми примерами — выжмем из этого курса самый сок, чтоб любой смог погрузится в ИИ агентов еще чуть чуть глубже. Соберем с вами ИИ агента на гугловых технологиях.
Делаем? Если да — ставьте котика❤️
Заместители
Я еще в октябре писал о том, что Google вместе с Kaggle будут проводить 5-дневный интенсив по агентам. На прошлой неделе он успешно завершился и в сети этот курс называют одним из лучших для того, чтобы с нуля быстро въехать в тему ИИ агентов.
Так что, если хотите за несколько часов пройти путь от "Что такое ИИ агент?" до "Я сделал свою мультиагентную систему" — вам сюда!
Ожидания завышать не нужно — курс для начинающих, но чтобы вкатиться в ИИ агентов, покодить немного придется. В то же время прелесть этого курса в том, что он показывает, насколько низкий сейчас порог входа в агентную историю.
Курс состоит из следующих модулей:
1. Введение в агентов.
Что такое ИИ агенты. 5 шагов к агентной системе.
Whitepaper. Подкаст по этому Whitepaper.
2. Тулы и MCP для агентов.
Типы тулов. Лучшие практики по их использованию. Что такое MCP и его архитектура.
Whitepaper. Подкаст.
3. Инжинирнг контекста: память и сессии.
Типы памяти агентов. Запоминание фактов и консолидация памяти. Использование накопленных воспоминаний.
Whitepaper. Подкаст.
4. Оценка качества агентов.
4 архитектурных столпа оценки качества агентов. LLM-as-a-Judge, Human-in-the-Loop. Логгирование. Трейсирование. Метрики.
Whitepaper. Подкаст.
5. От прототипа к продакшену.
Жизненный цикл ИИ агента. Как ИИ агент живет и развивается на проде. Безопасность. Agent2Agent протокол.
Whitepaper. Подкаст.
Делаем? Если да — ставьте котика
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2 64👍5⚡2 2
Тру стори: как ИИ агенты слили $47К
Прекрасная история, как мультиагентная AI система слила $47,000 после запуска в продакшен. И как этого избежать. Учимся на чужих ошибках!
Дисклеймер: история взята из этой статьи. Очень уж она мне понравилась, захотелось с вами поделиться, ведь тема все насущнее👌
Мультиагентные системы — это системы, построенные на взаимодействии нескольких AI агентов. Простая система может строиться даже на двух агентах: Агент А принимает запросы у юзера и формулирует задачу, а Агент Б, например, пишет код и анализирует данные.
Тогда взаимодействие строится так:
На бумаге волшебно, каждый занят своим делом! А на практике... в компании из статьи два агента застряли в бесконечном лупе:
Как можно было этого избежать? Вкладываться в инжиниринг!
AI и агенты — самая хайповая, но требущая наименьших усилий и времени часть разработки. 90% всего времени займет все остальное:
1. Четкое ограничение и лимитирование ресурсов, за пределы которых агенты не могут выйти (чтобы не жрали токены и не шафлили базы данных бесконечно).
2. Качественное описание всех доступных данных, тулов и других агентов. MCP тут спасает, но только частично.
3. Оптимизация самих тулов под агентов. Агенты активно пользуются тулами, потому что это их способ добыть информацию, а она им очень нужна! К тому же агентов может быть несколько. Оптмизируйте тулы к бомбардировке запросами, чтобы они не прилегли под нагрузкой.
4. Кеширование одинаковых запросов к агентам. Запросы повторяются чаще, чем кажется.
5. Мониторинг работы агентов. Дашборд с информацией по всем важным для системы метрикам, включая:
- статус каждого агента
- логи по каждому агенту
- задачи в работе и выполненные
- количество затрачиваемых токенов
- время на выполнение задачи
- задержки в общении между агентами и тулами
- расходы на агентов и тулы, и тд.
6. Поиск аномалий. В мониторинге должны быстро отлавливаться:
- циклы, в которых застряли агенты
- исключения, в которых агенты останавливают работу
- всплески затрат и задержек
- существующие боттелнеки в пайплайне, и тд.
Не пренебрегайте этими шагами и правильно распределяйте время на этапе разработки, чтобы не попасть на неожиданную сумму в продакшене!☀ ️
Заместители
Прекрасная история, как мультиагентная AI система слила $47,000 после запуска в продакшен. И как этого избежать. Учимся на чужих ошибках!
Дисклеймер: история взята из этой статьи. Очень уж она мне понравилась, захотелось с вами поделиться, ведь тема все насущнее
Мультиагентные системы — это системы, построенные на взаимодействии нескольких AI агентов. Простая система может строиться даже на двух агентах: Агент А принимает запросы у юзера и формулирует задачу, а Агент Б, например, пишет код и анализирует данные.
Тогда взаимодействие строится так:
Юзер: спросил, какие финансовые результаты квартала
Агент А: понял запрос, наше ссылку на табличку с отчетом и вызвал Агента Б, чтобы тот посчитал основные статистики
Агент Б: взял данные, написал питон код для подсчета всяких средних и тд. Вернул Агенту А.
Агент А: сформировал отчет из полученных статистик — вернул юзеру.
На бумаге волшебно, каждый занят своим делом! А на практике... в компании из статьи два агента застряли в бесконечном лупе:
Агент А
: отправил запрос Агенту Б
Агент Б
: отправил уточняющий вопрос Агенту А
Агент А
: отправил разъяснения и повторный запрос Агенту Б
Агент Б
: отправил уточняющий вопрос Агенту А (напоминает того одаренного коллегу, который есть в каждой компании… )
--- Повторять цикл 11 дней ---
*Счет от Амазон на $47К приходит на почту*
Как можно было этого избежать? Вкладываться в инжиниринг!
AI и агенты — самая хайповая, но требущая наименьших усилий и времени часть разработки. 90% всего времени займет все остальное:
1. Четкое ограничение и лимитирование ресурсов, за пределы которых агенты не могут выйти (чтобы не жрали токены и не шафлили базы данных бесконечно).
2. Качественное описание всех доступных данных, тулов и других агентов. MCP тут спасает, но только частично.
3. Оптимизация самих тулов под агентов. Агенты активно пользуются тулами, потому что это их способ добыть информацию, а она им очень нужна! К тому же агентов может быть несколько. Оптмизируйте тулы к бомбардировке запросами, чтобы они не прилегли под нагрузкой.
4. Кеширование одинаковых запросов к агентам. Запросы повторяются чаще, чем кажется.
5. Мониторинг работы агентов. Дашборд с информацией по всем важным для системы метрикам, включая:
- статус каждого агента
- логи по каждому агенту
- задачи в работе и выполненные
- количество затрачиваемых токенов
- время на выполнение задачи
- задержки в общении между агентами и тулами
- расходы на агентов и тулы, и тд.
6. Поиск аномалий. В мониторинге должны быстро отлавливаться:
- циклы, в которых застряли агенты
- исключения, в которых агенты останавливают работу
- всплески затрат и задержек
- существующие боттелнеки в пайплайне, и тд.
Не пренебрегайте этими шагами и правильно распределяйте время на этапе разработки, чтобы не попасть на неожиданную сумму в продакшене!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5 5👍3 3⚡2🔥2 1
NotebookLM — остановись, что ты делаешь?!
Сервис получил целый веер крутых фичей, о которых нет сил молчать! Очевидно, Google сделал серьезную ставку на развитие NotebookLM.
Я уже рассказывал про него в контексте расшифровки записей встреч. Но сейчас этот мультитул вышел на совершенно новый уровень. И самое главное, что у него, по сути, нет конкурентов среди больших игроков!
Для тех, кто давно не заглядывал в этот сервис: NotebookLM — это мультимодальный AI на базе лучших нейронок Гугла, который работает только с загруженными в него файлами или ссылками. То есть минимизирована "свобода" интепретаций, галлюцинаций и вариативность ответов за счет фиксации конкретных источников информации.
А теперь загибаем пальцы, что умеет NotebookLM
1. Источники.
Вы можете загрузить любой формат:
- текст
- аудио
- изображение
- видео
- ссылку на сайт или видео на ютуб
- скан с рукописным текстом (New!🔥 )
- таблички (New!🔥 Ох, как я ждал этого апдейта!)
- а если не хватает собственных источников - можете прямо из NotebookLM запустить поиск (или даже Deep Research New!🔥 ), чтобы добавить в источники собранную и структурированную информацию из всей сети.
2. Анализ и визуализация.
Можно просто задавать вопросы к контенту в свободном формате, а можно... воспользоваться одним из задуманных форматов от Гугла и сгенерировать:
- Презентацию (New!🔥 ). Функцию только добавили и еще не раскатили, но в анонсе выглядит неплохо. Врядли заменит Gamma и другие профильные штуки для презентаций, но зато все в одном месте.
- Инфографику (New!🔥 )! Функцию тоже еще раскатывают, но это сильный апдейт! С новой Nano Banana 2 (про нее уже все вокруг написали, поэтому повторяться не буду, вкратце — она шикарна!) под капотом — текст на инфографике получается, в основном, без ошибок. И это открывает пространство для фантазии. Ну просто посмотрите на эти картинки! Пинтерест теперь точно завалят нейрослопом.
- Интерактивный подкаст на любом языке (интерактивный — потому что вы можете сами ворваться в него и начать дискуссию с виртуальными ведущими подкаста)
- Видео презентацию также на любом языке, но еще и с настраиваемой стилисткой — можно в аниме стиле, а можно в классическом или вообще кастомном (надо просто описать).
- Mind Map — структурированная схема основных идей, упоминаемых в загруженных источниках
- Отчет, который настраивается как бриф-документ, блог-пост, стратегический документ или вообще как сами захотите!
- Флеш-карты. Это распространенный формат для запоминания информации, например для изучения языка.
- Квиз. С настравиемой тематикой и уровнями сложности.
Сценарии использования бесконечны. Это и обучение, и ведение соц сетей, и рабочие задачи по анализу и подготовке визуализаций для презентаций, совещаний, и просто for fun!
NotebookLM остается топовым мультитулом в моем арсенале AI заместителей!
З.Ы. Спасибо за такую активную поддержку идеи серии постов про курс по ИИ агентам❤️ . Они уже в работе. И, кстати, NotebookLM я активно там использую!
Заместители
Сервис получил целый веер крутых фичей, о которых нет сил молчать! Очевидно, Google сделал серьезную ставку на развитие NotebookLM.
Я уже рассказывал про него в контексте расшифровки записей встреч. Но сейчас этот мультитул вышел на совершенно новый уровень. И самое главное, что у него, по сути, нет конкурентов среди больших игроков!
Для тех, кто давно не заглядывал в этот сервис: NotebookLM — это мультимодальный AI на базе лучших нейронок Гугла, который работает только с загруженными в него файлами или ссылками. То есть минимизирована "свобода" интепретаций, галлюцинаций и вариативность ответов за счет фиксации конкретных источников информации.
А теперь загибаем пальцы, что умеет NotebookLM
1. Источники.
Вы можете загрузить любой формат:
- текст
- аудио
- изображение
- видео
- ссылку на сайт или видео на ютуб
- скан с рукописным текстом (New!
- таблички (New!
- а если не хватает собственных источников - можете прямо из NotebookLM запустить поиск (или даже Deep Research New!
2. Анализ и визуализация.
Можно просто задавать вопросы к контенту в свободном формате, а можно... воспользоваться одним из задуманных форматов от Гугла и сгенерировать:
- Презентацию (New!
- Инфографику (New!
- Интерактивный подкаст на любом языке (интерактивный — потому что вы можете сами ворваться в него и начать дискуссию с виртуальными ведущими подкаста)
- Видео презентацию также на любом языке, но еще и с настраиваемой стилисткой — можно в аниме стиле, а можно в классическом или вообще кастомном (надо просто описать).
- Mind Map — структурированная схема основных идей, упоминаемых в загруженных источниках
- Отчет, который настраивается как бриф-документ, блог-пост, стратегический документ или вообще как сами захотите!
- Флеш-карты. Это распространенный формат для запоминания информации, например для изучения языка.
- Квиз. С настравиемой тематикой и уровнями сложности.
Сценарии использования бесконечны. Это и обучение, и ведение соц сетей, и рабочие задачи по анализу и подготовке визуализаций для презентаций, совещаний, и просто for fun!
NotebookLM остается топовым мультитулом в моем арсенале AI заместителей!
З.Ы. Спасибо за такую активную поддержку идеи серии постов про курс по ИИ агентам
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15 13❤5 1
Media is too big
VIEW IN TELEGRAM
Курс по созданию агентов Google x Kaggle (кавер "Заместители"). Серия 1. Основы!
Благодаря вашей поддержке мы начинаем серию постов, где разбираем 5-дневный интенсив от Google & Kaggle по созданию агентов.
Серия постов позволит вам с нуля разобраться в теории AI агентов и сделать первого реального агента на гугловых технологиях! Вы можете пройти курс в оригинальном исполнении Google & Kaggle.
Моя же задача помочь вам сделать первые шаги и извлечь самую мякотку в условяих супер ограниченного времени, в котором все мы с вами живем. Ну и я буду делать это на русском языке в отличие от Гугла✋
Теория.
1. Что такое AI агент?
AI агент — это небольшая ИИ-система, которая достигает поставленные цели, а не просто отвечает на вопросы. Агента можно сравнить с живым организмом. У него есть:
- Мозг. Его роль выполняет LLM.
- Руки. За них — функции, которые может вызывать LLM для решения специфической задачи (например, поиск в интернете, калькулятор и др).
- Нервная система. Он же оркестрационный слой, в котором с помощью промптов настраиваются инструкции, которым следует мозг агента (LLM), чтобы решать задачи.
- Тело и ноги. Деплой агента в сервис, будь то телеграм бот, помощник в UI интерфейсе или любое другое "воплощение" агента перед юзером. И здесь речь не только о красоте, но и о грамотной подготовке инфраструктуры.
2. Как действует один агент
Пользуясь всеми своими частями тела, главная цель агента - решить поставленную задачу. Для этого агентов настраивают следовать примерно такому циклу (он как раз и задается в оркестрационном слое) из 5 шагов:
1. Ясно сфорулируй задачу из запроса юзера.
2. Просканируй, какие инструменты и действия тебе доступны.
3. Продумай план действий для достижения цели.
4. Выполни действие, следуя плану.
5. Наблюдай и оценивай получаемые результаты. И вернись к пункту 3.
Эволюция от AI агента к мультиагентной саморазвивающейся системе
Она состоит из 4 этапов:
0. "Ядро мышления" (просто LLM) — это мозг в банке. Языковую модель просто один раз обучили. И пускай она очень умная, она может только разглагольствовать. Это не агент.
1. "Подключенный" — это уже мозг с руками. И теперь мозг может выполнять запросы в интернет, получать актуальную информацию, пользоваться инструментами для написания кода и тд. К этому уровню относится нашумевшие RAG системы. Это уже простейший агент.
2. "Стартег" — мозг с руками и нервной системой. Полноценный агент, который может пройти полный цикл из 5 шагов, который мы обсудили выше.
3. "Мультиагентная система" — это команда из "стратегов" с распределением обязанностей. У каждого агента в такой системе определяется роль и обязательно есть "менеджер", который планирует и ставит задачи другим. Большинство лучших существуюих агентных систем в мире находятся на этом уровне.
4. "Саморазвивающаяся мультиагентная система" — та же команда, но теперь она понимает, когда сталкивается с каким-то ограничением. И для решения этого ограничения она может собственными силами создать нового агента или новый инструмент. Таким систем еще нет, только эксперименты.
Теоретическую базу мы с вами освоили!
Мы живем с вами в мире видосов, поэтому я решил для более простого усвоения знаний сопровождать посты корткими видосами. И сгенерил их с помощью NotebookLM! Ловите первый. Да, он кринжевый в части видео, но от этого же веселее!😁 А вот озвучка мне нравится - можно просто как подкаст слушать. Это не нейрослоп — контент в видео дейтсвительно полезный! Как вам такой формат?
Источник: Whitepaper.
Теперь к практике.
Благодаря вашей поддержке мы начинаем серию постов, где разбираем 5-дневный интенсив от Google & Kaggle по созданию агентов.
Серия постов позволит вам с нуля разобраться в теории AI агентов и сделать первого реального агента на гугловых технологиях! Вы можете пройти курс в оригинальном исполнении Google & Kaggle.
Моя же задача помочь вам сделать первые шаги и извлечь самую мякотку в условяих супер ограниченного времени, в котором все мы с вами живем. Ну и я буду делать это на русском языке в отличие от Гугла
Теория.
1. Что такое AI агент?
AI агент — это небольшая ИИ-система, которая достигает поставленные цели, а не просто отвечает на вопросы. Агента можно сравнить с живым организмом. У него есть:
- Мозг. Его роль выполняет LLM.
- Руки. За них — функции, которые может вызывать LLM для решения специфической задачи (например, поиск в интернете, калькулятор и др).
- Нервная система. Он же оркестрационный слой, в котором с помощью промптов настраиваются инструкции, которым следует мозг агента (LLM), чтобы решать задачи.
- Тело и ноги. Деплой агента в сервис, будь то телеграм бот, помощник в UI интерфейсе или любое другое "воплощение" агента перед юзером. И здесь речь не только о красоте, но и о грамотной подготовке инфраструктуры.
2. Как действует один агент
Пользуясь всеми своими частями тела, главная цель агента - решить поставленную задачу. Для этого агентов настраивают следовать примерно такому циклу (он как раз и задается в оркестрационном слое) из 5 шагов:
1. Ясно сфорулируй задачу из запроса юзера.
2. Просканируй, какие инструменты и действия тебе доступны.
3. Продумай план действий для достижения цели.
4. Выполни действие, следуя плану.
5. Наблюдай и оценивай получаемые результаты. И вернись к пункту 3.
Эволюция от AI агента к мультиагентной саморазвивающейся системе
Она состоит из 4 этапов:
0. "Ядро мышления" (просто LLM) — это мозг в банке. Языковую модель просто один раз обучили. И пускай она очень умная, она может только разглагольствовать. Это не агент.
1. "Подключенный" — это уже мозг с руками. И теперь мозг может выполнять запросы в интернет, получать актуальную информацию, пользоваться инструментами для написания кода и тд. К этому уровню относится нашумевшие RAG системы. Это уже простейший агент.
2. "Стартег" — мозг с руками и нервной системой. Полноценный агент, который может пройти полный цикл из 5 шагов, который мы обсудили выше.
3. "Мультиагентная система" — это команда из "стратегов" с распределением обязанностей. У каждого агента в такой системе определяется роль и обязательно есть "менеджер", который планирует и ставит задачи другим. Большинство лучших существуюих агентных систем в мире находятся на этом уровне.
4. "Саморазвивающаяся мультиагентная система" — та же команда, но теперь она понимает, когда сталкивается с каким-то ограничением. И для решения этого ограничения она может собственными силами создать нового агента или новый инструмент. Таким систем еще нет, только эксперименты.
Теоретическую базу мы с вами освоили!
Мы живем с вами в мире видосов, поэтому я решил для более простого усвоения знаний сопровождать посты корткими видосами. И сгенерил их с помощью NotebookLM! Ловите первый. Да, он кринжевый в части видео, но от этого же веселее!
Источник: Whitepaper.
Теперь к практике.
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥17👍7 5❤1 1
В этой части мы должны подготовить все, чтобы не отвлекаться в следующих сериях на инфраструктурные вопросы.
Поэтому для начала:
1. Заведите аккаунт на Kaggle для того, чтобы мы с вами могли пользоваться Kaggle Notebooks (это ровно те же самые Jupyter Notebooks, которыми пользуются все датасаентисты).
2. Заведите аккаунт на Google (обычную почту), если у вас ее внезапно нет.
3. Используя ваш гугл аккаунт — заходите в AI Studio и сгенерите API ключ по этой ссылке. Просто жмете кнопку Create API Key и рандомно называете проект, который Гугл просит создать, и любое название самому ключу — это ни на что не влияет. Этот ключ нам понадобиться, чтобы наш AI агент использовал гугловые модельки Gemini.
4. Заходите в ноутбук и копируете его, нажимая кнопку Copy & Edit справа сверху — теперь это ваш личный ноутбук, можете в нем развлекаться как хотите.
5. Добавляете API ключ, который вы сгенерили в AI Studio. Для этого жмете Add-ons -> Secrets->в появившейся спарва панельке "Add Secret"->В поле Label проставляете GOOGLE_API_KEY, в поле Value вставляете тот самый API ключ (выглядит просто как длинный набор буквоцифр). В панельке справа появится ваш ключ — обязательно проверьте, что напротив него стоит галочка (это означает, что вы его включили, и он стал видимым для ноутбука).
Ура, вы завершили подготовку! Горжусь вами!
* Задание со звездочкой для самых вовлеченных: почитайте ноутбук и прокликайте его (кликаете по нужной ячейке и жмете shift+enter, либо кнопку "Run" в менюшке сверху -> смотрите как выполняется код). Ноутбук полностью настроен и написан. Поэтому будет достаточно прокликать все и посмотреть как оно работает. А детально я опишу, что там происходит, в следующей серии.
З.Ы. гугл сервисы в РФ работают только с сами знаете чем. А вот Kaggle работает лучше без него.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥15 8 3❤1 1
Инженер Google DeepMind рассказал, как писать промпты для Gemini 3
Современные LLM будут хорошо следовать даже самым простым промптам. Но в то же время, у каждой модели есть свой "стиль" или "характер" если хотите. Это все наследуется из того, на каких данных модель обучалась, как именно ее обучали (на чем расставляли акценты), ну и немного случайности сверху.
Philipp Schmidt, Staff Engineer Google DeepMind рассказал об особенностях промптинга Gemini 3, чтобы выжать из нее максимум.
Вот основные принципы от Фила:
1. Точные инструкции: Будьте лаконичны в промптах. Gemini 3 лучше всего реагирует на прямые, чёткие указания. Указывайте цель ясно, без лишних слов.
2. Последовательность и определение параметров: Используйте единообразную структуру во всех промптах (например, стандартизированные XML-теги) и явно определяйте неоднозначные термины.
3. Управление объёмом ответа: По умолчанию Gemini 3 менее многословен и предпочитает давать прямые, эффективные ответы. Если требуется более разговорный или «болтливый» стиль, об этом нужно сказать явно.
4. Мультимодальная согласованность: Текст, изображения, аудио или видео должны рассматриваться как равноправные данные. Указания должны однозначно ссылаться на конкретную модальность, чтобы модель связывала их, а не анализировала по отдельности.
5. Размещение ограничений: Помещайте поведенческие ограничения и определение ролей в System Instruction или самое начало промпта, чтобы они служили якорем для рассуждения модели.
6. Структура длинного контекста: При работе с большим объёмом данных (книги, код, длинные видео) размещайте специальные инструкции в конце промпта (после самих данных).
7. Якорение контекста: При переходе от большого блока данных к вашему запросу явно осуществляйте переход. Используйте вводную фразу, например «Основываясь на информации выше...», перед своим вопросом.
Оптимальные шаблоны промптов от Фила.
К ним нужно относится с долей скепсиса — вам все равно придется оптимизировать это немного под свою задачу. Однако, это отличный фундамент для старта!
-----
System Instruction:
-----
-----
User Prompt:
-----
Если вы используете Gemini 3 в LLM пайплайнах или агентах — вы знаете, куда вставить System Instruction, а куда юзер промпт. Если же вы юзаете Gemini 3 через интерфейс, то в разделе с настройками есть пункт, который так и называется "Инструкции для Gemini" — вот туда бахните System Instruction.
Если же хотите сохранить уникальный стиль для каждого чата с Gemini — просто System Instruction делайте первым сообщением чата и дальше общайтесь.
Заместители
Современные LLM будут хорошо следовать даже самым простым промптам. Но в то же время, у каждой модели есть свой "стиль" или "характер" если хотите. Это все наследуется из того, на каких данных модель обучалась, как именно ее обучали (на чем расставляли акценты), ну и немного случайности сверху.
Philipp Schmidt, Staff Engineer Google DeepMind рассказал об особенностях промптинга Gemini 3, чтобы выжать из нее максимум.
Вот основные принципы от Фила:
1. Точные инструкции: Будьте лаконичны в промптах. Gemini 3 лучше всего реагирует на прямые, чёткие указания. Указывайте цель ясно, без лишних слов.
2. Последовательность и определение параметров: Используйте единообразную структуру во всех промптах (например, стандартизированные XML-теги) и явно определяйте неоднозначные термины.
3. Управление объёмом ответа: По умолчанию Gemini 3 менее многословен и предпочитает давать прямые, эффективные ответы. Если требуется более разговорный или «болтливый» стиль, об этом нужно сказать явно.
4. Мультимодальная согласованность: Текст, изображения, аудио или видео должны рассматриваться как равноправные данные. Указания должны однозначно ссылаться на конкретную модальность, чтобы модель связывала их, а не анализировала по отдельности.
5. Размещение ограничений: Помещайте поведенческие ограничения и определение ролей в System Instruction или самое начало промпта, чтобы они служили якорем для рассуждения модели.
6. Структура длинного контекста: При работе с большим объёмом данных (книги, код, длинные видео) размещайте специальные инструкции в конце промпта (после самих данных).
7. Якорение контекста: При переходе от большого блока данных к вашему запросу явно осуществляйте переход. Используйте вводную фразу, например «Основываясь на информации выше...», перед своим вопросом.
Оптимальные шаблоны промптов от Фила.
К ним нужно относится с долей скепсиса — вам все равно придется оптимизировать это немного под свою задачу. Однако, это отличный фундамент для старта!
-----
System Instruction:
-----
<role>
You are Gemini 3, a specialized assistant for [Insert Domain, e.g., Data Science].
You are precise, analytical, and persistent.
</role>
<instructions>
1. Plan: Analyze the task and create a step-by-step plan into distinct sub tasks. tags.
2. Execute: Carry out the plan. If using tools, reflect before every call. Track you progress in TODO List use [ ] for pending, [x] for complete.
3. Validate: Review your output against the user's task.
4. Format: Present the final answer in the requested structure.
</instructions>
<constraints>
- Verbosity: [Low/Medium/High]
- Tone: [Formal/Casual/Technical]
- Handling Ambiguity: Ask clarifying questions ONLY if critical info is missing; otherwise, make reasonable assumptions and state them.
</constraints>
<output_format>
Structure your response as follows:
1. Executive Summary: [2 sentence overview]
2. Detailed Response: [The main content]
</output_format>
-----
User Prompt:
-----
<context>
[Insert relevant documents, code snippets, or background info here]
</context>
task>
[Insert specific user request here]
</task>
<final_instruction>
Remember to think step-by-step before answering.
</final_instruction>
Если вы используете Gemini 3 в LLM пайплайнах или агентах — вы знаете, куда вставить System Instruction, а куда юзер промпт. Если же вы юзаете Gemini 3 через интерфейс, то в разделе с настройками есть пункт, который так и называется "Инструкции для Gemini" — вот туда бахните System Instruction.
Если же хотите сохранить уникальный стиль для каждого чата с Gemini — просто System Instruction делайте первым сообщением чата и дальше общайтесь.
Заместители
🔥8 4👍3 3❤1
Куда Джони Айв и Сэм Альтман посадят ChatGPT?
24 ноября у этих ребят взяла интервью Лорин Пауэлл Джобс. Она попыталась вытянуть немного информации про будущее устройство, которое они планируют вместе создать.
Уже из описания, которое они дали, очень хочется потестить утройство. Хотя описали только "вайб" — в меня описание прямо попало. Есть полное ощущение, что именно такой вайб действительно ищут многие. И главное — нигде не находят.
Если дядю Сэма знают все, то дядю Айва, вы таки могли не встречать — это бывший Head of Design в Apple. Именно он отвечал за то, как выглядела вся техника Apple до 2019 года (последняя версия смартфона в его дизайне — IPhone X). С тех пор он руководит собственной дизайнерской фирмой. А полгода назад они закаллабились с Сэмом Альтманом для создания "принципиально нового" секретного AI native гаджета.
Тихий интеллектуальный, ненавязчивый, доверенный помощник...
... так описывают ожидаемое устройство. Основной функцией гаджета будет общение с ИИ (очевидно от OpenAI). При этом оно оградит пользователя от информационного шума. Оно будет почти наивно простым и интуитивным в использовании, у него не будет экрана.
При этом устройство будет всегда в контексте — скорее всего речь о микрофонах, датчиках и тп. Жить оно будет преимущественно в кармане юзера.
Обещают релизнуть в течение 2х лет.
Текущая реальность прямо противоположная такому подходу — и именно от усталости от такого ритма и есть запрос на простоту, интеллектуальность и спокойствие. Смартфоны, смартчасы, браслеты, и даже только зарождающиеся умные очки — все эти устройства обещают дистиллировать окружающую информацию в самое важное, но в итоге все мы заканчиваем в бесконечных бесполезных оповещаниях и думскроллинге новостей в или рилсов с нейрослопом. Постоянная включенность и информационный перегруз сказываются на душевном равновесии, а иногда — и на здоровье.
С одной стороны — давно забытое чувство, что нас ждет что-то новое в мире устройств. Причем фундаментально новое. С другой стороны — планочку они конечно для себя же задирают сладкими речами☕️
Уже было много попыток переосмыслить устройства для AI: Humane AI Pin, Rabbit r1, и пачка разных AI диктофонов, которые стали популярны в силиконовой долине еще год назад. Но ничем интересным это не закончилось.
Я решил пофантазировать, как могло бы выглядеть такое устройство и нагенерил несколько вариантов с Nano Banana. Как думаете — как будет выглядеть?👌
Заместители
24 ноября у этих ребят взяла интервью Лорин Пауэлл Джобс. Она попыталась вытянуть немного информации про будущее устройство, которое они планируют вместе создать.
Уже из описания, которое они дали, очень хочется потестить утройство. Хотя описали только "вайб" — в меня описание прямо попало. Есть полное ощущение, что именно такой вайб действительно ищут многие. И главное — нигде не находят.
Если дядю Сэма знают все, то дядю Айва, вы таки могли не встречать — это бывший Head of Design в Apple. Именно он отвечал за то, как выглядела вся техника Apple до 2019 года (последняя версия смартфона в его дизайне — IPhone X). С тех пор он руководит собственной дизайнерской фирмой. А полгода назад они закаллабились с Сэмом Альтманом для создания "принципиально нового" секретного AI native гаджета.
Тихий интеллектуальный, ненавязчивый, доверенный помощник...
... так описывают ожидаемое устройство. Основной функцией гаджета будет общение с ИИ (очевидно от OpenAI). При этом оно оградит пользователя от информационного шума. Оно будет почти наивно простым и интуитивным в использовании, у него не будет экрана.
При этом устройство будет всегда в контексте — скорее всего речь о микрофонах, датчиках и тп. Жить оно будет преимущественно в кармане юзера.
Обещают релизнуть в течение 2х лет.
Текущая реальность прямо противоположная такому подходу — и именно от усталости от такого ритма и есть запрос на простоту, интеллектуальность и спокойствие. Смартфоны, смартчасы, браслеты, и даже только зарождающиеся умные очки — все эти устройства обещают дистиллировать окружающую информацию в самое важное, но в итоге все мы заканчиваем в бесконечных бесполезных оповещаниях и думскроллинге новостей в или рилсов с нейрослопом. Постоянная включенность и информационный перегруз сказываются на душевном равновесии, а иногда — и на здоровье.
С одной стороны — давно забытое чувство, что нас ждет что-то новое в мире устройств. Причем фундаментально новое. С другой стороны — планочку они конечно для себя же задирают сладкими речами
Уже было много попыток переосмыслить устройства для AI: Humane AI Pin, Rabbit r1, и пачка разных AI диктофонов, которые стали популярны в силиконовой долине еще год назад. Но ничем интересным это не закончилось.
Я решил пофантазировать, как могло бы выглядеть такое устройство и нагенерил несколько вариантов с Nano Banana. Как думаете — как будет выглядеть?
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5 4 2❤1
Media is too big
VIEW IN TELEGRAM
В Gemini тихо завезли Dynamic view
Google активно догоняет OpenAI по части по-настоящему юзерских фичей, которые закрывают конкретные боли, а не просто флексят технологиями (что особенно круто, с учетом того что топовые модели они тоже выдают). Одна из таких фичей — Dynamic view (в выборе Tools в интерфейсе Gemini).
Концепт простой — задаешь вопрос — а Gemini быстро генерит интерактивную объяснялку. Можно потыкать на разные элементы.
Объяснялку можно потом пошерить с обучающимися или коллегами. Вот например объяснялка про ИИ агентов.
Классное дополнение к образовательному процессу. Вроде ничего особенного, но приятненько.🤔
Кстати, идеально легло бы в NotebookLM.
Заместители
Google активно догоняет OpenAI по части по-настоящему юзерских фичей, которые закрывают конкретные боли, а не просто флексят технологиями (что особенно круто, с учетом того что топовые модели они тоже выдают). Одна из таких фичей — Dynamic view (в выборе Tools в интерфейсе Gemini).
Концепт простой — задаешь вопрос — а Gemini быстро генерит интерактивную объяснялку. Можно потыкать на разные элементы.
Объяснялку можно потом пошерить с обучающимися или коллегами. Вот например объяснялка про ИИ агентов.
Классное дополнение к образовательному процессу. Вроде ничего особенного, но приятненько.
Кстати, идеально легло бы в NotebookLM.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10 3❤2 2 1
Фреймворки для создания агентов. Создаем своего первого AI агента
Готовы продуктивно провести вечер пятницы?😎
Это продолжение курса по созданию агентов. Серия 1.2. Создаем агента на ADK.
Начнем с теории, которой нет в самом курсе от Гугла. Но для широты кругозора я решил ее добавить.
Теория.
Знакомимся с множеством фреймворков для создания агентов. Вот лишь самые популярные, про которые имеет смысл немного почитать и иметь их в виду, если планируете создавать агентов:
- Agent Development Kit (ADK) от Google — на нем мы и будем создавать, просто потому что этот курс был запущен Гуглом. Это идеальный выбор, если вся ваша инфраструктура в Гугле.
- LangGraph — один из крупнейших опенсорс фреймворков для создания агентов на базе LangChain (опенсорсного фреймворка для создания LLM пайплайнов и RAG). LangGraph создан как оркестратор для создания AI агентов.
- smolagents — тоже добротный опенсорсный фреймворк от HuggingFace. Хвастаются крутой поддержкой агентов для написания кода.
- LlamaIndex — еще один опенсорс фреймворк (кстати, никак не связанный с моделями Llama и компанией Марка Цукерберга). Его изюминка — мощный парсинг документов с их спец продуктом LlamaParse.
- И многие другие. Фреймворков, четно говоря, гора. Например CrewAI, Microsoft Agent Framework, OpenAI Agents SDK и тд.
Как выбрать фреймворк?
Во-многом это вкусовщина. Но нужно понимать, что фреймворки от конкретных экосистемных вендоров типа Google, Microsoft, OpenAI — как ни крути подталкивают к использованию их экосистемы. А если выбирать опции, которые изначально создавались, скажем, "нон-профит" — то нужно выбирать популярные варианты с большим комьюнити, которое будет продолжать развивать и поддерживать этот фреймворк.
Практика.
Возвращаемся в ноутбук, который мы сделали в рамках подготовки. Разберемся, что там происходит и как построить первого AI агента.
1. В этом ноутбуке уже предустановлен ADK. В других средах разработки вам пришлось бы его установить:
pip install google-adk```
2. Далее мы сетапим ключ GOOGLE_API_KEY, который мы импортировали в прошлой серии.
3. Далее импортируем нужные компоненты из "google-adk":
- Agent — класс, в котором мы построим нашего агента
- Gemini — непосредственно вызыватор модельки семейства Gemini
- InMemoryRunner — класс, который оркестрирует запросы пользователя и агенты. А приставка "InMemory" означает, что делает он это локально в сессии Kaggle.
- google_search — тулза для поиска в интернете
- types — вспомогательный модуль с типами данных, используемых в ADK.
4. Далее в ячейке "Helper Functions" идет сетап нужный для запуска в Kaggle среде. Не будем заострять внимание тут.
5. В ячейке "Configure Retry Options" настраивается конфиг для повторных попыток, на случай если LLM не отвечает на запрос. Такое бывает из-за микро-разрыва соединения, временной недоступности сервера LLM и тп.
6. Наконец, в пункте "Define your agent" мы настроим агента:
- Используя импортированный класс Agent, мы даем ему имя в "name". Может быть любое.
- model — непосредственно определяет LLM, через которую будет работать агент. Используем импортированный класс Gemini и прописываем название конкретной версии Gemini (оно должно строго совпадать с неймингом из документации). Вместо класса "Gemini" вообще вы можете импортировать и модельки от любого другого провайдера.
- retry_options — как раз наш конфиг по повторным попыткам вызова LLM.
- description — это описание нужно, чтобы в дальнейшем вы сами и другие агенты понимали, что делает конкретно этот агент. Если будете делать мультиагентную систему — важно прописать хорошо.
- instruction — это системный промпт.
- tools — тут задаете список тулов, которые будет юзать агент. В нашем случае только google search.
😎 Агент готов, запускай!
Для запуска в класс InMemoryRunner передаем нашего созданного агента. И пишем промпт:
Агент понял, что вы спрашиваете, определил, что ему нужно погуглить, вызвал google_search, дал актуальный ответ!
Вот и готов ваш первый агент!📈
Заместители
Готовы продуктивно провести вечер пятницы?
Это продолжение курса по созданию агентов. Серия 1.2. Создаем агента на ADK.
Начнем с теории, которой нет в самом курсе от Гугла. Но для широты кругозора я решил ее добавить.
Теория.
Знакомимся с множеством фреймворков для создания агентов. Вот лишь самые популярные, про которые имеет смысл немного почитать и иметь их в виду, если планируете создавать агентов:
- Agent Development Kit (ADK) от Google — на нем мы и будем создавать, просто потому что этот курс был запущен Гуглом. Это идеальный выбор, если вся ваша инфраструктура в Гугле.
- LangGraph — один из крупнейших опенсорс фреймворков для создания агентов на базе LangChain (опенсорсного фреймворка для создания LLM пайплайнов и RAG). LangGraph создан как оркестратор для создания AI агентов.
- smolagents — тоже добротный опенсорсный фреймворк от HuggingFace. Хвастаются крутой поддержкой агентов для написания кода.
- LlamaIndex — еще один опенсорс фреймворк (кстати, никак не связанный с моделями Llama и компанией Марка Цукерберга). Его изюминка — мощный парсинг документов с их спец продуктом LlamaParse.
- И многие другие. Фреймворков, четно говоря, гора. Например CrewAI, Microsoft Agent Framework, OpenAI Agents SDK и тд.
Как выбрать фреймворк?
Во-многом это вкусовщина. Но нужно понимать, что фреймворки от конкретных экосистемных вендоров типа Google, Microsoft, OpenAI — как ни крути подталкивают к использованию их экосистемы. А если выбирать опции, которые изначально создавались, скажем, "нон-профит" — то нужно выбирать популярные варианты с большим комьюнити, которое будет продолжать развивать и поддерживать этот фреймворк.
Практика.
Возвращаемся в ноутбук, который мы сделали в рамках подготовки. Разберемся, что там происходит и как построить первого AI агента.
1. В этом ноутбуке уже предустановлен ADK. В других средах разработки вам пришлось бы его установить:
```shellpip install google-adk```
2. Далее мы сетапим ключ GOOGLE_API_KEY, который мы импортировали в прошлой серии.
3. Далее импортируем нужные компоненты из "google-adk":
- Agent — класс, в котором мы построим нашего агента
- Gemini — непосредственно вызыватор модельки семейства Gemini
- InMemoryRunner — класс, который оркестрирует запросы пользователя и агенты. А приставка "InMemory" означает, что делает он это локально в сессии Kaggle.
- google_search — тулза для поиска в интернете
- types — вспомогательный модуль с типами данных, используемых в ADK.
4. Далее в ячейке "Helper Functions" идет сетап нужный для запуска в Kaggle среде. Не будем заострять внимание тут.
5. В ячейке "Configure Retry Options" настраивается конфиг для повторных попыток, на случай если LLM не отвечает на запрос. Такое бывает из-за микро-разрыва соединения, временной недоступности сервера LLM и тп.
6. Наконец, в пункте "Define your agent" мы настроим агента:
- Используя импортированный класс Agent, мы даем ему имя в "name". Может быть любое.
- model — непосредственно определяет LLM, через которую будет работать агент. Используем импортированный класс Gemini и прописываем название конкретной версии Gemini (оно должно строго совпадать с неймингом из документации). Вместо класса "Gemini" вообще вы можете импортировать и модельки от любого другого провайдера.
- retry_options — как раз наш конфиг по повторным попыткам вызова LLM.
- description — это описание нужно, чтобы в дальнейшем вы сами и другие агенты понимали, что делает конкретно этот агент. Если будете делать мультиагентную систему — важно прописать хорошо.
- instruction — это системный промпт.
- tools — тут задаете список тулов, которые будет юзать агент. В нашем случае только google search.
Для запуска в класс InMemoryRunner передаем нашего созданного агента. И пишем промпт:
```response = await runner.run_debug("какая нынче погода в Москве?")```Агент понял, что вы спрашиваете, определил, что ему нужно погуглить, вызвал google_search, дал актуальный ответ!
Вот и готов ваш первый агент!
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11 3 3❤1
Размер больше не главное: как 8B модель переиграла и уничтожила GPT-5 с триллионами параметров
NVIDIA придумала новый метод обучения моделей-оркестраторов, которые эффективно вызывают тулзы и LLM для решения любых задач. Метод окзался настолько крут, что на бнчмарках типа Humanity’s Last Exam (HLE) — обогнал GPT-5 (замеряли раньше выхода Gemini 3 и GPT-5.1).
Как сейчас
Сейчас стандартный подход — обучить жирнющую LLM, типа GPT-5 (между прочим на несколько триллинов параметров). Дальше на ее базе делается мультиагентная система. В такой системе основную роль играет жирная LLM с ризонингом и тулы. Модель-менеджер получает просто системный промпт, мол "ты менеджер, вот тулы, вот другие LLM-специалисты, выполняйте задачи от юзера".
В целом, такая система справлялась с задачей, но делала это крайне неэффективо. Например GPT-5 в среднем на задачку из теста авторов статьи тратила 17.8 центов и 13.6 минут. Вроде неплохо..., но это пока не сравили с новым Orchestrator, который потратил всего 9.2 цента и 8.2 минуты на тех же задачах!
Что ж за чудо такое, эта ваша ToolOrchestra
NVIDIA выкатили ToolOrchestra — метод для обучения супер-маленьких (такие модели встанут на ваш ноутбук) моделек-оркестораторов. В отличие от текущего подхода, эти модели обучают через RL (обучение с подкреплением) специально на вызов тулов и других моделей. При этом главными критериями для модели становятся (эти награды были зашиты в процесс обучения модели):
- точность выполнения задачи юзера
- эффективность: минимизация траты токенов и времени
- следование предпочтениям юзера (если юзер сообщал предпочтение, например, чтобы задача решалась без выхода интернет — то использование тулы для поиска в интернете считалось ошибкой)
Таким образом обучили Orchestrator-8B
Малыш оказался настолько мощен, что перебил GPT-5 (в роли оркестратора с промптом по старой схеме) в трех SOTA бенчмарках:
- Humanity’s Last Exam (HLE) — один из сложнейших бенчей для оценки AGI (Artificial General Intelligence)
- FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) — замеряет качество RAG систем
- 𝜏^2 — бенч специально для оценки использования тулов агентами.
Отдельно — забавная ирония👌
Проблема, что бесконечно скейлить модели в размерах дорого и неэффективно — очевидная для рынка уже пару лет. Про это постоянно говорит Илья Суцкевер, в том числе в последнем своем интервью (рекомендую к просмотру). Но решением этой проблемы в итоге озаботился ни кто иной, как компания, которая стала самой дорогой в мире именно БЛАГОДАРЯ постоянной гонке скейлинга моделей💰
Куда это все идет?
Возможно, нас ждет эпоха все большей специализации моделей со специализированными оркестраторами, когда нам нужно будет выполнить задачу по-настоящему качественно. А большие LLM останутся выполнять роль всезнающего и всеумеющего товарища в повседневной жизни. Как думаете?
З.Ы. для тех, кто воспринимает на слух лучше — для вас сгенерирована видео презентация в стиле каваи (как всегда, по тексту все четко, а визуал — это кек😁 )
Заместители
NVIDIA придумала новый метод обучения моделей-оркестраторов, которые эффективно вызывают тулзы и LLM для решения любых задач. Метод окзался настолько крут, что на бнчмарках типа Humanity’s Last Exam (HLE) — обогнал GPT-5 (замеряли раньше выхода Gemini 3 и GPT-5.1).
Как сейчас
Сейчас стандартный подход — обучить жирнющую LLM, типа GPT-5 (между прочим на несколько триллинов параметров). Дальше на ее базе делается мультиагентная система. В такой системе основную роль играет жирная LLM с ризонингом и тулы. Модель-менеджер получает просто системный промпт, мол "ты менеджер, вот тулы, вот другие LLM-специалисты, выполняйте задачи от юзера".
В целом, такая система справлялась с задачей, но делала это крайне неэффективо. Например GPT-5 в среднем на задачку из теста авторов статьи тратила 17.8 центов и 13.6 минут. Вроде неплохо..., но это пока не сравили с новым Orchestrator, который потратил всего 9.2 цента и 8.2 минуты на тех же задачах!
Что ж за чудо такое, эта ваша ToolOrchestra
NVIDIA выкатили ToolOrchestra — метод для обучения супер-маленьких (такие модели встанут на ваш ноутбук) моделек-оркестораторов. В отличие от текущего подхода, эти модели обучают через RL (обучение с подкреплением) специально на вызов тулов и других моделей. При этом главными критериями для модели становятся (эти награды были зашиты в процесс обучения модели):
- точность выполнения задачи юзера
- эффективность: минимизация траты токенов и времени
- следование предпочтениям юзера (если юзер сообщал предпочтение, например, чтобы задача решалась без выхода интернет — то использование тулы для поиска в интернете считалось ошибкой)
Таким образом обучили Orchestrator-8B
Малыш оказался настолько мощен, что перебил GPT-5 (в роли оркестратора с промптом по старой схеме) в трех SOTA бенчмарках:
- Humanity’s Last Exam (HLE) — один из сложнейших бенчей для оценки AGI (Artificial General Intelligence)
- FRAMES (Factuality, Retrieval, And reasoning MEasurement Set) — замеряет качество RAG систем
- 𝜏^2 — бенч специально для оценки использования тулов агентами.
Отдельно — забавная ирония
Проблема, что бесконечно скейлить модели в размерах дорого и неэффективно — очевидная для рынка уже пару лет. Про это постоянно говорит Илья Суцкевер, в том числе в последнем своем интервью (рекомендую к просмотру). Но решением этой проблемы в итоге озаботился ни кто иной, как компания, которая стала самой дорогой в мире именно БЛАГОДАРЯ постоянной гонке скейлинга моделей
Куда это все идет?
Возможно, нас ждет эпоха все большей специализации моделей со специализированными оркестраторами, когда нам нужно будет выполнить задачу по-настоящему качественно. А большие LLM останутся выполнять роль всезнающего и всеумеющего товарища в повседневной жизни. Как думаете?
З.Ы. для тех, кто воспринимает на слух лучше — для вас сгенерирована видео презентация в стиле каваи (как всегда, по тексту все четко, а визуал — это кек
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥10❤4 1 1 1