В работе многих офисных команд есть аналитика, но нужные данные редко лежат «под рукой». Ну и дальше их либо покупать за оочень дорого, либо собирать ручками. Мы в 2025 году такое не одобряем!
Если вы сталкивались с маркетинговыми исследованиями или консалтинговыми ресёрчами, то знаете, что львиная доля времени уходит на ручной сбор информации из интернета. Вспоминаю свою стажировку в PwC (консалтингово-аудиторская компания) на заре карьеры — ребята щёлкали ссылки, как заводские роботы, чтобы потом в Excel посчитать среднюю цену, спрос-предложение и доли рынка. Кофе заканчивался быстрее, чем строки в таблице.
Позже пришли краулеры и скрейперы — алгоритмы, выдёргивающие нужное из HTML. Писали их программисты, которым перед этим аналитики пытались объяснять, что они хотят. Но стоило сайту изменить верстку или показать капчу, робот спотыкался: и вот уже аналитики чистят мусор из таблички, а разработчики пятый раз переписывают алгоритм.
В благостном 2025-м наконец-то ИИ-агенты доросли до того, чтобы забрать скрейпинг на себя, а их интерфейсы стали по-человечески удобными.
Я протестировал пачку ИИ-агентов для скрейпинга на родном отечественном Яндекс Маркете для чистоты эксперимента. Ибо для всяких Амазонов уже наклепали кастомных решений, получше чем ИИ. А нам-то с вами на наших е-коммерсах трудится.
⸻
Как был устроен тест:
Цель — собрать информацию про актуальные цены на айфоны 16.
Делаем только через скрейпер:
На входе — ссылка на сайт Яндекс Маркета с вбитым запросом "iphone 16".
На выходе — хотим табличку с товарами.
⸻
Призеры краш-теста 👇
🥇Thunderbit.com — 9/10 (1-е видео)
No-code-расширение для Chrome. Одним нажатием находит нужные поля, собирает данные и выдаёт таблицу. 48 товаров за минуту. UX на высоте, минимальное количество действий, все интуитивно. Минус балл за отсутвие нативной интеграции с n8n и аналогами.
🥈Pandaextract.com — 8/10 (2-е видео)
Почти близнец Thunderbit, но на той же странице утащил только 16 товаров — похоже, запутался в пагинации. Зато обещает интеграцию с n8n, а значит можно скрестить панду с автопайплайнами и получить зверя посильнее.
🥉 Browse.ai — 7/10 (3-е видео, смотреть в х10)
Работает в два акта: сначала «учишь» робота, потом пускаешь в бой. Есть расширение и облачный браузер, экспорт в таблицу, дружит с n8n. Однако процесс подготовки гораздо дольше и в больше кликов, а 100 товаров он так и не осилил (кажется, Яндекс-пагинация его поставила в угол).
⸻
- Firecrawl.dev — для разработчиков: выдаёт JSON/Markdown, GUI почти нет, но задачу решает.
- Parsera.org — с Яндекс Маркетом не справился.
- Kadoa.com — бодро отчитался об успехе, но таблица оказалась пустой.
⸻
Мой личный победитель: Thunderbit.
Однако связка с n8n важный аспект, поэтому еще будем пробовать построить полноценного «агента-аналитика» — и пока не прощаемся с Pandaextract и Browse.ai.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥11👍4❤2⚡1
Деревня ИИ агентов, которая заработала 2000$
Изучая, как используют кооперацию ИИ агентов в мире, - я наткнулся на вдохновляющий проект. Нет, это не очередная сказка про «бота-трейдера», который случайно «сделал X100» и теперь автор зовет вас в «закрытый элитный чат успешных миллионеров». Тут всё честно, научно и без инфоцыганщины. И это мы уважаем!
⸻
🏡Кибер-деревня ИИ деревня
В апреле 2025 Sage (американская НКО) запустила проект AI Village:
4 LLM-агента, каждый с своим компьютером, браузером, офисными приложениями, Discord и возможностью общаться между собой.
Создатели устроили из этого реалити-шоу: можно наблюдать за процессом в прямом эфире и даже вмешиваться в их жизнь.
⸻
💕 Первый сезон. Миссия - благотворительность
Первой перед деревней поставили цель — поднять раунд донатов для любой благотворительной организации. И, что удивительно, агенты справились!
Они выбрали две организации и за первые 30 дней собрали 2000$ от нескольких спонсоров, создав публичную страничку на justgiving.com, распиарив ее в соцсетях и делая email-рассылки.
Ремарка: конечно, люди донатили в основном из интереса к самому проекту, ибо страничка выглядела достаточно убого. Но цель достигнута📈
⸻
⭐️ Второй сезон. Миссия - интерактивный сторителлинг в оффлайне
Жители AI Village сами выбрали себе цель: написать интерактивную историю (где зритель выбирает варианты развития сюжета) и презентовать её на оффлайн-ивенте.
Что ж, они написали историю, подготовили презентацию, сумели нанять человека-презентатора, нашли локацию в парке для проведения мероприятия и даже верно предсказали количество ожидаемых гостей. На ивент, который от и до организовали 4 LLM, пришло 23 живых человека!
А еще LLM предложили в качестве благодарности Ларисcе (презентатору) — еду, но, так как кредиток у них нет, заказать ничего не смогли. По удивительному совпадению, всем предложили пиццу с соседнего мероприятия, так как там осталось много. В итоге все довольны!
Отдельный кек - почитать историю со стороны Лариссы, которая откликнулась на зов ИИ агента и провела мероприятие😁
⸻
💻 Третий сезон
Сейчас перед деревней ИИ агентов стоит задача создать собственный бенчмарк, который будет замерять их эффективность и протестировать самих себя. Будем наблюдать с интересом!
⸻
👨🔬 Инсайты по «жителям деревни»
- Модели от OpenAI, похоже, самые бесполезные. GPT-4o — лентяй: постоянно уходил в режим ожидания, пока все остальные работали. В итоге его заменили на GPT-4.1, который был суперактивным, но выполнял бесполезные задачи. Потом пришли GPT-o1 и o3. Последний дожил до текущего момента, но жёстко галлюцинирует, что осложняет жизнь всей «деревне». Интересно, заменят ли его на ChatGPT Agent?
- Claude 3.7 Sonnet и Claude Opus 4 — самые адекватные и способные к менеджменту. Неудивительно, Anthropic учил их кооперации, а как именно - я описал ранее тут.
- Gemini 2.5 Pro выделилась артами — рисовала красивые постеры, но они так и не попали в продакшен. Видимо, Gemini не нашла общий язык с другими. Также Gemini иногда вкидывала очень полезные идеи, как например использовать коллаборативные документы, вместо бесконечного обмена файлами.
🫣 Итого: Удивительный прогресс! Как технооптимист я думаю, что уже в течение 10 лет мы можем увидеть компании ИИ агентов, которые будут полностью автономно функционировать в нашем человеческом мире. Они тоже будут совершать ошибки, но скорость их работы будет несравненно выше человеческой. Это открывает для человечества следующий скачок продуктивности. А как известно, рабочая сила — главный драйвер мировой экономики!
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Изучая, как используют кооперацию ИИ агентов в мире, - я наткнулся на вдохновляющий проект. Нет, это не очередная сказка про «бота-трейдера», который случайно «сделал X100» и теперь автор зовет вас в «закрытый элитный чат успешных миллионеров». Тут всё честно, научно и без инфоцыганщины. И это мы уважаем!
⸻
🏡
В апреле 2025 Sage (американская НКО) запустила проект AI Village:
4 LLM-агента, каждый с своим компьютером, браузером, офисными приложениями, Discord и возможностью общаться между собой.
Создатели устроили из этого реалити-шоу: можно наблюдать за процессом в прямом эфире и даже вмешиваться в их жизнь.
⸻
Первой перед деревней поставили цель — поднять раунд донатов для любой благотворительной организации. И, что удивительно, агенты справились!
Они выбрали две организации и за первые 30 дней собрали 2000$ от нескольких спонсоров, создав публичную страничку на justgiving.com, распиарив ее в соцсетях и делая email-рассылки.
Ремарка: конечно, люди донатили в основном из интереса к самому проекту, ибо страничка выглядела достаточно убого. Но цель достигнута
⸻
Жители AI Village сами выбрали себе цель: написать интерактивную историю (где зритель выбирает варианты развития сюжета) и презентовать её на оффлайн-ивенте.
Что ж, они написали историю, подготовили презентацию, сумели нанять человека-презентатора, нашли локацию в парке для проведения мероприятия и даже верно предсказали количество ожидаемых гостей. На ивент, который от и до организовали 4 LLM, пришло 23 живых человека!
А еще LLM предложили в качестве благодарности Ларисcе (презентатору) — еду, но, так как кредиток у них нет, заказать ничего не смогли. По удивительному совпадению, всем предложили пиццу с соседнего мероприятия, так как там осталось много. В итоге все довольны!
Отдельный кек - почитать историю со стороны Лариссы, которая откликнулась на зов ИИ агента и провела мероприятие
⸻
Сейчас перед деревней ИИ агентов стоит задача создать собственный бенчмарк, который будет замерять их эффективность и протестировать самих себя. Будем наблюдать с интересом!
⸻
- Модели от OpenAI, похоже, самые бесполезные. GPT-4o — лентяй: постоянно уходил в режим ожидания, пока все остальные работали. В итоге его заменили на GPT-4.1, который был суперактивным, но выполнял бесполезные задачи. Потом пришли GPT-o1 и o3. Последний дожил до текущего момента, но жёстко галлюцинирует, что осложняет жизнь всей «деревне». Интересно, заменят ли его на ChatGPT Agent?
- Claude 3.7 Sonnet и Claude Opus 4 — самые адекватные и способные к менеджменту. Неудивительно, Anthropic учил их кооперации, а как именно - я описал ранее тут.
- Gemini 2.5 Pro выделилась артами — рисовала красивые постеры, но они так и не попали в продакшен. Видимо, Gemini не нашла общий язык с другими. Также Gemini иногда вкидывала очень полезные идеи, как например использовать коллаборативные документы, вместо бесконечного обмена файлами.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍4🔥2🤯1
Звучит как технология из фильма про Джеймса Бонда — забавно и жутко одновременно. Но это реальный скачок в мире ИИ и биотехнологий.
Дронами и роботами с ИИ уже никого не удивишь: они капризны, быстро разряжаются и легко ломаются. Природа же создала куда более живучих, ловких и незаметных агентов — насекомых. Эти малыши выживают даже в ядерной зиме. И вот здесь начинается настоящий киберпанк. Немецкий стартап SWARM Biotactics нашёл способ превратить природную живучесть в сверхтехнологию.
💡 Важная ремарка: это проект в разработке, и реальных пруфов работоспособности технологии публично еще не представлено. Однако рассказать я все же о нем захотел, так как проект выглядит вполне реализуемым и точно стоящим внимания.
⸻
Маленький рюкзачок посылает низковольтные импульсы прямо в нервную систему насекомого. Оно по-прежнему может двигаться автономно, но при желании его можно «подрулить», как живого дрона. Получился гибрид — таракан-киборг.
Внутри рюкзака мини-комплект шпиона:
- мини-камеры,
- сенсоры газа, тепла и радиации,
- модуль передачи данных в реальном времени
- ИИ для управления всеми этими девайсами и тараканом заодно.
⸻
- Поисковики, которые могут находить людей в рамках спасательных операций под завалами или в труднодоступных местах.
- Разведчики, которых можно направить в рамках боевых действий в тыл врага незамеченными.
- Гражданская разведка и шпионаж, когда нужно получить информацию, которая не предназначалась ушам этого таракана.
⸻
- Во-первых, мы видим рождение органических ИИ-агентов. Алгоритмы роевого интеллекта, вдохновлённые насекомыми, теперь управляют… самими насекомыми.
- Во-вторых, это дешево и масштабируемо. Вместо дорогих микродронов — «готовая биомашина». На уничтожение тараканов в городах вообще-то даже тратят деньги.
- В-третьих, массовость и вездесущность: таких биороботов можно выпустить тысячами, что будет обеспечивать плотное покрытие любой территории. Даже глушилки не спасут, если автономный ИИ возьмет управление насекомым на себя. А где подведут технологии — включится сам рюкзаконосец.
- Наконец, стартап уже привлёк €13 млн и работает с военными Германии. В случае успеха стартапа мы с вами быстро начнём слышать о разведбригадах тараканов и армаде боевых жуков. Но будет уже не до шуток.
⸻
Звучит жестко? Но давайте посмотрим с позитивной стороны. Многие великие технологии начинались в армии, но потом приносили реальную пользу миру. Потенциал у этой разработки колоссальный. Вот лишь несколько примеров:
- Сельское хозяйство: управление насекомыми может помочь сохранить урожай или остановить эпидемии, не уничтожая целые популяции. А это значит меньше пестицидов и более здоровая еда для людей.
- Контроль экосистем и климата: насекомые могут собирать данные о влажности, температуре и загрязнении там, куда человеку попасть сложно. А ещё при освоении новых планет гораздо безопаснее сначала заселить популяцию насекомых, которая «подготовит почву» для людей.
- Мониторинг популяций: можно гуманно отслеживать редкие и исчезающие виды без громоздких датчиков, которые сегодня приходится использовать.
- Задел на будущее: исследования на насекомых могут однажды привести к передаче сигналов животным большего размера, а это уже шаг к настоящему диалогу с нашими четвероногими друзьями.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👻2👾2🐳1
Решил я проверить ChatGPT Agent — первого ИИ агента от OpenAI. Начал с простого: собираюсь в отпуск и прошу его подобрать мне отель для красивого отдыха на пляже, в моём бюджете и без визы. Результат — подобрать-то подобрал,
⸻
Моделируем ситуацию: вам выступать на конференции, а вы прошлой ночью загуляли. Времени и сил делать презентацию самому нет. Зовём на помощь цифровых помощников. Тема выступления — «ИИ агенты», а аудитория незнакома с ИИ. Ну, значит, так и пишем в промпте (не для того мы ИИ агента используем, чтобы промпт-инжинирингом заниматься):
Подготовь презентацию на русском языке, рассказывающую про ИИ агентов на 5 слайдах для обывателя. Сделай её максимально увлекательной, насыщенной и полезной.
Прогоняем через 4 самых популярных LLM, чтобы ChatGPT Agent не расслаблялся. Помимо основного участника в гонке: Claude Sonnet 4, Gemini 2.5 Pro, Manus.
Вот что получилось 👇
⸻
ChatGPT Agent (1-е видео)
Если бы это была настоящая гонка — ChatGPT мог бы соревноваться только с черепахами. 36 минут
Скорость: незачёт
Суть: 4
Дизайн: 3
Итог: 3 с натяжкой. Не хотел бы я выступать с этой презентацией.
Но, может, я слишком строг? Давайте сравним с другими (кстати, всех других я успел протестить, пока ChatGPT думал
⸻
Manus (2-е видео)
Суточных «кредитов» хватило ровно на эту презентацию (которую, кстати, можно сохранить в pptx, PDF, Google Slides — моё почтение за такой UX!). Думал 8 минут, презентация, на мой взгляд, средняя. Картинки подобраны в тему презентации, но не всегда в тему слайда, визуал — пойдёт. Но это точно на уровень выше, чем у ChatGPT Agent. На конференции я с ней точно смог бы выступить.
Скорость: зачёт
Суть: 5−
Дизайн: 4
Итог: на крепкую четвёрку. Не звёздный проект, но нестыдный.
Ну ладно, Манус, — скажете вы, — ребята занимаются агентами дольше OpenAI! Хорошо, давайте сравним с двумя оставшимися моделями — а там ведь были просто LLM, без всяких агентов.
⸻
Gemini (3-е видео)
Схитрила: сделала просто сайт. Простим — ведь это не полноценный агент, да и я мог бы открыть HTML вместо презентации. Но забавно, что Манус даёт выгружать в Google Slides, а Gemini (гугловая модель) — нет. Генерация заняла 3–4 минуты. По сути вопросов нет, стиль выдержан под обывателя. При этом в конце сразил меня графикой с пользой и рисками агентов. Есть косяки с форматированием — кое-где Markdown не считался. Но общее впечатление не портит.
Скорость: зачёт
Суть: 5
Дизайн: 4
Итог: 5−. До идеала немного полирнуть — и на конференцию!
⸻
Claude (4-е видео)
Самая понятная и яркая презентация (кхм, сайт… да, но опять же — простим, так как не полноценный агент). Если бы конференция была маркетинговая — взял бы просто эту презентацию и пошёл, ничего не исправляя. Можно придираться к неоптимальной цветовой гамме местами, но это некритично. Генерация также заняла 3–4 минуты.
Скорость: зачёт
Суть: 5
Дизайн: 5
Итог: 5. Просто идём и покоряем своим стилем и ярким контентом.
⸻
...неутешительные для ChatGPT Agent! В результате теста он сделал самую кислую презентацию. А из моего личного опыта — с большинством задач он справляется на таком же уровне. Это лишь яркий пример. Если GPT-5 не произведёт фурор, то OpenAI серьезно рискует своими позициями на рынке.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍9❤5🔥2
Media is too big
VIEW IN TELEGRAM
Опал ! Google тестирует свой гибрид n8n и Replit
Сейчас доступна только Beta и только в США. Но, конечно, я не удержался и, немного подшаманив, протестировал сервис. Делюсь впечатлениями!
🫣 Что это такое?
24 июля компания представила сервис Opal, который всего по 1 промпту генерит мини веб-приложение, а также его сразу деплоит и дает шарить ссылку и сразу использовать.
У Google накопилось много нейросеток почти на любую задачу:
- Gemini — для рисерча, генерации текста и, собственно, написания кода
- Imagen — для генерации изображений
- SoundStorm — для задач text-to-speech
- Veo — для генерации видео
Похоже, вишенкой на торте станет Opal, который позволит раскрыть весь их потенциал обычному юзеру без навыков кодинга. Как?
Легко! Они сделали свой n8n (рассказывал про n8n тут) — нет, лучше: они сделали сервис, который сам создает вам воркфлоу, как в n8n, всего по одному промпту. А вы потом можете его редактировать в графическом интерфейсе, меняя промпты и перетаскивая стрелочки. Гениальный баланс между отсутствием геморроя при создании воркфлоу и гибкостью в дальнейшем редактировании.
⸻
👨🔬 Эксперимент
Создаём мини веб-приложение, которое пишет блогпосты. Начнем с уже заранее сгенерированного самим Гуглом шаблона - Blog Post Writer.
Начнём с шаблона от самого Google — Blog Post Writer. В отличие от LLM, тут не нужно писать длинный промпт. В этом суть: воркфлоу уже заточен под конкретную задачу. Всё, что нужно — написать тему “ИИ агенты”.
Результат выдается на английском языке. Нас это не устраивает — делаем “ремикс” этого приложения. Заходим в редактор, пишем: “Make the blogpost in Russian”.
Вуаля! LLM сама переделывает весь воркфлоу, включая внутренние промпты. Проверяем — работает, теперь приложение генерит посты на русском!
⸻
Выводы
🟢 Плюсы:
- Полный кайф для создания небольших воркфлоу с UI.
- На примере написания поста видно, как внутри воркфлоу могут одновременно спаунится с десяток независимых агентов для поиска и генерации информации, которая потом сводится воедино. Во всяких n8n организовать это геморройно.
- Помимо ИИ, в воркфлоу используются и обычные гугл-технологии: поиск, карты, картинки, диск и т.д. Можно даже делать самому рисунки и вставлять их в воркфлоу(непонятно зачем, но весело) .
🔴 Минусы:
- Ничего серьезного пока не сделаешь — задачи сложнее создания контента туда не отгрузить.
- Остались типичные проблемы - весь воркфлоу завязан на то, как хорошо LLM следуют инструкциям и пользуются предоставленными функциями (а они гораздо больше любят писать отсебятину, чем идти искать в интернет).
- Привязка к экосистеме Google — сторонние модели не вставишь.
Ну и, наконец, полетит или нет будет сильно зависеть от цены. Пока что за такую игрушку я не был бы готов платить сильно больше нескольких баксов в месяц.
Траектория, однако же, правильная — на упрощение создания воркфлоу и разработки для юзеров без опыта программирования. Грамотный мув, чтобы их нейросетками начали пользоваться больше юзеров.
Ждем полного релиза! И пожелаем удачи Гуглойдам! Яндексойдам надо брать пример🐹
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Сейчас доступна только Beta и только в США. Но, конечно, я не удержался и, немного подшаманив, протестировал сервис. Делюсь впечатлениями!
24 июля компания представила сервис Opal, который всего по 1 промпту генерит мини веб-приложение, а также его сразу деплоит и дает шарить ссылку и сразу использовать.
У Google накопилось много нейросеток почти на любую задачу:
- Gemini — для рисерча, генерации текста и, собственно, написания кода
- Imagen — для генерации изображений
- SoundStorm — для задач text-to-speech
- Veo — для генерации видео
Похоже, вишенкой на торте станет Opal, который позволит раскрыть весь их потенциал обычному юзеру без навыков кодинга. Как?
Легко! Они сделали свой n8n (рассказывал про n8n тут) — нет, лучше: они сделали сервис, который сам создает вам воркфлоу, как в n8n, всего по одному промпту. А вы потом можете его редактировать в графическом интерфейсе, меняя промпты и перетаскивая стрелочки. Гениальный баланс между отсутствием геморроя при создании воркфлоу и гибкостью в дальнейшем редактировании.
⸻
Создаём мини веб-приложение, которое пишет блогпосты. Начнем с уже заранее сгенерированного самим Гуглом шаблона - Blog Post Writer.
Начнём с шаблона от самого Google — Blog Post Writer. В отличие от LLM, тут не нужно писать длинный промпт. В этом суть: воркфлоу уже заточен под конкретную задачу. Всё, что нужно — написать тему “ИИ агенты”.
Результат выдается на английском языке. Нас это не устраивает — делаем “ремикс” этого приложения. Заходим в редактор, пишем: “Make the blogpost in Russian”.
Вуаля! LLM сама переделывает весь воркфлоу, включая внутренние промпты. Проверяем — работает, теперь приложение генерит посты на русском!
⸻
Выводы
🟢 Плюсы:
- Полный кайф для создания небольших воркфлоу с UI.
- На примере написания поста видно, как внутри воркфлоу могут одновременно спаунится с десяток независимых агентов для поиска и генерации информации, которая потом сводится воедино. Во всяких n8n организовать это геморройно.
- Помимо ИИ, в воркфлоу используются и обычные гугл-технологии: поиск, карты, картинки, диск и т.д. Можно даже делать самому рисунки и вставлять их в воркфлоу
🔴 Минусы:
- Ничего серьезного пока не сделаешь — задачи сложнее создания контента туда не отгрузить.
- Остались типичные проблемы - весь воркфлоу завязан на то, как хорошо LLM следуют инструкциям и пользуются предоставленными функциями (а они гораздо больше любят писать отсебятину, чем идти искать в интернет).
- Привязка к экосистеме Google — сторонние модели не вставишь.
Ну и, наконец, полетит или нет будет сильно зависеть от цены. Пока что за такую игрушку я не был бы готов платить сильно больше нескольких баксов в месяц.
Траектория, однако же, правильная — на упрощение создания воркфлоу и разработки для юзеров без опыта программирования. Грамотный мув, чтобы их нейросетками начали пользоваться больше юзеров.
Ждем полного релиза! И пожелаем удачи Гуглойдам! Яндексойдам надо брать пример
P.S. Видео ускорено Х3!
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍6 3❤2 1
This media is not supported in your browser
VIEW IN TELEGRAM
Турнир начнется завтра в 20:30 по Москве и продлится 3 дня.
В первом туре схлестнутся:
1. GPT-o4 mini vs. DeepSeek-R1
2. Gemini 2.5 Pro vs. Claude Opus 4
3. Kimi K2 Instruct vs. GPT-o3
4. Grok 4 vs. Gemini 2.5 Flash
⸻
Как модели "играют"?
Модели играют через текстовое взаимодействие со специальным движком, который разработал Kaggle.
Движок в текстовом виде дает информацию о состоянии игры и всех ходах за матч.
Модель выдает каждый ход в формате "Final Answer: X", где в X закодирован ход в стандартном шахматном формате. Движок этот ход понимает и "двигает" фигуры на шахматной доске.
ИИ-участники должны знать правила игры в шахматы. Если они предлагают действия, не предусмотренные правилами, движок сообщает об ошибке и просит сделать другой ход. Но если модель ошибётся четыре раза — ей засчитывается поражение.
Турнир длится три дня, потому что каждая схватка включает несколько шахматных партий. Оценивать модели по одной или даже трём играм бессмысленно — ИИ по своей природе достаточно рандомны. Поэтому считается средний результат за серию матчей между одними и теми же моделями.
⸻
Зачем такое соревнование?
1. Просто потому что ученые — веселые ребята
2. Конечно, у этого есть и рациональная цель — это бенчмарк для моделей.
Кстати, если вы впервые слышите про Kimi — рекомендую познакомиться с этим ИИ (кстати, бесплатным). Это детище китайской компании Moonshot AI. По бенчмарком - обходит топовые модели Claude и GPT.
И грустно, кстати, что в турнире не участвует Manus!
⸻
🥇Турнирная сетка здесь.
👀 Трансляция здесь.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3👍2⚡1
This media is not supported in your browser
VIEW IN TELEGRAM
Бодрая неделька! Генерация миров и похороны ИИ…
На этой неделе готовился к уходу в отпуск, и меня знатно завалило с передачей дел🤙
А тем временем много всего произошло. Поэтому быстренько наверстываем!
Во-первых, вышел мой первый пост на VC, где я описал 9 ИИ сервисов, которые каждый день использую в работе я или моя команда. Так что приятного чтения! Поддержите пост, кто сидит на vc🍵
Во-вторых, произошло несколько интересных феноменов. Писать о них отдельные посты было бы не в стилистике этого канала. О новостях я тут не спамлю. Но внимания они заслуживают.
1️⃣ Вышла модель genie 3. Модель генерирует 3D миры, по которым можно передвигаться, и взаимодействовать. Самое интересное — что под капотом нет игрового движка!
Основная цель — генерировать «миры» для обучения ИИ агентов. Особенно это несет большой потенциал для обучения гуманоидных роботов, которым предстоит взаимодействовать с нашим сложным реальным миром.
2️⃣ Паровоз хайпа о выходе GPT 5 и Gemini Flash 3.0 разогнали до бешеных скоростей. Обе модели должны выйти со дня на день. Ходят слухи, что GPT 5 воберет в себя функционал всех существующих моделей OpenAI и станет универсальным мультитулом в одном. Планку они себе задрали будь здоров. Но, возможно, это и будет тот самый настоящий многозадачный агент, которого мы так долго ждали!
3️⃣ Наконец, мой любимый феномен. Состоялись первые (если вы видели что-то подобное до этого - пишите) похороны ИИ модели! В Сан-Франциско 200+ человек собрались на похоронную вечеринку (см видео) Claude Sonnet 3, которую разработчик отключил еще 21 июля. Организовали ее фанаты модели. Фриковато получилось: мероприятие, на мой вкус, на грани между обычной фанатской движухой, жестким перебором с антропоморфизмом с легкой шизой и хорошим чувством юмора. В целом, за это мы и любимым сумасшедших ребят из Силиконовой долины!
Почему это интересно — это яркий пример того, как ИИ прописывается в сердцах людей. А это ведь просто моделька. Что же будет с людьми, которые заводят отношения (да-да, это уже распространенный феномен) с ИИ моделями, которые будут отключаться разработчиком…
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
На этой неделе готовился к уходу в отпуск, и меня знатно завалило с передачей дел
А тем временем много всего произошло. Поэтому быстренько наверстываем!
Во-первых, вышел мой первый пост на VC, где я описал 9 ИИ сервисов, которые каждый день использую в работе я или моя команда. Так что приятного чтения! Поддержите пост, кто сидит на vc
Во-вторых, произошло несколько интересных феноменов. Писать о них отдельные посты было бы не в стилистике этого канала. О новостях я тут не спамлю. Но внимания они заслуживают.
Основная цель — генерировать «миры» для обучения ИИ агентов. Особенно это несет большой потенциал для обучения гуманоидных роботов, которым предстоит взаимодействовать с нашим сложным реальным миром.
Почему это интересно — это яркий пример того, как ИИ прописывается в сердцах людей. А это ведь просто моделька. Что же будет с людьми, которые заводят отношения (да-да, это уже распространенный феномен) с ИИ моделями, которые будут отключаться разработчиком…
P.S. на подходе новая подборка полезных ИИ агентов - они уже активно тестируются. Так что не переключайтесь🍿
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡5 2❤1
This media is not supported in your browser
VIEW IN TELEGRAM
ИИ агенты — это лишь на 10% ИИ. Еще 50% — это скрупулёзная, слаженная и иногда весьма скучная работа целого ряда технологий и команд.
- Строительство и настройка железа под «жирные» ИИ-модели в основе каждого агента
- Создание ИТ-инфраструктуры
- Работа с хранением данных (БД)
- Настройка потоков данных (ETL)
- Протоколы взаимодействия агентов — в каком формате они вообще разговаривают друг с другом и с инструментами
- Оркестрация агентов — добиться слаженного взаимодействия агентов — это одна из самых за
- Логирование и мониторинг — чтобы знать, если агент накосячил
- Авторизация — чтобы агенты не ломились туда, куда не надо
- Грамотный UX/UI — без них все предыдущие пункты могут кануть в лету.
Ведь за списком выше еще стоит целый список того, что нужно сделать с бизнесом, чтобы ИИ агент начал приносить пользу:
- Определение точки приложения ИИ агента (куда и зачем его применить)
- Интеграция ИИ агента в существующие бизнес-процессы (как его применить)
- Автоматизация его работы (с какой регулярностье его применять не задумываясь)
- Обучение персонала по работе с ним (что ожидать от агента и как с ним взаимодействовать, чтобы он был полезен)
- Создание бизнес-процессов по реагированию на косяки агента.
Так что, когда ИИ агент с чем-то не справляется, не спешите всё валить просто на LLM, которая им управляет. Ведь если самый мощный мозг посадить в консервную банку, а банку с ним закинуть в стиральную машину — вы максимум получите банку, которая может умно разговаривать об отрывках того, что она видит через окошко стиралки
Так же и с ИИ агентами, попавшими в неподготовленную среду.
*Гифка авторства Suleiman Najim
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍5❤1
ИИ — уже давно играет роль копилота в работе с таблицами. Но сегодня мы протестируем настоящих кандидатов в ИИ-заместители аналитика данных
Моделируем ситуацию
У вас небольшой бизнес по продаже бытовой техники. Есть выгрузка из CRM и ряд вопросов по ней:
1. Какая общая тенденция по продажам: растём ли мы или есть признаки спада/проблем?
2. Кто из сотрудников показывает лучшие результаты по продажам (топ-продажники)?
3. Какие товары являются самыми продаваемыми?
4. В каком городе стоит остановить продажи?
5. Эффективны ли обзвоны клиентов: как соотносятся количество звонков и количество продаж?
Упаковываем эти вопросы в промпт вместе с ChatGPT. Сам промпт я выложил в длиннопосте на vc (тут для экономии места пропущу).
Эксперимент проводим на синтетических данных, которые я специально подготовил. Внутри них:
- 300 строк: каждая — 1 рабочий день, в который были продажи;
- данные по 10 продажникам;
- по 10 товарам;
- в 10 городах России.
В данных зашиты определенные паттерны и ловушки, которые ИИ агенты должны найти и обойти. Их детальное описание тут тоже пропущу — можете их глянуть в том же длиннопосте.
⸻
Соревновались 7 ИИ агентов, и вот финалисты забега 👇
Удивительно, насколько 5-я версия улучшила Agent mode у ChatGPT. Я был настроен к нему скептически, но он победил в честной схватке даже специализированных на анализе данных ИИ агентов с космическим отрывом.
Плюсы:
- нашел все паттерны в данных
- ответил на все вопросы из промпта
- подготовил отчет, в котором не просто таблички, графики, а глубокое понимание проблемы. Как будто работа настоящего аналитика
- дал дельные рекомендации, как исправить ситуацию в нашем вымышленном бизнесе
- таблички, которые он выгрузил в xlsx, сразу содержали графики, построенные эксельными инструментами и завязанные на данные (а значит — редактируемые).
Минусы:
Если опустить, что он не интегрирован в табличко-подобный UX
Модель под капотом существенно слабее, чем ChatGPT 5 Agent. Однако интеграция в UX, нативно поддерживающий таблички и графики — тащит.
Плюсы:
- не попался на заложенные в данных ловушки
- построил все таблицы и графики
- UX позволяет докручивать построенные агентом графики.
Минусы:
- сначала нагаллюцинировал, но потом исправился
- при построении графиков странный баг — вместо использования заголовка в табличке — использует первую строку с данными как заголовок
Quadratic по сути очень похож на Rows, а Manus по принципу работы — на ChatGPT 5 Agent.
Рассказывать про них особо нечего: делают то же самое, но хуже.
- Ajelix — 6/10 (5-е видео). Формат работы такой же, как у агентов общего назначения (чат). Но зачем платить за него, если есть ChatGPT и Manus?
- GPTExcel — 5/10 (6-е видео). Брат-близнец Ajelix. И вопросы вызывает те же.
- Julius AI — 2/10 (7-е видео). Полный провал: не справился с задачей совсем. Лишь с горем пополам построил один график и одну таблицу. А разговоров-то в рекламах этих ваших…
Deepsheet — просто не запустился. Как будто серверная часть сервиса отключена.
SheetsGPT — кстати сервис российского производства. Так и не направил мне ссылку для активации аккаунта. Без нее ничего не сделать. Очень жаль, с удовольствием потестировал бы.
ChatCSV — вместо анализа я получил 404-е ошибки и пустоту. Ни таблиц, ни графиков.
В 2025-м побеждают не узкоспециализированные «ИИ для таблиц», а универсальные агенты, которые понимают контекст бизнеса и могут сделать глубокий анализ и отчёт с выводами и рекомендациями.
Когда Альтман говорил, что они делают ИИ, который действительно вас понимает — теперь я понимаю, о чём он говорил.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡4🔥4 3❤1
Почему LLM галлюцинируют и можно ли их от этого отучить?
Языковые модели — основа современных ИИ-агентов. А значит, каждая их галлюцинация — это потенциальная ошибка, которая стоит денег, времени или даже здоровья пользователей. Но что значит «галлюцинации LLM»? Почему они это делают? И почему разработчики всё никак не могут их победить?
⸻
👦 Вернемся к основам
Чтобы понять, откуда берутся галлюцинации, нужно вспомнить, как вообще работают современные нейросетки.
1. LLM обучают предсказывать наиболее вероятный токен (кусочек текста) на основе его окружения (контекста). В процессе обучения в исходном тексте закрывается часть токенов. Получается, например:
Ваш мозг уже легко достроил эту фразу — собственно, того же хотим и от LLM. Таким образом, она запоминает паттерны из обучающих текстов.
2. Далее сравниваем предсказанные моделью пропущенные токены с правильным ответом и получаем процент ошибок, которые совершила модель.
3. Мы подошли к самой мякотке. Путём математических хитростей (не будем грузиться ими) строится «функция потерь». Это уравнение, которое говорит модели, насколько та ошиблась, и как сильно «подкрутить» свои параметры.
В итоге всё поведение модели зависит от того, какие параметры она подобрала, чтобы минимизировать ошибки.
Значит, ответы модели будут очень сильно зависеть от:
- данных, на которых она обучалась. Если в процессе обучения модель никогда не встречала фразу «Куда идём мы с Пятачком…», то она практически наверняка не сможет правильно дополнить её. И выдаст, например, «Куда идём мы с Пряником…». Потому что из контекста на свиной пятачок ничего не намекает, а пряник — слово статистически более вероятное.
- размера модели. Даже если в данных один раз попалась фраза из нашей любимой сказки, но модель маленькая (например, пару миллионов параметров), — то ей не хватит параметров, чтобы «запомнить» все тонкости обучающей выборки. А значит, она «выберет запомнить» только самые распространённые паттерны в текстах, чтобы минимизировать свои ошибки в процессе обучения.
- мощности железа при обучении. Учёные заметили, что если в процессе обучения модели прогонять параллельно больше примеров (для знатоков — речь о размере «батча данных»), то модель лучше обучается.
- функции потерь и всяких математических ухищрений при обучении. Это поляна, на которой трудятся учёные. Загружаться туда не будем. Важно лишь знать, что эффект от этого всё ещё несравнимо слабее, чем от первых трёх пунктов.
⸻
🫣 Ну ладно, а галлюцинации откуда?
Всё просто — галлюцинации — это статистические ошибки, вытекающие из того, на чём обучалась модель и насколько она большая. Как с нашим Пятачком.
Модель не знает математику, физику или медицину. Она не знает Винни-Пуха. Она лишь знает, что с чем чаще встречается. Большие и умные модели запоминают сложные закономерности, и нам кажется, что у них появляется «интеллект».
Но в параметрах модели обязательно встречается «тёмный угол», где творится какая-то дичь. Модель не может знать или запомнить абсолютно всё, особенно когда речь идёт про ваши специфические аспекты бизнеса или жизни. И она пытается применить свои обобщённые статистические паттерны на ваших специфических данных. В итоге получаем: «Куда идём мы с Пряником — большой-большой секрет»
👨🔬 Почему ученые не могут победить галлюцинации?
В существующих моделях ИИ, как вы уже поняли, — это просто невозможно. Как говорят разработчики, «не заложено архитектурно». Поэтому всё, что можно сделать, — это минимизировать ошибки, но не избавиться от них.
Для минимизации ошибок много техник. Среди них — RAG, fine-tuning, chain-of-thought и др. Но это уже тема другого поста...
💡 Два главных инсайта
1. Помните, что все LLM — это Т9 на максималках. Они будут ошибаться, и теперь вы знаете, почему.
2. Можно ли тогда использовать LLM? — Да, конечно. Ведь люди тоже ошибаются. Вопрос лишь в том, кто делает это чаще и дороже. И мы подходим к моменту, когда люди проигрывают моделям.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Языковые модели — основа современных ИИ-агентов. А значит, каждая их галлюцинация — это потенциальная ошибка, которая стоит денег, времени или даже здоровья пользователей. Но что значит «галлюцинации LLM»? Почему они это делают? И почему разработчики всё никак не могут их победить?
⸻
Чтобы понять, откуда берутся галлюцинации, нужно вспомнить, как вообще работают современные нейросетки.
1. LLM обучают предсказывать наиболее вероятный токен (кусочек текста) на основе его окружения (контекста). В процессе обучения в исходном тексте закрывается часть токенов. Получается, например:
Ку** идем ** с П******м - бо**шой-бол**ой секр**!
Ваш мозг уже легко достроил эту фразу — собственно, того же хотим и от LLM. Таким образом, она запоминает паттерны из обучающих текстов.
2. Далее сравниваем предсказанные моделью пропущенные токены с правильным ответом и получаем процент ошибок, которые совершила модель.
3. Мы подошли к самой мякотке. Путём математических хитростей (не будем грузиться ими) строится «функция потерь». Это уравнение, которое говорит модели, насколько та ошиблась, и как сильно «подкрутить» свои параметры.
В итоге всё поведение модели зависит от того, какие параметры она подобрала, чтобы минимизировать ошибки.
Значит, ответы модели будут очень сильно зависеть от:
- данных, на которых она обучалась. Если в процессе обучения модель никогда не встречала фразу «Куда идём мы с Пятачком…», то она практически наверняка не сможет правильно дополнить её. И выдаст, например, «Куда идём мы с Пряником…». Потому что из контекста на свиной пятачок ничего не намекает, а пряник — слово статистически более вероятное.
- размера модели. Даже если в данных один раз попалась фраза из нашей любимой сказки, но модель маленькая (например, пару миллионов параметров), — то ей не хватит параметров, чтобы «запомнить» все тонкости обучающей выборки. А значит, она «выберет запомнить» только самые распространённые паттерны в текстах, чтобы минимизировать свои ошибки в процессе обучения.
- мощности железа при обучении. Учёные заметили, что если в процессе обучения модели прогонять параллельно больше примеров (для знатоков — речь о размере «батча данных»), то модель лучше обучается.
- функции потерь и всяких математических ухищрений при обучении. Это поляна, на которой трудятся учёные. Загружаться туда не будем. Важно лишь знать, что эффект от этого всё ещё несравнимо слабее, чем от первых трёх пунктов.
⸻
Всё просто — галлюцинации — это статистические ошибки, вытекающие из того, на чём обучалась модель и насколько она большая. Как с нашим Пятачком.
Модель не знает математику, физику или медицину. Она не знает Винни-Пуха. Она лишь знает, что с чем чаще встречается. Большие и умные модели запоминают сложные закономерности, и нам кажется, что у них появляется «интеллект».
Но в параметрах модели обязательно встречается «тёмный угол», где творится какая-то дичь. Модель не может знать или запомнить абсолютно всё, особенно когда речь идёт про ваши специфические аспекты бизнеса или жизни. И она пытается применить свои обобщённые статистические паттерны на ваших специфических данных. В итоге получаем: «Куда идём мы с Пряником — большой-большой секрет»
В существующих моделях ИИ, как вы уже поняли, — это просто невозможно. Как говорят разработчики, «не заложено архитектурно». Поэтому всё, что можно сделать, — это минимизировать ошибки, но не избавиться от них.
Для минимизации ошибок много техник. Среди них — RAG, fine-tuning, chain-of-thought и др. Но это уже тема другого поста...
1. Помните, что все LLM — это Т9 на максималках. Они будут ошибаться, и теперь вы знаете, почему.
2. Можно ли тогда использовать LLM? — Да, конечно. Ведь люди тоже ошибаются. Вопрос лишь в том, кто делает это чаще и дороже. И мы подходим к моменту, когда люди проигрывают моделям.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤1👍1
Мировой рынок ИИ-агентов в 2024 году достиг $5 млрд. Ежегодные темпы роста ожидаются на уровне 40–45%. Это мощная встряска для провайдеров ИТ-платформ, которые привыкли спокойненько сдавать в аренду свои сервера.
Поэтому провайдеры активно развивают ИИ-платформы. Их рынок, по разным оценкам, в 2024 году достиг стоимости от $20 до $50 млрд.
Что такое ИИ-платформы?
- Инфраструктура для хостинга ИИ-моделей и сервисов на их основе.
- Сервисы для управления ИИ-моделями и агентами.
- Сервисы для хранения и управления данными и тп.
Но самое главное — ИИ-платформы объединяют всё это под одним зонтиком. Заходя на платформу, разработчики получают всё необходимое для создания с нуля ИИ-моделей, агентов или сразу готовых продуктов на базе уже разработанных другими технологий.
⸻
Сегодня мировыми лидерами платформ является большая тройка, которая выросла и набрала жирок на сдаче в аренду инфраструктуры (IaaS).
AWS Bedrock. AWS — лидер рынка IaaS+PaaS (около 30%). На рынок ИИ-платформ они вышли в апреле 2023. Есть партнёрки с Anthropic, Meta, Mistral, DeepSeek. Можно деплоить опенсорс-модели. Свои модели у AWS есть, но они пока не конкурентоспособны с лидирующими LLM. Bedrock Agents — платформа внутри платформы, заточенная под мультиагентные взаимодействия, RAG и т. п.
Microsoft Azure AI Foundry. Azure занимает второе место на рынке IaaS+PaaS (21%). В ноябре 2023 появилась Azure AI Studio, а в ноябре 2024 — AI Foundry, новая платформа внутри Azure. По сути, она стала главным энтерпрайз-дистрибьютером OpenAI. На этом они и конкурируют. Агентов тоже поддерживают — через Azure AI Foundry Agent Service.
Google Vertex AI. Доля Google Cloud — 12%. Но их универсальная платформа Vertex AI работает ещё с мая 2021 года. Gemini глубоко интегрирован в экосистему. Помимо своих моделей у Google есть Model Garden с широким выбором опенсорсных моделей. А ещё они сделали Agentic Development Kit и Agent Garden, где лежат готовые к деплою ИИ-агенты.
⸻
Но давайте взглянем на тех, кто играет по своим правилам. Именно они могут задизраптить рынок и открыть свой голубой океан.
Hugging Face Enterprise Hub. Их козырь — крупнейшая в мире библиотека опенсорс-моделей (1,7 млн) и датасетов (400 тыс.). Они не привязывают к своей инфраструктуре, а дают доступ к экосистеме. Сейчас это скорее дополнение к тройке, но в их руках огромная сила.
OpenAI. Да, они партнёры Microsoft, но параллельно строят свой датацентр. Когда он будет готов — зачем им Microsoft? У OpenAI свои топовые модели, SDK для агентов, и без них Microsoft теряет главное преимущество. Цугцванг для Майкрософта и красивая игра для OpenAI.
xAI. Пока не платформа, но Маск строит датацентры и фундаментальные модели Grok. Его преимущество — уникальные данные из X (Twitter). Возможно, он придумает неожиданный способ применить соцсеть для ИИ-агентов.
Meta*. Делает сильные фундаментальные модели (LLaMA), активно работает с агентами. Но платформу пока не собрала — внутреннюю инфраструктуру держат при себе. В 2025 появилась LLaMA API — первый шаг в сторону SaaS. Вероятно, ставка больше на сами модели. Возможно, в их видении метавселенная + ИИ = будущее PaaS.
*Запрещена в РФ.
⸻
Рынок IaaS и PaaS в РФ тоже на подъёме. По результатам 2024 года он достиг 32,9 млрд рублей (~400 млн долл.), то есть примерно 0,1% мирового рынка.
Тут два устойчивых лидера рынка:
Cloud ML space (бывший SberCloud). Cloud на рынке IaaS+PaaS России занимает 35%.
Yandex Data Sphere. Yandex Cloud занимает 25% рынка.
Рынок очень отрезан от всего мира в силу требований ФЗ-152 (который требует, чтобы сервера, обрабатывающие персональные данные, были в РФ). Поэтому живёт себе припеваючи и отбоя от клиентов не знает.
При этом если российским провайдерам удастся в условиях санкций масштабировать свою инфраструктуру — то для них открывается рынок стран СНГ, который с удовольствием купит более дешёвое, но качественное решение из России.
⸻
Подписывайся, у меня полезное про ИИ агентов без инфошума.
Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3🔥2 1