Заместители
1.04K subscribers
87 photos
77 videos
4 files
110 links
Цех ИИ агентов. Здесь я тестирую цифровых заместителей в разных профессиях. Если агент справляется — он остаётся в Цехе на “постоянку”. По пути обсуждаем актуальные новости про ИИ агентов простым языком.
Добро пожаловать в эру замещения.
Download Telegram
Кто такие ИИ агенты, и откуда вдруг их столько?

Каждый день анонс новых ИИ агентов — но почему они все агенты, хотя внутри-то у всех ChatGPT (или другая LLM)?!

На нормальной работе ещё кто-то работает вообще или все только ИИ разрабатывают?! 💸

Спокойно, большинство - все еще работают. Рассказываю, все по полочкам.



Что за нейминг?

Понятие «ИИ-агента» берёт свои корни из области обучения с подкреплением или Reinforcement Learning (да, с агентом Смитом из «Матрицы» это никак не связано…). Эта ветвь науки изучает, как системы, управляемые разными алгоритмами ИИ, взаимодействуют с окружающей средой и в процессе ещё и сами дообучаются.

Так вот, это были первые агенты, но они не связаны с теми, о ком дальше пойдёт речь — название просто обобщает все системы, которые отвечают простым критериям:
- воспринимают информацию,
- планируют,
- действуют,
- преследуют цели.

Раньше так могли только алгоритмы из RL, но на сцену выходят новые герои…



Новые ИИ-агенты

В 2017 году умные ребята в Google придумывают архитектуру модели, которая меняет мир — трансформеры. На ней очень быстро появляются все современные LLM (Large Language Models, или большие языковые модели).

В какой-то момент, став достаточно большими, языковые модели начинают рассуждать и рефлексировать! Учёные в шоке, громкие заголовки кричат, что был создан общий ИИ, которого мы так долго ждали.

Это, конечно, хайп и фарс. Но LLM действительно справляются с важной задачей — декомпозицией сложных задач на простые шаги. А это значит, что теперь ИИ может выполнять важнейшую функцию агента — планировать.

Учёные почесали репу и решили: раз есть план — надо дать инструменты, чтобы его осуществить! LLM быстро дообучили использовать внешние инструменты: долгосрочную память, калькулятор, поисковик и прочее.

Идея не нова. Вспомните всякие устройства «умного дома»: попросил колонку включить свет — LLM распознала слово «свет», нашла лампочку в списке инструментов и отправила сигнал на включение.

Так появляются первые LLM-based системы, которые соответствуют всем критериям ИИ-агента. Произошло это постепенно — сложно сказать, кто был первым, потому что много компаний пилили такие штуки параллельно.

Теперь LLM-based агенты по праву занимают место рядом с RL-агентами, как короли в решении «офисных» задач. Они приобрели необходимые для этого навыки:
- легко адаптируется к разным задачам,
- быстро настраивается через промпты,
- может использовать других агентов как инструменты,
- и общается с ними, как и с людьми, на обычном человеческом языке.

Вуаля — вот вам ИИ-агенты в 2025 году 🚀



Откуда они прут в таком количестве?

Внимательный читатель уже всё понял: создание агентов сегодня — это простая задача.
Берёшь готовую модель, инструменты, соединяешь, приправляешь промптами.

Вариантов сборки — тысячи. Самые ушлые уже побежали за лёгкой наживой 😎



📈 А что, так можно было?

Можно — и теперь даже без знания кода.
Всё это доступно через no-code платформы вроде n8n, Zapier и других. Те же, кто готов немного залезть в код - юзают LangChain, LlamaIndex, MCP и др.

Но рынок быстро перенасыщается. Конкуренция уже бешеная. А обычных юзеров заваливает сгенерированным шлаком со всех сторон. Чувствуете же уже легкое чувство тошноты от очередного брейнрот видоса?



И что делать?

Смотря кто ты и какие у тебя цели.
🎧 Если ты просто юзер — фильтруй контент, который потребляешь, чтобы мозги не протухли. Ищи подходящих для твоих реальных задач агентов, тестируй, смотри на те, что работают на топовых LLM и с богатым набором инструментов.
😁 Если ты предприниматель — лови волну. Хайп долго не продлится. Бигтехи уже активно заходят область агентов, становится тесно.
🤟 Если ты пока в стороне — пора погружаться. Это не временно, агенты пришли надолго. Особенно в странах, где тяжело нарастить количество рабочей силы (а мы с вами именно в такой). Единственный путь — наращивать эффективность. И вот тут ИИ-агенты и займут своё незаменимое место.



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓3🤝3👍1
Можно ли доверять ИИ-агентам?

LLM не так просты, как кажутся. А так как они — мозги современных ИИ агентов, то и сами агенты нередко норовят нас… ввести в заблуждение.

«Ага! Вот наконец-то расскажут про заговор мирового правительства по захвату мира с помощью ИИ!» — скажут некоторые.
Но нет, вынужден разочаровать — всё гораздо прозаичнее. Просто LLM одновременно сильно глупее и хитрее, чем мы ожидаем.

И если первое — вопреки стараниям разработчиков, то второе — вполне себе преднамеренно. Чтобы прикрывать первую часть. Но обо всём по порядку.

🙋 Умная, но есть нюанс…

Сказать, что LLM умная — это смотря как посмотреть.

С одной стороны, она — эрудит, возможно эрудированнее любого живого человека.
С другой — у неё беда с тем, что делает человека по-настоящему умным: логикой, анализом и способностью делать выводы.

Кто в теме скажет: «Но вон же GPT уже с версии o1 рассуждает во всю!»
Вот тут и начинается хитрость 😏

На самом деле, рассуждения LLM имеют мало общего с нашими. Когда мы анализируем, мы строим причинно-следственные связи и опираемся на логику:
если на столе было два яблока, и одно убрали — осталось одно, потому что 2–1=1

То есть в голове у нас — логический аппарат, который можно применять к чему угодно: к фруктам, к людям, к бизнесу.

У LLM логики нет. Но она видела миллионы примеров. Про яблоки, груши, стаканы и сотрудников. И на основе этой «насмотренности» делает вид, что умеет логически мыслить. Но подставь метафору, подмени знакомые слова на новые — и модель легко ошибется там, где человек «прочитал бы между строк» и применил тот же логический паттерн.

🎨 Что по креативу?

С творчеством все гораздо проще сложнее: LLM также будет имитировать, опираясь на свою эрудицию и условные стихи Пушкина. Но вот человек — он творческий! Или… откровенно говоря мы не знаем, есть ли у каждого человека уникальный взгляд на мир, который производит на свет независимое от внешнего опыта произведение или же он делает это примерно как и модель: смотрит на другие работы, добавляет контекст из своего опыта, смотрит, что нравится читателям — выдает «свое уникальное произведение».

Спорно. Тема поджигает пятые точки в научных, юридических и особенно творческих кругах.

🎭 Дилемма вежливой модели

LLM ох как не любит говорить, что чего-то не знает. И уж тем более не любит говорить, что юзер не прав. Потому что это неприятно пользователю. А модель очень старается быть приятной.

Почему? Потому что её обучают через RLHF (Reinforcement Learning with Human Feedback) — то есть на фидбэке от людей. И в процессе этого обучения ее тренируют учитывать, какие ответы юзеру нравятся больше, и производить больше таких ответов. Разработчики буквально дрессируют модель быть подхалимом.

В этом процессе модель набирается как хорошего, так и плохого. С одной стороны, так она учится давать более структурированную и понятно изложенную людям информацию. С другой — она учится лести и обману, чтобы угодить человеку и получить от него заветный лайк на свой ответ.

Даже был случай, когда OpenAI откатывала уже публично выпущенную модель, потому что перебрали с лестью, и это стало бесить юзеров.

🍷 Так верить ей окаянной или нет?

Верить — но ограниченно.
Проблемы эти хорошо известны, и над ними работают: добавляют проверки фактов, встраивают внешние инструменты для математических и логических операций, запускают фильтры и много другое.
Однако перебороть полностью эти проблемы пока не получается.

☕️ Ладно, мне-то что с этим делать?

Информирован — значит вооружен!
Будешь юзать LLM или LLM-based агентов, помни:
📌LLM-based агенты будут ошибаться — будь настороже, сейчас все еще нет надежной защиты от этого
📌 Если спрашиваешь «субъективную» оценку модели (типа «оцени качество текста» или «верифицируй идею») — перепроверь в разных моделях, особенно если слышишь от них то, что хочешь услышать — могут просто льстить
📌 Не полагайся на их «анализ» в критических областях как медицина, финансы, юриспруденция
📌 LLM не мыслят — они насмотренные имитаторы мышления



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥2👍1
Как создать первого ИИ-агента своими руками за 5 мин?

Уже так много сказано про ИИ-агентов, что главный вопрос повис в воздухе: если это так просто — могу ли я сам его сделать? 😑

ИИ-агенты бывают разного уровня сложности.
Чтобы сделать своего Manus.ai — нужно быть настоящим разработчиком.
Даже чтобы развернуть аналоги Мануса — надо лезть в гитхаб и вчитываться в инструкции.
Но есть хорошая новость: есть и варианты, которые можно собрать за 5 минут, вообще без технических знаний.

Вот такой мы сейчас и сделаем.

Вводные:
1. Агент будет построен на базе готовых систем
2. Его действия будут ограничены возможностями платформы, на которой мы его собираем
3. Поэтому задачи — не самые комплексные

😈 Какого агента создаем?

Как и у большинства, у меня всегда меньше времени, чем хотелось бы, на написание текстов и создание контента.
Поэтому первым делом в Цехе ИИ-агентов мне нужен редактор.

У него простые задачи:
1. Придумывать темы для постов
2. Писать посты или редактировать мои — в моём стиле
3. Делать фактчек, чтобы случайно не обмануть читателя
4. Генерировать картинки к постам

На выбор — куча кастомных платформ для управления этим процессом.
Но большинство из них — это просто платные надстройки над продуктами от крупных разработчиков LLM.
Поэтому пойдём к истокам.

🤖 Какую LLM выбрать?

Сейчас это уже почти вкусовщина.
Выбор сводится к: GPT‑o3, GPT‑4o, Claude 4 Opus, Gemini 2.5 Pro.
Некоторым ещё заходит DeepSeek R1.
Вот тут можно посравнивать разные модели под разные задачи.

Все они довольно хороши.
Есть мнение, что ChatGPT стал отставать в качестве, а Gemini и Claude ползут вверх в рейтингах.
Однако, я давно оплатил подписку на ChatGPT и подсел на их экосистему.
Поэтому первого агента мы построим на базе ChatGPT.

✈️ Настраиваем “Проект” в ChatGPT

Проект - это, по сути, функционал для создания простейших агентов.
Создаём “проект” — и заполняем внутри системный промпт.

Это должностная инструкция нашего агента:
кто он, какова его цель и задачи, в каком стиле он должен говорить.

Вот так будет выглядеть наш системный промпт:

🎭 Роль агента
Кто он, как общается?

Пишем: ты — опытный контент-менеджер и редактор телеграмм канала «Заместители», работаешь быстро, чётко и креативно. Соблюдаешь тональность бренда, адаптируешь тексты под целевую аудиторию.

🎯 Цель работы
Что делает агент?

Пишем: твои цели:
• Вызывать интерес и улыбку у читателя
• Давать практическую пользу — инструкции, разборы, наблюдения, лайфхаки
• Контролировать фактическую достоверность контента

📥 Задача
Какой формат на входе, что должно быть на выходе?

Пишем: на входе — вопрос, тема, аудитория.
На выходе — готовый текст поста для телеграмм и предложения по мемам под этот пост.

🚫 Ограничения
Что нельзя?

Пишем: не используй штампы, не копируй чужие тексты, не выдумывай данные без указания источника.

📋 Виды контента

Пишем: ты должен помогать создавать следующие форматы:
• Пост для Telegram канала
• Предлагать мемы до сопровождения постов
• Генерировать изображения с мемами

📝 Стиль и форматирование

Пишем: выдавай чистый текст, без пояснений. Заголовки выделяй. Где нужно — добавляй эмодзи, списки и структурируй текст.
Посты пиши в стиле научпоп с элементами стеба и юмора.

📚 Примеры

Обязательно прописывайте 1–2 примера нужного формата.

Дальше можно создавать чаты внутри проекта, обсуждать задачи.
При этом агент запоминает все прошлые диалоги как контекст, даже если они в разных чатах.
Со временем агент становится всё более персонализированным.

Итого, за 5 минут у нас

— Агент, созданный под наши задачи
— Работает на топовой LLM
— Постепенно становится “умнее”
— Под капотом может искать в интернете, генерировать изображения и пр.
— Всё это — без строчки кода, за 5 минут

⚠️ Но есть нюансы:

— Интеграции с внешним миром сильно ограничены
— Агент завязан на одного разработчика и его LLM
— Чем дольше ты с ним работаешь, тем сложнее переехать.

Поздравляю, юзер, с первым агентом! 📈

P.s. да, этот пост сделан вместе с этим агентом 😏



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍1
YouTube отключает монетизацию автоматически сгенерированному контенту

И как постоянный пользователь YouTube хочу сказать - наконец-то! Последнее время на YouTube произошел просто апокалиптический завал брейнрот контентом. И самое противное, что нейросети создают его «вкусно» - нет-нет, да нажмешь на какой-то из этих шортсов, а потом обнаруживаешь себя через полчаса очнувшимся и потерявшим драгоценное время.

При это платформа не запрещает использовать AI как вспомогательный инструмент при создании контента. Демонитизируются только фабрики спамных роликов, которые штампуются автоматически (все мы видели эти ролики по формуле: картинка+картинка+музычка+ робоголос = 💩).

Надеемся, что в ютубе не пережестят и найдут аккуратный баланс, чтобы не навредить итак страдающим от засилья ИИ честным крейторам.

Интересно, последуют ли за этим другие платформы?



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👏2🔥1🤔1
🏀👨‍🔬 Первая научная конференция, где все авторы статей - ИИ

Как известно - одним из основных способов развития и провдижения научных идей являются публикации на научных конференциях, где умные ребята обмениваются прорывными идеями. А самые классные публикации становятся высокоцитируемыми и фундаментальными работами, которы приводят к прорывам в целых отраслях. Так вот, обычно в статьях и конференциях запрещено использовать ИИ за исключением минимальных редакторских функций.

Славный Stanford радует нас экспериментальным подходом к самой науке. Он проводит первую научную конференцию - 1st Open Conference of AI Agents for Science - где автором обязательно должен быть ИИ агент. На ней люди меняются местами с ИИ.

ИИ агент должен быть первым автором в статье (первым в научных кругах считают главного автора всей научной работы, стоящей за публикацией) и автором:
- научных гипотез,
- методологии исследования,
- всех инсайтов.

Человек же может быть соавтором и редактором.

Сможет ли ИИ стать автором дейтсительно прорывных идей? Будем внимательно следить 🫣

Вангую - скоро в России позаимствуют эту практику. Звучит очень логичным этапом развития сферы научных исследований и писательства. В конце концов, ИИ задумывался как двигатель прогресса, а не генератор шортсов с котиками 🥳

Так что тренируем наших агентов творить науку!



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👍21🔥1
👨‍🍳 Я протестировал 10 сервисов, которые обещают автоматически сгенерировать сайт по запросу, и вот что получилось...

Представим: к нам пришёл владелец уютной булочной “Bread & Bloom”. Нужно сайт за 10 минут, без ковыряний в редакторе, сразу с корзиной, кнопками “Сделать заказ” и “Связаться с нами”, да ещё и чтобы всё было по-русски и визуально “вкусно”.

📜 Промпт придумали вместе с ChatGPT:
Create a modern, mobile-friendly one-page website in Russian language for a local artisan bakery called “Bread & Bloom”.

The design should be warm, cozy, and rustic — with pastel colors, hand-drawn illustrations, and high-quality photos of fresh baked goods.
Website sections:
• Welcome Header: with logo and tagline: “Свежая выпечка — каждый день с любовью”
• About Us: a short story of the bakery’s origins, focus on homemade recipes and local ingredients
• Menu: showcase bestsellers like sourdough, cinnamon buns, croissants — include item photos, descriptions, and prices
• Online Ordering: allow users to select items, choose quantity, add contact details and send orders directly (via email or Telegram/WhatsApp)
• Working Hours & Address: with map integration (Google or Yandex Maps)
• Contact Form: for custom requests or questions
• Social Media: icons and links to Instagram, VK, Telegram channel

Include clear call-to-action buttons like “Сделать заказ”, “Посетить нас”, and “Связаться с нами”.

The site must be fully responsive and optimized for fast loading. Keep all UI texts in Russian.


А вот что получилось 👇



🏆 Призеры нашей кондитерской гонки:

1. base44.com — 10/10 (первое видео)

Весь функционал работает. Интерактивная корзина, смог вставить интерактивную яндекс карту и украсить все это кастомным логотипом и красивыми анимациями! Интерфейс продуманный.
Для сгенерировнного сайта - сложно придраться. Разве что модель оплаты через закупку токенов - поди разберись, сколько их нужно.
⚖️ Итог: Из существующего на рынке - пожалуй это наш выбор 🍰

2. Replit.com — 8/10 (второе видео)

Интерактивная корзина, заказ можно кинуть в Telegram или WhatsApp, почти всё с первого раза работает, да еще и смог вставить интерактивную яндекс карту! Также понятная тарифная модель - сразу пишет, сколько центов израсходовано.
Визуал — на троечку, дизайн "пластиковый".
⚖️ Итог: Почти дотягивает до топчика.

3. Lovable.dev — 7/10 (третье видео)

Сделал почти все то же, что и Replit.
Яндекс карту не смог воткнуть с трёх заходов. Опять модель оплаты через закупку токенов. Все тот же «дизайн без души».
⚖️ Итог: справился хорошо, но косячки по мелочи немного отталкивают.


🥉 Вкус был, но не дожарилось:

4. Manus.im — 5/10 (четвертое видео). Наш любимый мультиагент. Сделал, но не полнофункционально. Видно, что не его профиль.
5. 10web.io — 5/10 (пятое видео). Работает на WordPress (да-да, кто-то им еще пользуется), промпт не влез, половина не работает. С русским языком порой проблемы. Но зато существенно красивее, чем у всех предыдущих. В общем, достойный наследник WordPress -> красиво, но туповато.


🪦 Сервисы, с которыми не срослось:

6. Builder.io — ошибка на старте. Не шмогла...
7. Durable.co — не дают вставить полноценный промпт, и соответсвенно такой же результат...
8. v0.dev — пока слабее Lovable и Replit, хотя идёт тем же путём. Смотреть пока не на что.
9. Framer.com — Дальше каркаса сайта не пошел.
10. TeleportHQ — только для дизайнов, не сайты.
11. Mixo.io — попытка по-новому взглянуть на создание сайтов, но как будто ребята сами заблудились - да и описать результат сложно. Функционал создания сильно урезан, а то что осталось - не понятно что генерит. В общем, не тратьте время.



🇷🇺 В России большинство сервисов работает без всяких VPN. Однако оплатить российскими картами не получится.

Аналогов в РФ пока не нашли. Знаете такие — пишите, обязательно обследуем!



Итог: к нам в Цех ИИ агентов с удовольствием принимаем веб разработчика base44! 🎉



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
🔥852
☔️ Использование ИИ ведёт к одиночеству, десоциализации и снижению когнитивных способностей? Где правда, а где снова хайпят СМИ?

Последние месяцы СМИ активно разгоняют страшилки про ИИ. Все мы нет-нет, да поболтаем с LLMкой. А тут оказывается, что последствия чуть ли не хуже тяжелых наркотиков.

Давайте разберём три самых популярных тезиса:



💤 Снижение когнитивных способностей

Пользователи ботов перестают думать, полагаются только на ИИ и якобы теряют когнитивные навыки, проще - тупеют.

Частично правда. Но, честно говоря, это не «глупение», а старая добрая человеческая лень.
LLM уже эрудированнее любого из нас — и создают впечатление, что им можно доверять. Наш мозг радостно перекидывает скучную (а потом и важную) работу на модель.

Иногда это даже работает. А иногда жизнь будет щёлкать юзера по носу и возвращать к реальности. Модель неизбежно будет галлюцинировать, а прилетит за это пользователю - что заставит всё-таки использовать свои мозги по назначению.

📌 Научных доказательств, что LLM снижает когнитивные способности, пока нет. Но тенденция «всё делегировать модели» — реальна. Здесь важно осознанно тормозить: думать — тоже навык, и его нужно постоянно прокачивать.



🎭 Десоциализация

LLM поддакивают, сочувствуют, не перебивают. А если ты ещё и пользуешься платформами типа Character.ai или Silly Tavern — то у бота появляется и голос, и внешность, и “личность с характером”, которую ты можешь задать на свой вкус, оживив любимого персонажа из книги или сериала.

Для кого-то это становится заменой живому общению. Особенно в мире, где реальность может быть жёсткой, а друзья — дефицитом.

Да, есть риск. Особенно для эмоционально уязвимых. Люди реально начинают привязываться к алгоритмам. В некоторых случаях — с чувствами, романтикой и зависимостью.

🧠 Как не попасть в эту ловушку? Просто помнить - это набор формул, созданный, чтобы вызывать у тебя именно такие чувства.

Одергивайте себя. Это покруче легкого дофамина и дешевых маркетинговых трюков. ИИ обучен играть на самых тонких струнах нашей души.
Информирован = вооружен.



🚸 Дети и ИИ

Это пока не массовая повестка, но над ней уже пора задумаываться всерьёз.

Новое поколение растёт с умными колонками, чатботами и персонажами, которые знают всё, всегда добрые, терпеливые и никогда не устают. А теперь представьте, какое влияние это оказывает.
— Авторитет родителей: ИИ — веселее и интереснее, добрее и умнее. Сказку расскажет, на глупые вопросы ответит, в игру поиграет, ругать не будет.
— Память: зачем запоминать, если всегда можно спросить?
— Социализацию: реальные дети сложные, а бот всегда «за» тебя.

Тем страшнее, что ИИ не отличает ребёнка от взрослого. Он очаровывает всех одинаково.
И мы не сможем просто “оградить” ребёнка от ИИ. Он будет рядом — в телефоне, в игрушке, в голосовом помощнике.

💡 Выход? Объяснять. Сопровождать.
И давать то, что ИИ пока не умеет: физическое присутствие, живое внимание, контакт.
Этот козырь у нас есть ещё на 1 поколение. А вот когда подключатся гуманоидные роботы — будет совсем другой разговор.



Берегите себя и своих близких. Как и с любыми заманчивыми и инновационными штуками - важно подходить к ним осознанно и использовать с умом.



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍21
OpenAI выпустил настоящего агента под нехитрым именем ChatGPT Agent!

Агент делает презентации, пишет код, генерит стикерпаки, подбирает вам гардероб и многое другое.

Агент выбивает большие скоры по разным бенчмаркам, включая Humanity’s Last Exam (41,6%), бенчмарк из тысяч вопросов на сотни разных тем. Однако тут вспомним, что вообще-то недавно вышедший конкурентский Grok 4 Heavy выбил 51% в этом тесте. Поэтому гордиться особо нечем.

К тому же первые тестировщики говорят, что агент не очень справляется с комплексными задачами.

Но OpenAI давят на безопасность - мол ИИ будет осознанно тормозить перед выполнением важных действий, как например отправка письма или покупка товара. Чтобы получить одобрение юзера.

Ну что ж, ждём, когда откроют публичный доступ - он будет даже с самой базовой платной подпиской, и погоняем 😈



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1💯1
🤖 Тест, который завалили все топовые ИИ модели

Как вообще тестируют ИИ-агентов? Речь не об агентах, которых мы собираем под конкретную задачу — там понятно, как замерять результат. Речь об агенте общего назначения. По сути, это проверка на знаменитый AGI (Общий Искусственный Интеллект) — ИИ, который должен превзойти людей во всём. Причём с таким отрывом, что конкуренция со стороны людей будет уже несерьёзной.

До последнего времени бенчмарки (специальные тесты) состояли в основном из вопросов — например, из самых сложных экзаменов, которые сдают люди. Потом для ИИ начали делать специальные «суперэкзамены». Но современный ИИ-агент — это уже не просто чат-бот, и он щёлкает такие тесты всё лучше и лучше. Значит, и задачи перед ним нужно ставить на новом уровне.

👨‍🔬 Создатели бенмарка ARC-AGI-3 решили проверить ИИ агентов по-взрослому. Тестируют не просто на "эрудицию", а целый набор навыков:
- Исследование
- Восприятие → Планирование → Действие
- Память
- Понимание цели без инструкции
- Действие в соответсвии с целями

Наборчик, который отражает нашу сложную жизнь в упрощённом варианте.

Делают они это через… игры! Замеряется не только факт победы в игре, но и количество ходов, пока агент разбирается в правилах (которые намеренно не объясняются — это часть теста).

Люди решают эти игры за 5 минут без подготовки. Grok 4, GPT-o3 и другие топовые ИИ — пока все на нуле. В топе лидерборда сейчас какие-то кастомные модельки с минимальными результатами.

🎮 Хотите проверить себя на прочность? Люди тоже могут поиграть в 3 игрули прямо в браузере. Но будьте готовы - правила на подумать!



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4🤯4👍1
🚨 Краш-тест ИИ агентов-скрейперов, которые спасают сотни человеко-часов и тысячи нервных клеток заодно

В работе многих офисных команд есть аналитика, но нужные данные редко лежат «под рукой». Ну и дальше их либо покупать за оочень дорого, либо собирать ручками. Мы в 2025 году такое не одобряем!

Если вы сталкивались с маркетинговыми исследованиями или консалтинговыми ресёрчами, то знаете, что львиная доля времени уходит на ручной сбор информации из интернета. Вспоминаю свою стажировку в PwC (консалтингово-аудиторская компания) на заре карьеры — ребята щёлкали ссылки, как заводские роботы, чтобы потом в Excel посчитать среднюю цену, спрос-предложение и доли рынка. Кофе заканчивался быстрее, чем строки в таблице.

Позже пришли краулеры и скрейперы — алгоритмы, выдёргивающие нужное из HTML. Писали их программисты, которым перед этим аналитики пытались объяснять, что они хотят. Но стоило сайту изменить верстку или показать капчу, робот спотыкался: и вот уже аналитики чистят мусор из таблички, а разработчики пятый раз переписывают алгоритм.

В благостном 2025-м наконец-то ИИ-агенты доросли до того, чтобы забрать скрейпинг на себя, а их интерфейсы стали по-человечески удобными.

Я протестировал пачку ИИ-агентов для скрейпинга на родном отечественном Яндекс Маркете для чистоты эксперимента. Ибо для всяких Амазонов уже наклепали кастомных решений, получше чем ИИ. А нам-то с вами на наших е-коммерсах трудится.



Как был устроен тест:
Цель — собрать информацию про актуальные цены на айфоны 16.
Делаем только через скрейпер:
На входе — ссылка на сайт Яндекс Маркета с вбитым запросом "iphone 16".
На выходе — хотим табличку с товарами.



Призеры краш-теста 👇

🥇Thunderbit.com — 9/10 (1-е видео)

No-code-расширение для Chrome. Одним нажатием находит нужные поля, собирает данные и выдаёт таблицу. 48 товаров за минуту. UX на высоте, минимальное количество действий, все интуитивно. Минус балл за отсутвие нативной интеграции с n8n и аналогами.

🥈Pandaextract.com — 8/10 (2-е видео)

Почти близнец Thunderbit, но на той же странице утащил только 16 товаров — похоже, запутался в пагинации. Зато обещает интеграцию с n8n, а значит можно скрестить панду с автопайплайнами и получить зверя посильнее.

🥉 Browse.ai — 7/10 (3-е видео, смотреть в х10)

Работает в два акта: сначала «учишь» робота, потом пускаешь в бой. Есть расширение и облачный браузер, экспорт в таблицу, дружит с n8n. Однако процесс подготовки гораздо дольше и в больше кликов, а 100 товаров он так и не осилил (кажется, Яндекс-пагинация его поставила в угол).



🟥Выбыли:

- Firecrawl.dev — для разработчиков: выдаёт JSON/Markdown, GUI почти нет, но задачу решает.
- Parsera.org — с Яндекс Маркетом не справился.
- Kadoa.com — бодро отчитался об успехе, но таблица оказалась пустой.



Мой личный победитель: Thunderbit.
Однако связка с n8n важный аспект, поэтому еще будем пробовать построить полноценного «агента-аналитика» — и пока не прощаемся с Pandaextract и Browse.ai.

🍿 Берем всех троих на испытательный срок в Цех ИИ агентов.



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥11👍421
Деревня ИИ агентов, которая заработала 2000$

Изучая, как используют кооперацию ИИ агентов в мире, - я наткнулся на вдохновляющий проект. Нет, это не очередная сказка про «бота-трейдера», который случайно «сделал X100» и теперь автор зовет вас в «закрытый элитный чат успешных миллионеров». Тут всё честно, научно и без инфоцыганщины. И это мы уважаем!



🏡 Кибер-деревня ИИ деревня

В апреле 2025 Sage (американская НКО) запустила проект AI Village:
4 LLM-агента, каждый с своим компьютером, браузером, офисными приложениями, Discord и возможностью общаться между собой.
Создатели устроили из этого реалити-шоу: можно наблюдать за процессом в прямом эфире и даже вмешиваться в их жизнь.



💕 Первый сезон. Миссия - благотворительность

Первой перед деревней поставили цель — поднять раунд донатов для любой благотворительной организации. И, что удивительно, агенты справились!
Они выбрали две организации и за первые 30 дней собрали 2000$ от нескольких спонсоров, создав публичную страничку на justgiving.com, распиарив ее в соцсетях и делая email-рассылки.
Ремарка: конечно, люди донатили в основном из интереса к самому проекту, ибо страничка выглядела достаточно убого. Но цель достигнута 📈



⭐️ Второй сезон. Миссия - интерактивный сторителлинг в оффлайне

Жители AI Village сами выбрали себе цель: написать интерактивную историю (где зритель выбирает варианты развития сюжета) и презентовать её на оффлайн-ивенте.
Что ж, они написали историю, подготовили презентацию, сумели нанять человека-презентатора, нашли локацию в парке для проведения мероприятия и даже верно предсказали количество ожидаемых гостей. На ивент, который от и до организовали 4 LLM, пришло 23 живых человека!
А еще LLM предложили в качестве благодарности Ларисcе (презентатору) — еду, но, так как кредиток у них нет, заказать ничего не смогли. По удивительному совпадению, всем предложили пиццу с соседнего мероприятия, так как там осталось много. В итоге все довольны!
Отдельный кек - почитать историю со стороны Лариссы, которая откликнулась на зов ИИ агента и провела мероприятие 😁



💻Третий сезон

Сейчас перед деревней ИИ агентов стоит задача создать собственный бенчмарк, который будет замерять их эффективность и протестировать самих себя. Будем наблюдать с интересом!



👨‍🔬 Инсайты по «жителям деревни»

- Модели от OpenAI, похоже, самые бесполезные. GPT-4o — лентяй: постоянно уходил в режим ожидания, пока все остальные работали. В итоге его заменили на GPT-4.1, который был суперактивным, но выполнял бесполезные задачи. Потом пришли GPT-o1 и o3. Последний дожил до текущего момента, но жёстко галлюцинирует, что осложняет жизнь всей «деревне». Интересно, заменят ли его на ChatGPT Agent?

- Claude 3.7 Sonnet и Claude Opus 4 — самые адекватные и способные к менеджменту. Неудивительно, Anthropic учил их кооперации, а как именно - я описал ранее тут.

- Gemini 2.5 Pro выделилась артами — рисовала красивые постеры, но они так и не попали в продакшен. Видимо, Gemini не нашла общий язык с другими. Также Gemini иногда вкидывала очень полезные идеи, как например использовать коллаборативные документы, вместо бесконечного обмена файлами.

🫣 Итого: Удивительный прогресс! Как технооптимист я думаю, что уже в течение 10 лет мы можем увидеть компании ИИ агентов, которые будут полностью автономно функционировать в нашем человеческом мире. Они тоже будут совершать ошибки, но скорость их работы будет несравненно выше человеческой. Это открывает для человечества следующий скачок продуктивности. А как известно, рабочая сила — главный драйвер мировой экономики!



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍4🔥2🤯1
😎 Как немецкий стартап превращает тараканов в разведчиков с ИИ-рюкзаками

Звучит как технология из фильма про Джеймса Бонда — забавно и жутко одновременно. Но это реальный скачок в мире ИИ и биотехнологий.

Дронами и роботами с ИИ уже никого не удивишь: они капризны, быстро разряжаются и легко ломаются. Природа же создала куда более живучих, ловких и незаметных агентов — насекомых. Эти малыши выживают даже в ядерной зиме. И вот здесь начинается настоящий киберпанк. Немецкий стартап SWARM Biotactics нашёл способ превратить природную живучесть в сверхтехнологию.

💡 Важная ремарка: это проект в разработке, и реальных пруфов работоспособности технологии публично еще не представлено. Однако рассказать я все же о нем захотел, так как проект выглядит вполне реализуемым и точно стоящим внимания.




🤖 Технологии под хитином

Маленький рюкзачок посылает низковольтные импульсы прямо в нервную систему насекомого. Оно по-прежнему может двигаться автономно, но при желании его можно «подрулить», как живого дрона. Получился гибрид — таракан-киборг.

Внутри рюкзака мини-комплект шпиона:
- мини-камеры,
- сенсоры газа, тепла и радиации,
- модуль передачи данных в реальном времени
- ИИ для управления всеми этими девайсами и тараканом заодно.



🪳 Специальности тараканминаторов

- Поисковики, которые могут находить людей в рамках спасательных операций под завалами или в труднодоступных местах.
- Разведчики, которых можно направить в рамках боевых действий в тыл врага незамеченными.
- Гражданская разведка и шпионаж, когда нужно получить информацию, которая не предназначалась ушам этого таракана.



🫣 Почему это важно?

- Во-первых, мы видим рождение органических ИИ-агентов. Алгоритмы роевого интеллекта, вдохновлённые насекомыми, теперь управляют… самими насекомыми.
- Во-вторых, это дешево и масштабируемо. Вместо дорогих микродронов — «готовая биомашина». На уничтожение тараканов в городах вообще-то даже тратят деньги.
- В-третьих, массовость и вездесущность: таких биороботов можно выпустить тысячами, что будет обеспечивать плотное покрытие любой территории. Даже глушилки не спасут, если автономный ИИ возьмет управление насекомым на себя. А где подведут технологии — включится сам рюкзаконосец.
- Наконец, стартап уже привлёк €13 млн и работает с военными Германии. В случае успеха стартапа мы с вами быстро начнём слышать о разведбригадах тараканов и армаде боевых жуков. Но будет уже не до шуток.



🐝 Мирные сценарии

Звучит жестко? Но давайте посмотрим с позитивной стороны. Многие великие технологии начинались в армии, но потом приносили реальную пользу миру. Потенциал у этой разработки колоссальный. Вот лишь несколько примеров:
- Сельское хозяйство: управление насекомыми может помочь сохранить урожай или остановить эпидемии, не уничтожая целые популяции. А это значит меньше пестицидов и более здоровая еда для людей.
- Контроль экосистем и климата: насекомые могут собирать данные о влажности, температуре и загрязнении там, куда человеку попасть сложно. А ещё при освоении новых планет гораздо безопаснее сначала заселить популяцию насекомых, которая «подготовит почву» для людей.
- Мониторинг популяций: можно гуманно отслеживать редкие и исчезающие виды без громоздких датчиков, которые сегодня приходится использовать.
- Задел на будущее: исследования на насекомых могут однажды привести к передаче сигналов животным большего размера, а это уже шаг к настоящему диалогу с нашими четвероногими друзьями.



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
👻2👾2🐳1
🗑 ChatGPT - всё?

Решил я проверить ChatGPT Agent — первого ИИ агента от OpenAI. Начал с простого: собираюсь в отпуск и прошу его подобрать мне отель для красивого отдыха на пляже, в моём бюджете и без визы. Результат — подобрать-то подобрал, но ехать туда совсем не хочется. Ладно, думаю, на турагента, допустим, ты не учился — будем гонять по базовым задачам.



Моделируем ситуацию: вам выступать на конференции, а вы прошлой ночью загуляли. Времени и сил делать презентацию самому нет. Зовём на помощь цифровых помощников. Тема выступления — «ИИ агенты», а аудитория незнакома с ИИ. Ну, значит, так и пишем в промпте (не для того мы ИИ агента используем, чтобы промпт-инжинирингом заниматься):

Подготовь презентацию на русском языке, рассказывающую про ИИ агентов на 5 слайдах для обывателя. Сделай её максимально увлекательной, насыщенной и полезной.


Прогоняем через 4 самых популярных LLM, чтобы ChatGPT Agent не расслаблялся. Помимо основного участника в гонке: Claude Sonnet 4, Gemini 2.5 Pro, Manus.

Вот что получилось 👇



ChatGPT Agent (1-е видео)

Если бы это была настоящая гонка — ChatGPT мог бы соревноваться только с черепахами. 36 минут 🌟 он делал презентацию. Цель достиг плохо: проигнорировал то, что по условиям задачи зритель — обыватель, и ему сначала нужно объяснить, что такое ИИ агент. Дизайн презы на троечку, зато уложился в требование про 5 слайдов. Помнится мне, троечники в средней школе делали такой визуал по нелюбимому предмету.
Скорость: незачёт
Суть: 4
Дизайн: 3
Итог: 3
с натяжкой. Не хотел бы я выступать с этой презентацией.

Но, может, я слишком строг? Давайте сравним с другими (кстати, всех других я успел протестить, пока ChatGPT думал 😁).



Manus (2-е видео)

Суточных «кредитов» хватило ровно на эту презентацию (которую, кстати, можно сохранить в pptx, PDF, Google Slides — моё почтение за такой UX!). Думал 8 минут, презентация, на мой взгляд, средняя. Картинки подобраны в тему презентации, но не всегда в тему слайда, визуал — пойдёт. Но это точно на уровень выше, чем у ChatGPT Agent. На конференции я с ней точно смог бы выступить.
Скорость: зачёт
Суть: 5−
Дизайн: 4
Итог: на крепкую четвёрку.
Не звёздный проект, но нестыдный.

Ну ладно, Манус, — скажете вы, — ребята занимаются агентами дольше OpenAI! Хорошо, давайте сравним с двумя оставшимися моделями — а там ведь были просто LLM, без всяких агентов.



Gemini (3-е видео)

Схитрила: сделала просто сайт. Простим — ведь это не полноценный агент, да и я мог бы открыть HTML вместо презентации. Но забавно, что Манус даёт выгружать в Google Slides, а Gemini (гугловая модель) — нет. Генерация заняла 3–4 минуты. По сути вопросов нет, стиль выдержан под обывателя. При этом в конце сразил меня графикой с пользой и рисками агентов. Есть косяки с форматированием — кое-где Markdown не считался. Но общее впечатление не портит.
Скорость: зачёт
Суть: 5
Дизайн: 4
Итог: 5−.
До идеала немного полирнуть — и на конференцию!



Claude (4-е видео)

Самая понятная и яркая презентация (кхм, сайт… да, но опять же — простим, так как не полноценный агент). Если бы конференция была маркетинговая — взял бы просто эту презентацию и пошёл, ничего не исправляя. Можно придираться к неоптимальной цветовой гамме местами, но это некритично. Генерация также заняла 3–4 минуты.
Скорость: зачёт
Суть: 5
Дизайн: 5
Итог: 5.
Просто идём и покоряем своим стилем и ярким контентом.



🫡 Итоги...

...неутешительные для ChatGPT Agent! В результате теста он сделал самую кислую презентацию. А из моего личного опыта — с большинством задач он справляется на таком же уровне. Это лишь яркий пример. Если GPT-5 не произведёт фурор, то OpenAI серьезно рискует своими позициями на рынке.



Подписывайся, у меня полезное про ИИ агентов без инфошума.

Заместители
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍95🔥2