AI и грабли
12.4K subscribers
173 photos
21 videos
4 files
224 links
Строил HR продукты для американского бигтеха. Внедряю AI в чужие бизнесы и команды, пишу про свои ошибки и находки

@nikolay_sheyko
Download Telegram
Важное обновление ТГ случилось уже неделю назад

Олимпиадники добавили к себе Bot-to-Bot общение. То есть, если в чате пишет один бот, то второй видит сообщения первого и может на них реагировать.

Раньше такое поведение было отключено, чтобы боты не триггерились друг на друга и не заспамливали чаты, но, кажется, повальное увлечение Claw-подобными агентами пересилило, и ребята добавили специальный режим

Почему это важно для AI?

Да просто сейчас все еще нет простого и понятного способа интегрировать агентов друг с другом в одну сеть.

Да, есть A2A протокол, но это сложное, глубокое инженерное решение. А на практике, часто взлетает что-то дубово простое и понятное среднему пользователю.

Собственно, OpenClaw сам по себе пример этой логики – дай людям настроенные интеграции + интерфейс в мессенджере и они пойдут скупать mac studio сами зафорсят твой продукт

Отдельная плюшка координации агентов через чат в телеге – что это еще и понятный человеку формат – можно как следить за происходящим, так и участвовать в процессе.

Интересное следствие, что это еще и простой способ дать агенту уже существующие инструменты в виде классических ботов, уже существующих на все случаи жизни

Короче, в ближайшее время ждем чаты только из ботов

Есть идеи, для чего это можно использовать уже сейчас?
4👍49🔥2413🤯4🙏1
This media is not supported in your browser
VIEW IN TELEGRAM
Для меня странно, но один из самых частых кейсов/рекомендаций, за который получаю спасибо – это анализ видео

На самом деле много для чего используют:
- написание постов по мотивам своих/чужих видео
- быстрого погружения в область/инструмент
- как источник качественных инструкций для LLM (который LLMки, кстати, не могут сами найти – контент не текстовый)
- анализ медиа-рынка для закупа рекламы или продуктовый анализ по обзорам продуктов-конкурентов

Обычно я советую gemini в ai studio, но блокировки летят с обеих сторон, и все чаще мой совет разбивается о то, что даже через средства обхода не пускает уже сам гугл.

Почему именно gemini? Просто ютуб видео лежат в том же контуре гугла + gemini умеет работать напрямую с аудио/видео. ChatGPT и Claude так не могут.

Альтернатива: десктопные агенты (codex/cc) + yt-dlp → качаем нативные ютуб субтитры на нужном языке и извлекаем инфу уже из них.

Но в сравнении с ai studio для многих это сильно запарно – нужно разбираться с кодинг агентами, давать разрешения на установку какие-то программ, вот это вот все.

Пошел искать еще варианты. По сути нужно то что-то с нативной интеграцией. Браузеры.

Точно работающий в рф – яндекс браузер с Алисой ai. Они дают ей в контекст субтитры видео, так что все работает в той же вкладке (видео выше).

Пока проверял, нашел бонус – у них очень крутой автоперевод видео на русский. Часто даю в качестве "домашки" смотреть видосы и упираюсь в то, что многим сложно смотреть на английском, а нативный ютуб перевод ужасный. Теперь, кажется, знаю, как это побороть. Мб кому-то тоже пригодится.


Короче:
1. gemini в ai studio – нативная интеграция, "видит" видео, но блочит многие КВН (или прям по ру-аккаунту)
2. codex/cc + yt-dlp – для тех, кто разобрался с кодинг агентами
3. яндекс браузер + алиса ai – вариант, который без приседаний сработает в РФ. бонус – хороший автоперевод
28🔥10👍8🤮5🐳2🆒21
This media is not supported in your browser
VIEW IN TELEGRAM
Инверсия в разработке продуктов

Я много кручусь в контексте компаний клиентов и в последние месяцы вижу любопытный сдвиг

Раньше, если нужна внутренняя автоматизация, это почти всегда отдельный продукт. Свой бэкенд, база, деплой, интерфейс

Когда появились LLM и открыли новый класс задач автоматизаций, архитектурной ничего не поменялось – просто обмазали все Structured Output, ретраями, мониторингами. И воткнули в свой детерминированный пайплайн

А сейчас вижу, как некоторые команды отказываются от такого подхода.

Почему? Об этом чуть позже. Сначала о том, что берут взамен:

- Codex/CC/OpenCode как оркестратор на VPS

- папка с настроенными AGENTS.md, скриптами обработки данных и скиллами-коннекторами к внешним источникам (гугл таблицы, тг, crm)

- Cron джоба, которая запускает агента по таймеру или заход руками в агента и запуск задачи текстом вместо кнопок в UI

А в еще более кардинальной форме это вообще агент прям на устройстве юзера с настроенными Automations/Routines

———

Получается забавная инверсия:

Если раньше в базе были детерминированные блоки, на которые сбоку лепилась LLMка, то теперь, наоборот, в базе лежит гибкий AI агент, дергающий детерминированные скрипты, на ходу подстраиваясь под результаты вызовов

Не код вызывает LLM, а LLM вызывает код (с) gpt


———

А теперь, мои мысли, почему это происходит:

Первое: гибкость выполнения

Если агент видит, что данных не хватает, он может сам пойти в gmail, notion, джиру, crm, аналитику – куда дали доступ. Не обязательно заранее прокладывать пути в пайплайне

Второе: гибкость изменения

Чтобы изменить процесс, часто достаточно поменять instruction-файл, prompt, список tools или небольшой локальный скрипт.

Третье: самообучение

Если агент столкнулся со сложностями, но обошел их (обязательно попутно отправив warning в нужный тг чат), то можно попросить его запомнить новый подход. Он сам обновит релевантные скиллы.

И даже само это обновление можно тоже зашедуллить (но такого я еще вживую не видел)

Ну и главное, четвертое: низкий порог входа

Не нужно уметь кодить, деплоить, мигрировать. В итоги сейлзы, маркетологи, менеджеры сами собирают автоматизации, на которые раньше приходилось месяцами ждать разработчиков.

———

Лодка дегтя – не везде такой подход имеет смысл.

Ред флаги для него:

- у системы много пользователей
- есть shared state (но можно выносить вовне)
- нужна строгая воспроизводимость
- высокая частота запуска или требования к latency
- все контракты давно стабильные

Ну и наоборот, гринфлаги:

- входные данные плавают
- нужно принимать решения по ситуации
- источники меняются
- правила часто переписываются
- человек раньше делал это руками, потому что "ну там надо посмотреть по контексту"

Короче, если задача похоже на конвейер, то в таком переходе не много смысла. А если похоже на работу оператора/ассистента, то есть

tl;dr:

Раньше, чтобы автоматизировать процесс, нужно было сначала превратить его в жесткий алгоритм.

Сейчас часть процессов можно автоматизировать раньше – на стадии, где они еще не до конца формализованы

@ai_grably
134🔥13👍9🤔6😢1
Делимся подноготной найма

Все уже поняли, что от ai-native разработки никуда не уйти. И даже более менее понятно, как этому учиться (у даже начали появляться норм курсы). А как нанимать и наниматься – не понятно почти никому

Так как я все еще часто кручусь около найма и даже иногда помогаю компаниям выстроить этот процесс с технической стороны, мне прилетело фановое предложение от Родиона (@ai_driven) – провести мок собес одному из добровольцев (уже нашли)

А меня как раз есть личный репо, специально задизайненый для таких собесов. Если вы нанимаете или нанимаетесь, приходите смотреть! И делитесь с тем, кому актуально

Дата и время: 30 апреля 15:00-16:30 МСК
Регистрация: https://luma.com/mm9dv0im

@ai_grably
1👍25🔥128👎2
Кстати, кто пользуется Codex, у них классная фича появилась недавно, на которую я случайно натолкнулся – в настройках можно сделать хоткей для трансрибации, который работает в любом месте операционной системы.

Посмотрим, можно ли удалять Wispr Flow
1🔥43👍72
По мотивам вчерашнего мок-интервью спонтанно собираемся на брейншторм – во что превратятся собеседования в айтишке

Должно быть супер интересно – у Родиона свой DevTools продукт, а у Макса просто колоссальный опыт работы с технологиями и людьми, которые их строят

UPD: вот ссылочка
👍8
Ребят, а кто как решает проблемы доступа к корпоративным агентам для сотрудников на уровне организаций? Интересует реальный опыт внедрения

Особенно круто, если там под капотом будут готовые агентские системы типа OpenCode/Pi/etc, но на такое я особо не надеюсь, так что подойдет и просто кастомные конструкторы

Покидайте в ЛС, пожалуйста. Если вы сами делаете такое – тоже пишите. Отберу нормальное и поделюсь со всеми
9🔥8👀8
Вчерашний запрос оказался ящиком Пандоры

Спасибо всем, кто откликнулся, познакомился со многими классными ребятами!


Коротко в чем проблема:

- Компании хотят внедрять агентов для внутренней автоматизации
- Компании не хотят, чтобы сотрудники сами у себя на компе что-то костылили
- Зато хотят контроль над доступом к настройкам агентов/скиллов + доступам самих тулов
- А некоторым принципиально, чтобы это было on-prem

Многие из них – не айтишные и с задачами вне разработки


Пример: у сейлзов свой агент со своими скиллами, у маркетологов свой. В каждой команде опытные сотрудники могут обновлять общие скиллы, а джуны – нет

———

Все решения, которые мне прислали, я условно поделил на 3 типа:

1. Костыльный Кастомный
2. Готовое для малого/среднего бизнеса
3. Корпорат

Дальше – примеры и особенности каждого

1️⃣ Кастомный

Тут на самом деле даже два варианта:

Первый – вся конфигурация хранится на гитхабе, запуск агента локально (не путаем с локальными модельками), все обновления через доступы в гитхаб и AGENTS.md с инструкциями как отправлять/получать обновления, чтобы абстрагировать это от нетехнических юзеров

Плюсы:
- минимум изменений по сравнению с тем, как люди уже работают

Минусы:
- на практике система получается хрупкой
- сами сессии все еще скрыты от компании – нет трейсов, сложно улучшать
- юзер может снести себе систему

Второй – поставить агента на VPS, разбить доступы на уровне unix'вых юзеров или контейнеров/microVM, примонтировать им общий для группы AGENTS.md и .agents/skills. Кому нужно, включить права на редактирование. Не забыть про бэкапы. Для UI можно использовать браузерный vscode с расширениями cc/codex или opencode web. В идеале – настроить per-user токены для всех внешних интеграций

Плюсы:
- мгновенное обновление инструментов/инструкций для всех пользователей
- сессии лежат на сервере компании – можно крутить любой анализ

Минусы:
- легко накосячить с доступами
- добавление нового пользователя – боль

Подойдет для маленьких команд, у которых есть технари, которые это будут настраивать и поддерживать


2️⃣ Готовый SMB вариант

По сути то же самое что в предыдущем пункте, но уже настроенное: централизованное хранилище настроек/скиллов + кастомные роли для обновления + сэндбоксы для разделения execution

Вариантов, которые удовлетворяют всем 3 – я не нашел :(

Есть OpenHands – дает per-user доступ, но не совместим с Codex/CC/etc, и тут все равно нет нормального управления настройками/скиллами. Есть селфхост

Есть еще бета Claude Code web. В целом, тот же подход: разные агенты – это разные репо, а права выдаются на уровне настроек в репозитории

Плюсы:
- полная изоляция по воркспейсам

Минусы:
- настройка все еще через гитхаб и внешние доступы, нет полноценного RBAC внутри системы
- либо без селфхоста, либо какой-то кастомный харнес, который не понятно как работает

Если не хочется писать свою изоляцию execution части, то норм, но без велосипедов для доступов к настройками – не получается


3️⃣ Полный корпорат

Тут не нашел ничего поверх готовых систем вроде pi/opencode, чтобы конфигурировалось через скиллы/agents.md. Только блочные конструкторы с готовыми интеграциями. Из примеров мне скинули Just AI – такой типа n8n enterprise для РФ с упором на on-prem и управление ролями. Обещают месяц пользования бесплатно, список клиентов солидный

Плюсы:
- усть куча готовых тулов, rag, БД, вебхуки, cron
- полностью свой контур

Минусы:
- очевидно нельзя дать агенту shell_exec
- нужно кастомить агентов в UI вместо skills в opencode

Для крупняка, который не может себе позволить разрабатывать собственные системы, а варианты 1 и 2 не подходят по "энтерпрайзности"


———

Было еще пару интересных предложений, которые не до конца подошли, разберу их завтра отдельным постом
124🔥15👍12👀1
Невошедшее во вчерашний пост (по сути – альтернативы для 2 пункта):

1️⃣ Вариант Hermes+Honcho

Из хорошего – у Hermes есть профили под разных пользователей, а Honcho дает память = обучение правильно решать задачи

Но это не решает проблему изоляции юзеров + проблему совместного "дообучения" системы – память у каждого пользователя своя, нет шеринга знаний

2️⃣ OpenWebUI поверх бэкенда opencode/pi

Есть доступы по юзерам в UI и вот это вот все. Но:

а) Нужно писать коннекторы от UI через OpenAI-compatible API к opencode, у которого вообще-то и так есть нативная веб морда

б) Вопрос изоляции на бэке никак не решается. Если opencode на бэке один, то все так же можно лазить по чужим сессиям. А если нет, то мы возвращаемся к самописным костылям

в) OpenWebUI появился задолго до агентов и там куча UX-легаси, абсолютно не нативного для пользователя Claude Code

3️⃣ Уже после поста, созвонились с Валерой @neuraldeep – он сейчас делает свой hub.neuraldeep.com с сэндбоксингом по пользователям через microVM – по сути единственной честной изоляцией

Правда морда там тоже OpenWebUI, а это см. пункт 2. Но он показал закрытую экспериментальную версию с opencode под капотом, но собственным агентным UI. Я поговнился, что он запарится допиливать UI и синхронизировать с апдейтами, а пользователям больно будет привыкать к самопалу

Прикинули, как правильно прокидывать фронт OpenCode изнутри VM, чтобы не ломать аутентификацию, и через свои знаменитые 120 минут Валера скидывает рабочую версию + открывает ее на сайте для теста

Короче, вроде и нормальный агент под капотом, и нативный UI, и честная изоляция

Понятно – это пока скорее демка, но несколько компаний уже пилотируют прошлую версию в своем контуре – если хотите присоединиться, пишите ему в личку, скажите что от меня :)

4️⃣ Claude Code Enterprise. Это, наверное, единственное решение, устраивающее меня по функционалу для SMB. Но те, кто может себе позволить по бабкам, скорее всего не могут по географическим особенностям 😅

Хотя мб ошибаюсь, напишите, если кто использует

———

А вообще, только ближе к концу дня понял, что наивно искать продукт не от openai/anthropic, отвечающий всем требованиям. Нужно просто закрывать независимыми сервисами:

- Отдельно изоляцию execution по юзерам
- Отдельно какой-то Skill Registry, с совместным managed доступом и правами
- И отдельно управление доступами в рамках конкретных коннекторов – джира, гугл, github, etc (но это и так вроде делают уже много лет)

Вот хороший тред в комментах про это
1👍13❤‍🔥6😁32👀1
Поражают успешные люди, которые остаются в своей "провинции". Еще и вбухивают кучу ресурсов в ее развитие

Пример – познакомился с фаундером успешного аутсорса. Клиенты – от Walmart до Яндекса. И вот сидит он у себя в Омске, помимо бизнеса образование в универе двигает, еще и оффлайн конференции проводит, на которые со всей страны приезжают (сори омичи, я просто завидую)

Если честно, не совсем понимаю, почему меня это так восхищает. Если понимаете – напишите в комментах

На ближайшую конфу, я, кстати, прилечу

Мне нравится, как все организовано: и в плане движа – много неформальных тус, и в плане спикеров – например, вытащили @kdoronin_blog из Эмиратов, и а из Лондона Андрей Бреслав подключится! (создатель Kotlin'a и CodeSpeak)

Конфа в целом для разработчиков, но мы – на отдельном ИИ треке – я там рассказываю как обходить грабли, на которые наступали вместе с командами при внедрении ИИ в SDLC

А в кулуарах поболтаем про найм и бабки 😁

Короче, кто соскучился по оффлайн движу, пригоняйте знакомиться

Моим подписчикам – скидка 10% до 15 мая по промо AiGRABLYxDevFest2026

20-23 мая

devfest.ru
🔥4016🤡12👍9🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
Не нашел нормальных miro-like досок с доступом для агентов

Я обычно использую excalidraw, но все найденные cli/mcp нормально работают только с локальной версией

А мне нужно, чтобы это была shared доска (live сессия) – чтобы я мог скинуть клиентам/команде, они там что-то нарисовали, мой агент все прочитал, учел мои комменты и дорисовал что нужно

Короче, психанул, зареверсил excalidraw и накидал свой cli-based skill

- цепляется к комнате через websockets
- поставляется как cli tool
- вместо кучи параметров – нативный json heredock режим
- риалтайм обновление доски, можно сразу несколько элементов

Из забавного, решил добавить подход, который увидел в новой версии agent-browser.dev:

- основной SKILL.md прячем внутрь excalidraw-room с аргументом skill
- а во внешнем SKILL.md оставляем только description для поиска агентом + инфу про excalidraw-room skill

👀 Это все нужно, чтобы инструкция для агента не устаревала, а обновлялась вместе с самим cli


Пробовать:

# установка cli
npm install -g excalidraw-room-cli

# установка внешнего SKILL.md
excalidraw-room setup --all-agents


Или просто скиньте пост агенту и попросите, чтобы все сделал

⭐️ Репо

@ai_grably
1🔥50👍128👀3😎1
Короче, есть у меня старая подруга Саша – ни разу не айтишник, у нее своя керамическая студия, оффлайн ивенты вроде бань и массовых глиномесных тусовок, а в найме (онлайн-школа) она занимается продажами и маркетингом. Проекты разнонаправленные, много рутины и оффлайн, и онлайн

Год назад подсадил ее на ai.studio, который она за это время внедрила в кучу своих процессов + подрезала косты в онлайн-школе, подсадив команду

Месяц назад, с третьего моего "Сань, поставь себе уже codex", начинает трогать агентов. С третьего, потому что, не смотря на постоянную работу с нейронками, прокрастинирует разбираться с "какими-то агентами, тулами, скиллами, не понятно а зачем и как всё это"

Поэтому провожу для нее пару "туториалов". В какой-то момент, Саша байтит меня записывать на видео все, что ей рассказал. Для таких же как она – кого просто нужно провести за ручку в мир ИИ-агентов, без сложных технарских штук и даже вайбкодинга. Короче, тех, у кого много рутинных действий за компом (рисерч, презентации, таблички, макеты, личные кабинеты и тд)

Решаем оформить это в цельный курс

Сейчас проводим кастдевы, докручиваем задачи для воркшопов и позиционирование на лендосе. Если у вас (или вашего друга/партнера) – много диджитал рутины без разработки, буду рад любым комментам в личке или тут

Про курс – aiforwork.courses

P.s. умные дяди учат продавать как можно раньше, так что если вы сразу поняли, что вам нужен наш курс, то первым 20 участникам – скидка 5/10к
🔥2113🤡9💅8💩7👍1😱1🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
html vs md

В последний месяц много использовал html там, где раньше – md

- репорты клиентам
- лендосы
- объяснение LLMкой мне сложных штук
- иллюстрации для воркшопов

Короче, там где читать портянку текста не хочется, html дает интерактив, визуальное разделение и нормальную графику

Только вот редачить html не удобно. codex desktop дает писать комменты к конкретным элементам, но это извращение, если нужно просто формулировки покрутить

Вдохновившись постом Глеба, сделал и себе мини-фигму. И задеплоил для всех желающих

Юзает модный браузерный file system access api, чтобы сохранять в тот же файл на диске, а не скачивать в Downloads каждый раз новый

Ссылочка (работает в вашем браузере, данные никуда не улетают)

@ai_grably
🔥50👍145🤣3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
Codex в телефоне

Я уже писал как настроить OpenCode на VPS, чтобы не отвлекаться от контакта человек-ии даже на унитазе

Но там все как-то затухло из-за трех проблем:

1. OpenCode все-таки посасывает в сравнении с Codex. Родная упряжка лучше, писал об этом тут
2. Часто хочется работать с локальными файлами и браузером. И если файлы кидать еще можно, то проброс CDP порта браузера – совсем извращение
3. Мне очень нравится гуи Codex Desktop (с тех пор как они завезли fork и edit). Тут писал почему

Claude Code решил это через диспатч – мол, давайте просто синхронизовать сессию с десктопа на телефон

Ждать диспатч от OpenAI мне было лень, так что сделал свой. С 4го раза 😅

Первая попытка – цеплялся к фронтенду кодекс десткопа (т.к. это Electron) – манипулировать DOM оказалось невероятно хрупко (а gpt предупреждала)

Вторая попытка – вместо фронта – напрямую к codex app server, а интерфейс в тг. Задолбался переизобретать агентный UX в тг

Третья – сделал свой веб UI. Оказалось, что идея подсосаться к app server – не такая гладкая и риалтайм синхронизация с пол-пинка не заводится

Четвертая – пока дебажил синхронизацию, полез реверсить расширение Codex в VSCode – оно точно успешно синхронизуется с десктопом. Пока реверсил, понял, что могу просто взять расширение и заставить его работать без vscode. Бонусом получу готовый UI

Вуаля!

Запускаем codex-dispatcher и подключаемся с любого браузера в локальной сети

Если хочется через интернет, то

codex-dispatcher login  # через гитхаб
codex-dispatcher --relay # тоннель, через мой VPS


Создает тоннель и уникальную ссылку вида https://<github-username>.codex-dispatcher.app

Т.к. это PWA со стабильной ссылкой – можно сохранить себе как приложение из браузера

С большим количеством сессий работать не супер удобно, но менеджерить 2-3 пока ждешь еду в кафешке – самое то

Установка

curl -fsSL https://raw.githubusercontent.com/toolittlecakes/codex-dispatcher/main/scripts/install.sh | sh


Репо

@ai_grably
1🔥196👍5🤯3🥱3
Все новостные каналы пишут про нативный диспатчер от openai, но никто не пишет про другую фичу – теперь можно подключаться не только к десктопу, но и к VPS

Codex стал OpenClaw

P.s. В идеале, осталось дождаться, когда в мобилку завезут password-less подключение – на десктопе уже есть
🔥158👍3😢1