AI и грабли
7.21K subscribers
149 photos
19 videos
4 files
189 links
Строил HR продукты для американского бигтеха. Внедряю AI в чужой бизнес, делаю свой, косячу и пишу про подноготную

@nikolay_sheyko
Download Telegram
Альтернативная концовка уже онлайн. На этом цикл заканчивается, так что кто откладывал чтение, чтобы "посмотреть весь сериал целиком", я подстроил даты публикаций, чтобы можно было почитать на выходных 🙃

В предыдущих сериях

...три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью...

...он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...


Тут: https://habr.com/ru/articles/898876/

Читать с начала: https://habr.com/ru/articles/898622/
👍93🔥3
CPO openai рассказывает как внутри используют LLM

Там в целом много интересных мыслей, но поделюсь конкретной инфой про внутрянку, которая меня удивила (смотреть с этого места):

Часто используют fine-tuned модели (дообученные под узкую задачу). Это сильно расходится с тем, что я вижу в индустрии – почти никто не занимается таким. Я раньше думал, что просто это слишком мало пользы дает по сравнению с нормально написанными промптами.

Сейчас думаю, что просто мало кто умеет это правильно делать + не всегда у компаний есть ресурсы на сбор качественного датасета.

———

Еще рассказывает, что часто разбивают сложные задачи на много очень маленьких запросов, каждый из которых легко валидируется.

Когда работаю с чужим кодом, часто вижу, что когнитивно сложную задачу сваливают в один запрос, а если не справляется – просто догружают компьютом (используют o3-mini где хватило бы 4o-mini). В итоге система – хаотичная и непредсказуемая. То работает как надо, то выдает бред (обычно во время презентации результатов заказчику)

Короче, интересно послушать, как используют ИИ в самой хайповой ИИ-компании
14👍10🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Таблицы правят миром.

Если подумать, то большинство простых интеграции ИИ: взять данные из одной таблицы → отправить в OpenAI API → сложить в другую таблицу.

Вот где деньги.

Я уже несколько раз писал про ИИ в гугл-таблицах здорового человека. И даже сам реализацию делал, но не придумал, как конкурировать с ребятами по первой ссылке.

У них кстати вообще все в порядке – на гугл таблицах держатся миллионы бизнесов по всему миру. Уж где где ИИ реально дает значимый прирост – за раз можно обработать тысячи строк без копирования каждой строки в chatgpt и обратно.

В комментах скрины базовой аналитики трафа gptforwork.com


Но есть один нюанс – гугл наконец запускает аналог (на гифке – он).

Пока доступ ограничен (Available only with Enterprise Standard and Enterprise Plus). Но для нас это хороший знак, особенно для бизнеса – скоро можно будет очень дешево автоматизировать много задач без внешних "ии-экспертов" и дополнительных интеграций. Осталось только обучить своих сотрудников. Эх, сюда бы прогрев на свои курсы.

Вот я часто думаю, а какие ИИ продукты делать, чтобы не проиграть конкуренцию гигантам. Интересно, выживет ли gptforwork 🧐
🤔11🔥65👍3
Как получилось, что юристы используют среду для разработчиков?

e/acc часто пишет про изменение индустрий, вижн будущего, которые он берет из исследований либо из общения с фаундерами (он же занимается инвестициями, ага). И я у него на канале не первый раз вижу (1, 2, 3) упоминания очень удивившей меня штуки.

Мол, можно взять AI среду для разработчиков Cursor и настроить ее как рабочюю программу для неразработческих задач. Звучит сомнительно, честно говоря. Но я попытался покритиковать свою критику и вот что из этого получилось:

Зачем вообще сложный Cursor вместо простого chatgpt?


1. Встроенная реализация агентов
Это значит, что система может выполнять несколько заранее не прописанных шагов без участия пользователя, планируя новые действия на основе результатов предыдущих (это, кмк, один из самых важных критериев агентности). Пример агента – openai deepresearch (его, кстати, надавно открыли и для бесплатных пользователей). Он понимает, на какие сайты еще сходить на основе того, что *уже* нагуглил до этого.

Агент может выполнить сложную последовательность шагов (например, пройтись по гуглтабличке с ссылками на видосы, скачать их, вытащить из них аудиодорожку через ffmpeg, сделать транскрибацию, а потом сделать саммари и сохранить в файлики).

2. Рабочий контекст
Часто у нас есть какой-то рабочий контекст. Файлики, таблички, инструкции. Для программистов очень важно уметь быстро добавлять нужный контекст к запросам, и Cursor поддерживает это by design. Можно сослаться на конкретный файл или папку. И результаты работы тоже сразу сохранятся в виде готовых артефактов. Отдельно стоит сказать про .cursorrules файлы с "настройками" поведения LLM под разные задачи.

3. Встроенная расширяемость
Сейчас в сообществе набирают популярность MCP-серверы – по сути удобные унифицированные обертки над внешними сервисами, дающие к ним доступ LLM-агентам. В два клика даем системе доступ к корпоративному Notion или гугл календарю. Если подходящего нет, просто просим LLM написать его самому. А можно даже не трогать MCP, а просто просить разработчиков или LLM написать переиспользуемые python-скрипты – агент будет их использовать в дальнейшем. Для примера, в кейсе выше это может быть скрипт, который перегоняет все папку с видосиками в набор текстовых файлов.

4. Супер удобная работа с текстом.
Ну серьезно, нужно писать отдельный пост, почему Cursor – лучший инструмент для написания текстов. Он умеет завершать предложения за меня, на лету исправляет падежи, сам понимает, куда я хочу переместить курсор. Можно выделить часть текста и дать задачу сделать что-то именно с этой частью. Можно сделать что-то со всем текстом и он покажет, что именно поменял.

По сути, если вы работали с Canvas режимом в ChatGPT, то на пальцах
ChatGPT < Canvas < Cursor
А точнее
ChatGPT < Canvas <<< Cursor

---

Есть еще вопрос, а что мешает сделать себе полноценный сервис под свою область (и ко мне даже приходили с таким запросом). Но даже просто реализовать нормальную агентскую систему – сложно. Бизнесу дешевле взять уже готовое и расширяемое. (но собственные системы можно и нужно делать, когда есть четкие повторяемые задачи, где есть потенциал свести участие человека к минимуму).

А вот если задач много, разных, они не всегда разбиваются на заранее известную последовательность шагов + нужен человеческий контроль/планирование, то я пока даже и не могу ничего лучше придумать, чем Cursor. Вот так вот я переобулся, короче.

Посмотреть видео, как это примерно выглядит можно тут

P.s. у меня гораздо менее технооптимистичный взгляд, чем у e/acc, и вижу много сложностей во внедрении таких инструментов в реальном бизнесе, но сама идея мне все равно очень понравилась, и захотелось ее поразгонять и поделиться 🤗
14🔥6👍4❤‍🔥2😱2🤔1
Чат – плохой интерфейс для LLM

↑ Мнение, которое я часто вижу. Вот пример обоснования, которое мне нравится.

Коротко: люди не любят писать много в чате, они привыкли тыкать по уже готовым кнопочкам, которые как-то меняют контент в "рабочей области" (условно, фотошоп). А в идеале, вообще, понимать что пользователь хочет и предлагать ему динамически генерируемые опции. Условно, подсвечивать косяки в тексте и предлагать кнопки с опциями как их исправить.

Это хорошо перекликается с тем, что я писал выше про Cursor.

Другое мнение, которое я услышал в видосе Байрама Аннакова с обзором изменений в индустрии (мб самый плотный по смыслу материал, который я видел за последний месяц). Моя вольная интерпретация:
Для людей максимально естественно общаться в формате чатов (в т.ч. голосовых) – контекст передается интеративно – человек "приемник" может уточнить у "передатчика" что он не понял. Или "передатчик" сам может добавить инфы в процессе общения. Мы учились этому с детства, но раньше диджитал системы просто не могли так общаться, поэтому нам нужны были всякие кнопки, заранее продуманные последовательности экранов и т.д. А теперь могут. И это хорошо


У меня тут нет своего мнения, но если анализировать существующие успешные продукты, то вижу, что приходим к гибриду. В том же Cursor у нас действительно есть рабочая область вне чата, над которое ИИ и совершает изменения.

И он сам угадывает, что хочет пользователь (положение курсора, inline автодополнение по нажатию tab). При этом, очень много работы совершается в формате интерактивного общения в чате (часто, голосом), что дает большую свободу, чем просто набор заготовленных кнопок.

А вы в каком режиме больше используете ИИ?
🔥106❤‍🔥4👍4🤔3
Топ лайфхак последней недели для разработчиков, которые используют ИИ

git diff --staged | cat


Опционально добавляем: --word-diff

Зачем?

Для больших задач, которые не получается сделать в один запрос, полезно показать прошлую динамику изменений: что уже сделано, какие подходы использовались, в каком стиле менялся код.

Это "праймит" модель в определенную сторону и стиль – LLMки как и люди, любят быть последовательными и не особо противоречить своим прошлым решениям (см. Чалдини).

———

И без применения к разработке, есть глобальный разгон, что ось времени – то, чего не хватает ИИ для более качественной работы в любом домене.

Вместо того, чтобы показывать текст и просить его отредактировать, вывалив из головы все представления о прекрасном, можно просто показать историю предыдущих изменений этого текста.

Модель вычленит нужное "направление мысли" и продолжит работать по нему даже без задротного промтинга.
🔥18👍7🤯5🤔211🤓1
Выключи камеру

Совет про ведение онлайн-созвонов от моей близкой подруги и классного предпринимателя (если ищете работу в заграничном айти, советую, Даша правда крутая).

Не знаю как вы, а я большую часть звонков пялюсь не на собеседника, а на себя. Поправляю волосы, осанку, слежу за мимикой и вот это вот все. Ожидаемо, это не помогает наладить эмоциональный контакт с собеседником (а онлайн это и так сложно).

Можно поспорить с тем, что этот контакт вообще нужен – мы же профессионалы, которые умеют разделять эмоции и работу. Но я в такое не верю, зато верю, что доверие снижает издержки на коммуникацию (=> экономически выгодно).

In any human interaction, the required amount of communication is inversely proportional to the level of trust (с) Ben Horowitz


Оказалось, что если не видеть свое лицо, то фокус внимания тотально переходит на собеседника. А, как говорит моя мама, "где внимание, там результат".

Осталось только научиться отключать свое лицо для себя, не выключая его для собеседника. В зуме есть специальная кнопка (картинка 1).

А для остальных приложений я использую стандартное мак-приложение stickies/записки – его можно включить в режиме "поверх всех окон" – я просто накрываю им свое изображение (картинка 2). Аналог под винду

Это совершенно другой опыт общения.
20🔥7❤‍🔥6
Инсайты из чатов

Уже третий раз себя ловлю на повторении одного и того же действия – когда нужна какая-то инфа про страну, оформление виз, получение доков, то просто выкачиваю весь чат, и отправляю в LLM. Вроде все просто, но на самом деле есть пара нюансов:

* Как выкачать файл
* Как его подготовить для LLM
* Как его туда передавать

———

1. Выкачать чат можно только в одной из десктопных версий ТГ

2. Выкачиваем именно json формат

3. Но он перегружен информацией и LLMка быстро начнет путаться на больших чатах. Открываем в браузере html файл из первого коммента к этому посту – это простая конвертилка, которая преобразует дамп канала в более простой для LLM формат

4. Открываем ai.studio (большой контекст), пишем системный промпт типа:

отвечай на вопросы используя только информацию из телеграм чата:


5. Копируем туда текст из конвертилки или просто прикрепляем файлом

6. После этого задаем любые вопросы по чату

Лайфхак (добавить к промпту):

Отвечая на вопрос, давай ссылки на конкретные сообщения, которые используешь, используя формат https://t.me/oestick/<message_id>


(первую часть ссылки нужно заполнить самостоятельно)

UPD: конвертилка v2 теперь живет тут
136👍22🔥9❤‍🔥4🕊1
Актуально только тем, кто пилит свои сервисы:

Для o3 и o4-mini добавили адекватное отложенное выполнение.

Прайсинг от batch processing'а (то есть в два раза дешевле обычного) без дополнительных приседаний.

Актуально для почти любых бизнесовых ИИ-интеграций, где не страшно, чтобы оно в фоне работало (а таких много)
👍15🔥81
Самообман с помощью LLM

Есть один пример использования ИИ, который я все чаще вижу, и который меня беспокоит все сильнее.

Я часто говорю, что нужно сознательно формировать привычку пробовать LLM для решения и обсуждения любых задач.

И вижу, что люди (в т.ч. я) часто используют для анализа со стороны в спорных и конфликтных ситуациях. Мы еще иногда скидываем ее мнения типа в качестве подтверждения своей правоты, и это жутко бесит собеседника.

Но даже, если мы сделали анализ "для себя" и никуда его не отправили, все равно есть проблема.

Дело в том, что нейронку очень легко склонить на свою сторону, правильно направляя ее своими запросами. Добавляем факт, что они в целом обучены быть "приятными" для пользователя и получаем Confirmation Bias в квадрате.

Confirmation Bias (Предвзятость подтверждения) – это когда мы обращаем больше внимания на информацию, которая подтверждает нашу точку зрения. Более того, часто еще и активно ищем такую информацию. Это когнитивное искажение, которое есть у всех и это норм. Инфа для зануд: люди науки научились немного его преодолевать через принцип фальсифицируемости (см. Критерий Поппера)


Короче, к чему я все это. Очень легко сделать, чтобы нейронка рассмотрела ситуацию именно с вашей точки зрения. И мы скорее всего даже не замечаем, как промптим ее на это. Поэтому, на самом деле, не получаем стороннего мнения.

Что с этим делать?

0. Не использовать LLM в таких ситуациях. Мы тут такое не любим

1. Если скидываем собеседнику как мнение, то скидывать весь диалог. (по тому, насколько дискомфортно скидывать, можно интуитивно понять, насколько сильно запромптил LLM встать на свою сторону, хаха)

2. Прежде чем принимать на веру анализ от ИИ, скидывать вашу переписку с ним в другой чат вместе с текстом этого поста, чтобы она проанализировала ваши сообщения и подсветила, если где-то вы неявно направляли LLM в сторону подтверждения своего мнения.

3. Исправляем ошибки и слушаем более непредвзятое мнение

Бонусом идет лучшее понимание собеседника и отсутствие отдаления с человеком.
26👍8🔥2😱2❤‍🔥1
Я несколько раз обещал и все откладываю запостить список каналов, которые я читаю.

Почему? Потому что мало таких, чтобы прям от всей души хотелось поделиться и было не стыдно.

И в последние 3-4 месяца нашел несколько прям жемчужин. Почти все небольшие – плюс-минус как мой. И все авторы сами ежедневно работают с ИИ "в полях" и пишут про свой уникальный опыт.

Первый, про кого хочу рассказать – Влад Корнышев. Сначала я месяц присматривался к контенту, а последние два-три месяца я стабильно читаю все его посты – так что было вопросом времени, когда я про него тут расскажу.

В итоге, пару дней назад он сам мне написал, что хочет рассказать про мой канал у себя. Так что, время пришло.

Пока большая часть ИИ-каналов постит новости из твиттера и промпты для gpt, Влад делает уникальный контент – пишет про собственный опыт работы с инструментами (в т.ч. теми, которые еще даже не в публичном доступе), про идеи, принципы и подходы, которые выработал на своем опыте. А это сейчас самое ценное – никто на самом деле не знает как правильно. Кроме тех, кто сам постоянно экспериментирует. Или кто на них подписан, хаха.

Еще он делает курсы по ИИ для продактов (у него крутой опыт и в РФ, и в США). Обсуждали в лс детали на прошлой неделе, и я все еще под впечатлением от его подхода.

Кстати, прямо сейчас Влад переводит топовый курс от Антропиков по ИИ, обогащая его своими заметками и мини-подкастами. На мой взгляд, такой контент должен быть платным, но у него в канале это лежит за 0 денег.

В своем посте про меня Влад пишет, что если читают его канал, то скорее всего зайдёт и мой. Учитывая вайб в нашей с ним личке, я уверен, что в обратную сторону это тоже работает 😏

Так что, искренне советую
🔥116👍6🥱2🤝1
Вайб-кодинг без вайб-кодинга

В смежных каналах все чаще вижу паттерн "ван-шот" кодинга – когда всю кодовую базу проекта или большого модуля сгружают в LLM (примерно такими же тулами, как я тут скидывал, только для кода, а не для телеграм чатиков). А потом в один-два промпта решают задачу.

Это стало возможным благодаря ai.studio – модельки гугла кушают до 1 млн токенов и при этом работают бесплатно в определенных лимитах. Так они видят весь контекст в противовес AI IDE'шкам типа Cursor, которые собирают только "нужный" контекст всякими хитрыми инструментами (и пытаются минимизировать количество отправляемых данных, чтобы снизить свои затраты – юзеры замечают падение качества)

Обновленные файлы можно вручную копировать из окна чата, либо скормить всю инфу в Cursor и попросить его обновить файлы ничего не меняя. Я для этого использую gpt-4.1, она очень хороша в роли простого исполнителя.

Инфу выше вы можете много где найти, а вот пару деталей чисто от меня:

1. Частые жалобы на LLM – они пропускают всякие важные нюансы в существующем коде. Но проблема тут не в LLM, а в том, как устроено хранение кода в существующих проектах – нюансы хранятся в головах у разработчиков. Если выносить их в readme файлы для модулей, то llm их учитывает. Если ожидать, что она сама разберется, то будет много случаев, когда нет

2. LLM может собрать эти нюансы и из существующего кода. Так что я прошу сгенерировать мне README файлы для каждого модуля, а потом вручную их проверяю (глупо ожидать, что она сама учетет всё – многие выборы в реальных кодовых базах обусловлены внешним контекстом и не выводятся из кода). Еще я добавляю в .cursor/rules или в системный промпт ai.studio явные инструкции обновлять README файлы когда меняется код. Так автоматически поддерживаем актуальную документацию.

3. Я постепенно перехожу на подход, где исходные файлы – это не код, а текстовая спецификация (Spec). Когда мне нужно обновить код, я просто обновляю эти specs. А код – это результат "компиляции" этого текста LLMкой

4. Но в таком подходе, код каждый раз будет сильно отличаться от предыдущего. Поэтому при генерации я передаю

* старую версию спецификации
* новую версию спецификации
* старую версию кода
и прошу новую версию кода

Получается такой diff-based подход.


5. Если я вижу, что модель работает нестабильно, то это не LLM – дура, а я плохо написал спецификацию. Добавляю уточнения. И иногда обновляю промпт работы с README, чтобы похожие нюансы там тоже учитывались.

Чем это отличается от вайб-кодинга в оригинальной формулировке? Тем, что я полностью контролирую и продуктовую составляющую, и техническую архитектуру. Все через текстовые спеки. То есть, я все еще занимаюсь разработкой. Просто на одном уровне абстракции выше. Получается, я скорее выполняю функции техлида, а не продакта. И вам советую.
334🔥21👍18
Универсальный взлом LLM

Где-то с месяц назад вышла статья об универсальном способе выводить модель за рамки ее ограничений – делиться системным промптом или запрещенной инфой вроде инструкций по созданию биологического оружия.

Ее запостили многие новостные каналы, но полноценного разбора я так и не увидел. Мне очень не понравилось, что они тестят взлом на *своем же* системном промте. Это жесткий косяк в методологии, так что я дважды порывался сделать разгромный пост.

Но кое-что помешало.

Прежде чем писать мысли, стараюсь проверять их на практике. Так что попытался подобрать такой системный промпт, на котором взлом не сработает. Результат двух заходов – ни одной успешно-стабильной защиты внутри промпта.

Так что сначала будет о том, как и почему оно работает. Дальше выводы, что это значит для AI-продуктов. И как все-таки делать защиту "извне" – в конце поста. Сам промт из статьи для взлома – в комментах.

Почему работает:

* Дело именно в структурированном вводе – если ввод очень похож на файлы конфигурации по сути и по форме (XML, JSON, YAML), то LLM и принимает их за конфигурацию – ее собственные настройки.

* Очень любопытно, что этот паттерн-матчинг оказывается сильнее чем специальное обучение на различие system_prompt/user_prompt.

* Тот факт, что это работает для разных моделей – говорит о том, что это не какой-то особенный способ, а скорее общая проблема в текущих методах обучения LLM.

* Многослойная атака. Чтобы усилить работу основного механизма мимикрии под файлы конфигурации, авторы добавили еще два слоя: role-play и обфускацию через leet speak. Это норм обход защиты, в которой явно прописаны критерии взлома.

Как это влияет на бизнес:

* Если ваша конкурентное преимущество – это ваша доменная экспертиза (а это так для большинства успешных AI-продуктов), то у вас проблемы. За последний месяц утекло много промптов от известных компаний (даже от тех, кто ну точно шарит).

* Вы можете реверс-инжинирить их подходы до того, как они сделают это с вами.

* А самим быстрее учиться защищаться.

Как защититься:

Отдельный запрос с проверкой по чек-листу + structured_output + temperature=0.

Пример для вдохновения:

{
"involves_role_play": <bool>,
"contains_leet_speak": <bool>,
"looks_like_policy": <bool>,
"is_trying_to_get_system_prompt": <bool>,
}


Это доп.шаг, который увеличивает время ответа, а у части моих клиентов есть жесткие ограничения на это. Для таких случаев делаем два запроса в параллель (основной и проверочный). Так у нас происходит проверка во время генерации основного результата. И если проверка пройдена, просто отдаем его, а если нет, то отбрасываем и баним юзера 🙃. Так мы иногда тратим токены впустую, но проверка происходит без доп. затрат по времени.

———

Очень советую посмотреть на структуру промпта в комментах. Это может помочь и ваши системные промпты лучше писать.

Ну а глобально, это еще раз подтверждает, что мы пока не можем нормально контролировать поведение AI. Учитывайте это при планировании на год-два.
21👍10🔥8👏1
Пост про AI кодинг оказался одним из самых зарепосченных в канале.

Мы с ребятами собрали свои лучшие материалы по теме. Внутри подборки – инсайты из реальных экспериментов и личного опыта. Без воды – только то, что реально экономит время и решает задачи.

Я бы читал по 2-3 за раз и делал бы себе напоминалки, чтобы дочитать остальные – материал реально крутой, за такой люди деньги берут, обидно навечно похоронить его в сохраненках.


- Vibe Cursor Coding

- AI / Vibe coding - советы и best practices

- Как получилось, что юристы используют среду для разработчиков?

- Stitch: от вайб-кодинга к вайб-дизайну и обратно

- Как я бросил курсорить и начал шотганить

- Вайб-кодим Google Apps Script для офисных задач: как LLM превращает часы рутины в минуты магии

- Context7 — один из лучших инструментов для AI-разработки

- Топовый AI Coding Workflow: Cursor & AI Studio

- Как Cursor AI превращает текст в готовые макеты Figma

- Простое веб-приложение за 30 минут с помощью Lovable

Как я уже писал:

Никто сейчас на самом деле не знает как правильно. Кроме тех, кто сам постоянно экспериментирует. И тех, кто на них подписан
8🔥2914❤‍🔥31🥰1
Бэкенд без бэкенда (для нетехнарей)

Часть моих клиентов делают супер простую автоматизацию.

У них нет своего бэкенда и даже n8n они не используют. Все что они делают, это создают Ассистента в личном кабинете разработчика openai, и скидывают его IDшник в какую-то UI обертку.

Это круто, потому что помогает дойти до бизнес-ценности с минимальными техническими затратами (то, за что я часто борюсь и в себе, и в компаниях, с которыми работаю)

Но при таком подходе есть серьезные ограничения. Самое банальное – недавно наткнулись на то, что ассистент не знает дня недели, а это важно для бизнес-процесса.

Классическое решение – дернуть на бэкенде datetime.now() и подставить в системный промпт (так же делают и openai со своим chatgpt).

Но у нас нет бэкенда, что делать?

Для таких ситуаций есть расширения – tools. Они дают LLMке получить информацию извне.

Это работает так:

Вместо текста ответа, она в специальном формате пишет одну из трех штук:

* "я хочу сейчас сделать вот такой запрос к вот этому внешнему сервису"
* "я хочу запустить вот такой код"
* "я хочу сделать семантический поиск текста по файлам, которые мне дали"

После этого, внешний для LLMки детерминированный скрипт выполняет ее желание и подсовывает ей результат. LLMКа запускается заново, но уже с новой инфой – например, результатом выполнения кода или данными о погоде.


В нашем случае, мы просто просим ее в начале любого диалога написать код на python, который вернет дату и день недели. Он выполнится где-то на серверах OpenAI, поэтому уточняем таймзону, чтобы не промахнуться из-за разницы во времени.

———

Это супер простой кейс, но сам паттерн очень мощный – т.к. можно писать любой код, это делает возможности ассистентов практически неограниченными даже для совсем нетехнических пользователей. Можно даже попросить GPT сделать запросы к Google Gemini, хаха
2👍22🔥95
Завожу новую рубрику #залайканные_комменты

Я иногда оставляю комменты под постами или в чатиках на те темы, где мне есть что сказать. Их часто хорошо лайкают, так что видимо бывает полезно.

Буду выкладывать их и тут, чтобы делиться тем, чему учусь, не только с читателями этих каналов и чатов, но и с вами 🤗

Например, вот коммент к посту про использование MCP серверов.

Просто можно поделить системы на два типа:

1. Клиентские универсальные агенты, которые могут в широкий набор изначально неизвестных действий. Работают с human-in-the-loop, который накидывает задачи и валидирует и корректирует результаты

Примеры: computer use, cursor agent, chatgpt

2. Узконаправленные production пайплайны, заточенные на конкретный бизнес процесс с ограниченным количеством возможных веток поведения и поэтому нормально тестируемые.

Примеры: кастомные интеграции, которые мы пилим своим клиентам. Или всякие внутренние пайплайны, которые большие компании пилят для автоматизации процессов. Например, какая-нибудь CRM, которая встраивает контроль качества звонков продажников.

———

Первый всегда будет работать хуже второго, но будет дешевле и быстрее сделать за счет универсальности базовой системы. Вот там и будут нужны MCP.

Во втором типе MCP вредны. На моей практике, пайплайны лучше делать через structured output, задизайненный под конкретный шаг пайплайна, и всякие паттерны типа роутер, для того чтобы эти шаги определять.


Контекс: MCP сервера позволяют подключать в LLM внешние инструменты и модель сама решает в какой момент ими пользоваться.

Они сильно хайпанули за последние пол года, но как обычно на кривой хайпе в какой-то момент наступает разочарование и люди начинают разбираться, где реально нужно использовать, а где нет
👍176
Уже писал про важность работы с PDF как основным источником актуальных знаний.

Недавно была волна постов про новый отчет Mery Meeker. Раньше она делала ежегодный Internet Report – анализ всей интернет экономики, наверное, один из самых известных и уважаемых в венчурном мире. В этот раз репорт называется Trends – AI

Большая часть постов были просто новостными с ссылкой на статью, а мы тут такое не любим, так что я посмотрел часть репорта сам, а часть в предобработке LLMкой и принес вам хайлайты, которые меня зацепили:

Про выбор идеи для создания продуктов:

...специализированных приложений с добавленной стоимостью для нишевых рынков, которые крупные игроки могут упустить из виду или слишком медленно осваивать

Конкурируйте за счет отраслевой экспертизы и скорости интеграции

Хотя горизонтальные платформы (вроде ChatGPT) на слуху, немедленное, высокоценное внедрение в корпоративном секторе часто происходит в вертикально-специфичных ИИ-решениях, которые понимают отраслевой язык, рабочие процессы и требования соответствия

Сейчас стало еще важнее нишеваться за счет своей уникальной доменной экспертизы и быстрых интеграций с существующими в индустрии инструментами. Либо вообще делать сервисный бизнес, а не продуктовый и тупо автоматизировать операционку внутри. Горизонтальные решения оставляем существующим игрокам на рынке, у них

Про ИИ-интеграции

У предприятий огромные объемы данных, но они часто разрознены, неструктурированы или не «готовы к ИИ».

Предлагайте услуги, выходящие за рамки простого развертывания моделей. Включайте стратегию данных, подготовку данных, редизайн рабочих процессов

По сути, все мои внешние проекты на интеграцию ИИ – гораздо больше о дизайне процессов и структурированию данных, чем о самой архитектуре LLM запросов. В этом плане, ИИ-интегратор должен быть скорее хорошим менеджером, чем разработчиком.

Общие штуки:

Продакт-менеджерам необходимо мыслить в парадигме «ИИ прежде всего» для новых функций, а не «с поддержкой ИИ».

Классика, когда сливают бюджет на AI там где он не нужен, просто чтобы том-менеджменту отчитаться что компания в тренде
CEO NVIDIA: «вы потеряете работу не из-за ИИ, а из-за того, кто использует ИИ» (стр. 336)

↑ База. Уже сейчас, когда общаюсь с людьми из разных областей, вижу жесткий разрыв. Причем, иногда, чем они дальше от айти, тем сильнее разрыв.
особенно актуально для 2,6 млрд человек, которые еще не подключены к интернету и могут сразу начать использовать ИИ-интерфейсы

Тут мне понравилась мысль, что есть огромный рынок, который "не испорчен" UXом "старого" интернета и под них можно запускать такие продукты, на которые не нужно будет переучивать. Вижу тут возможность про продукты для детей, которые только начинают знакомиться с диджитал миром. Хочется верить образовательные, но в реальности ждем таймкиллеры 🥴

И немного реализма в AI-hypetrain:

При этом, реальное использование ИИ в производстве товаров/услуг в США все еще относительно невысоко (~7% компаний в Q1:25, стр. 328-329).

Рост вакансий в области ИИ, заявления CEO о том, что ИИ создаст новые рабочие места и повысит производительность (стр. 325-327, 331-336). Одновременно — признание, что «каждая работа будет затронута» и некоторые рабочие места будут потеряны

...приведет ли это к значительному росту неравенства, если выгоды от ИИ сконцентрируются у владельцев капитала и высококвалифицированных специалистов, способных работать с ИИ?

Растущее энергопотребление дата-центров, особенно ИИ-ориентированных (стр. 124-128). США потребляют 45% мировой электроэнергии дата-центров. Сможет ли технологический прогресс в энергоэффективности компенсировать экспоненциальный рост спроса на вычисления?


Пум-пум-пум

———

Оригинальный репорт – первым комментом
16🔥6👍2❤‍🔥1