AI и грабли

А теперь что мне интересно.

Интересно, почему весь интернет хайпит на том, что LLMки научились не только понимать картинки, но и генерировать, и при этом я не вижу сравнений Google и OpenAI, которые выкатили эту фичу с разрывом в неделю.

Исправляю 🙃

Нагенерил разных экспериментов, которые было интересно поделать. Последние две фотки даже вполне бизнесовые кейсы

Что я заметил:

1. OpenAI работает сильно дольше. Мощнее модель и качество у них лучше. А Google требует на порядок больше танцев с промптами, зато за 10 секунд все готово

2. OpenAI хорошо удерживает "модель мира" – видно на задачке с одеждой. Их модель прям понимает, что за шмотки. Google просто генерирует что-то отдаленно похожее

3. При этом OpenAI постоянно меняет мелкие детали 🥴. Видно по измененным чертам лица, лошади, фону

4. А Google наоборот хорошо их удерживает. Кажется, они сделали какой-то хак, чтобы генерация "цеплялась" за входную картинку. Но сама генерация слабее, так что как только отходим достаточно далеко от исходного изображения, все резко становится хуже. Особенно на одежде видно – т.к. одежда в совсем другом положении – по сути генерация с нуля.

Лайфхак – чтобы "отцепить" от входного изображения, можно просить сделать с нуля, а не переделать.
* create anime character > turn person into anime
* generate high resolution picture with character > upscale picture

tl;dr
Если хотим оставить большую часть изображения как есть → Google + детальные промпты
Если хотим поменять положение объектов или сгенерить с нуля → OpenAI

Ну и комбинировать, конечно.

Вы знаете кому отправить этот пост:)

👍18🔥14❤1

1.4K views14:27

AI и грабли

Всё. Я, похоже, наигрался.

Последние пару лет я прыгал между идеями, проектами, пивотами. Строил, тестировал, выкидывал. Писал посты, общался с пользователями, слушал фидбэк, снова всё менял.

Заебался.

Вчера утром сел, подумал — я же просто хочу тихо сидеть, писать бэкенд, получать зарплату и не париться.

Без лендингов. Без маркетинга. Без «а кому это вообще надо».

Открыл hh, нашёл вакансию.
«Яндекс. Бэкенд. Go/Python. Удалёнка.»
Отправил резюме. Через час уже созвонились. Зачлись мои предыдущие собесы с ними. В понедельник выхожу на онбординг.

…

А вообще, с 1 апреля, конечно.

😁42😈7🤯6🤣4❤3💩3🔥2🌚2

1.14K viewsedited 14:49

AI и грабли

Кстати пост выше – единственный на канале, написанный GPT.

Я добавил только предложение про предыдущие собесы. И убрал про кофе.

Как вышло, что я даже не стал редачить? Раньше меня не устраивало качество того, что пробовал генерить. Чем отличается этот раз?

А в этот раз я добавил в контекст выгрузку своих предыдущих постов за пол года. А потом еще и попросил проанализировать меня вот этим промптом. Еще пару расплывчатых запросов голосом и готово. Тут переписка.

А теперь ради чего я пишу этот пост:

Нельзя просто бездумно кидаться в GPT большими файлами!

По крайней мере, когда нужно показать ей весь контент.

Просто найти какой-то один кусок инфы – проблем нет. А вот если сделать какое-то саммари, выводы, связать разные части друг с другом, то все плохо.

Все дело в том, как GPT работает с файлами. На пальцах:

1. Файл разбивается на кусочки (с нахлестом)

2. Для каждого запроса пользователя ищутся похожие по смыслу кусочки (магия семантического поиска, нам тут не важно как она работает)

3. Кусочки помещаются в обычный запрос к GPT типа "используя эту инфу: {кусочки} ответь на изначальный вопрос: {вопрос}"

И вместо того, чтобы видеть весь файл, LLMка видит жалкие огрызки.

Но у меня же тут сработало?!

Я сам удивился. Изначально я вообще делал этот эксперимент с анализом личности по постам, как иллюстрацию, что это не работает. Радует привычка искать пруфы своим спекуляциям

Пришлось покопаться, чтобы найти объяснение. Оказывается, в работе чата все не так просто устроено.

Первые 110k токенов документа попадают в контекст целиком.

«И че?» для простых пользователей:

Если нужно, чтобы ИИ видел весь документ целиком, проверьте, что текст не превышает лимиты. Для пдф файла без картинок – смотрите, если он больше 1.5 МБ, это уже много.

«И че?» для ИИ разработчиков:

Даже сами OpenAI в своих продуктах не используют голый векторный поиск, а добавляют большие куски инфы напрямую в контекст. Берем пример.

👍17❤1🔥1🤔1

1.14K views06:06

AI и грабли

Решил посмотреть, можно ли использовать AI studio, чтобы оценивать размер PDFок.

Оказалось, что нельзя – после экстракции текста получается в три раза меньше токенов, чем должно – видимо, гугл достает не всю инфу. А вот в плейграунде OpenAI все верно показывает

Если работаете с гуглом – лучше отправлять голый текст вместо файлов. Или 2/3 инфы непредсказуемо потеряется

👍9❤6🤔5🔥2

1.14K views06:36

AI и грабли

Как я прокрастинирую или делаем лого с GPT:

В одном AI чатике принесли интересный кейс на использование новых заклинаний генерации картинок в ChatGPT. И даже более-менее бизнесовый, а не бесконечные мемы и фотки в стиле студии Гибли – нужно сгенерить стилизованный логотип из обычного.

Неудачные попытки автора – на картинке 1 (да, логотип – это просто черный квадрат на белом фоне)

Референсы с другим логотипом – картинка 2

Я вообще не шарю за генерацию картинок + от рабочих задач на сегодня уже мозги пухнут. Идеальные условия, чтобы провести время с пользой для сообщества и своих навыков image generation

Оказалось, что сетка даже не понимает, что это логотип, пока я ей явно его не опишу (я бы тоже на самом деле не понял)

Еще оказалось, что она очень любит симметричные картинки

Но это можно сломать, если схематично порисовать на ней (картинка 5)

Кстати, такой же подход классно работает с фронтендом – делаешь скрин страницы, рисуешь стрелочками что куда хочешь подвинуть и просишь LLM переписать код

Ну и нормально объяснить как всегда помогает. Например, пояснить примеры или что значит "удалить остатки" (последнее сообщение). Короче, все как с людьми, как обычно

👍18❤5

1.09K views14:09

AI и грабли

PDFки правят миром.

Я много в последнее время пишу про работу с пдфками (1, 2), и буду писать еще больше. Но зачем это обычному человеку?

Просто большая часть мнений в интернете – это выжимки из pdf.

Тут kyrillic приводит классный пример про драму между двумя YC-компаниями с корпоративным шпионажем – по сути весь стартап-сегмент интернета обменивался урезанной информацией из pdf-ки с иском против Deel.

Вот еще пару цитат из поста, с которыми согласен (с большинство остальных не очень):

Если приучить себя смотреть в первоисточник и быстро его анализировать, тем самым убирая чужое субъективное мнение, то многие знания будут намного точнее.

Вместо того чтобы спрашивать о критериях выдачи немецкого внж по чатикам, или тем более читать маркетинговые статьи из выдачи гугла, - лучше открыть pdf с законом и спросить/найти нужное (тут имеется ввиду спросить LLM)

Те, кто не научатся чтению 200-страничных pdf'ов (с LLM или без) - будут проигрывать в конкуренции. Потому что их знания о мире будут более обрывочные.

И от себя:

Эффект, про который говорит Кирилл, будет только усиливаться с распространением LLM – мусорной информации в интернете будет все больше. Уже сейчас найти инфу – не представляет сложности. А вот выбрать качественную – навык гораздо более важный.

Так что всем нам полезно знать, как грузить pdf в chatgpt и google ai studio и что там за ограничения

❤17👍8💯2

1.38K viewsedited 16:27

AI и грабли

Эта статья на прошлой неделе взорвала твиттер и русскоязычный ИИ-телеграм. Большинство серьезных ии-блогеров написали по ней обзоры. Почему?

Да просто это никакая не статья, а полноценный sci-fi рассказ про ближайшее будущее, только c кучей референсов на реальные данные. Написан топовыми чуваками в ИИ, один из которых работал в OpenAI и уже писал похожие предсказания в 2021 году, оказавшимися поразительно точными.

Все кто про нее уже слышал, но откладывал из-за сложного английского – я запарился и сделал ИИ систему для перевода. И оформил это все в виде мини-сериала на хабре.

Кто еще не слышал – тем более самое время.

Тизер:

...существует значительный шанс, что она сможет уничтожить цивилизацию...

...Китайские спецслужбы... удваивают усилия по краже весов OpenBrain...

...Замедление принесет в жертву лидерство Америки...

...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...

...два сверхразума торгуются с жестокой эффективностью...

...это, вероятно, был последний месяц, когда у людей был хоть какой-то реальный шанс контролировать свое собственное будущее...

...в середине 2030 года ИИ выпускает дюжину тихо распространяющихся биологических видов оружия...

Читать 1 часть тут: https://habr.com/ru/articles/898622/

1🤯11🔥7👍6❤1❤‍🔥1

10.2K viewsedited 09:22

AI и грабли

Вторая часть моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, ссылается на кучу данных, имеет две концовки (!) и сейчас его много обсуждают.

В предыдущей серии:

...агенты для программирования и исследований начинают трансформировать свои профессии...

...модель была «согласована» (aligned), так что она откажется выполнять вредоносные запросы...

...исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации...

...Ранним утром агент мониторинга трафика Agent-1 обнаруживает аномальную передачу данных...

https://habr.com/ru/articles/898834/

P.s. в конце развилка

❤13👌2

1.9K viewsedited 09:11

AI и грабли

Никто не ожидал, но 100% голосов за ускорение развития ИИ

В предыдущей серии:

...он мог бы оказать существенную помощь террористам в разработке биологического оружия...

...Иностранные союзники Америки не в курсе...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...копии Agent-4, похоже, довольно часто думают о таких темах, как захват управления...

https://habr.com/ru/articles/898864/

❤9🔥3

1.72K viewsedited 12:19

AI и грабли

Альтернативная концовка уже онлайн. На этом цикл заканчивается, так что кто откладывал чтение, чтобы "посмотреть весь сериал целиком", я подстроил даты публикаций, чтобы можно было почитать на выходных 🙃

В предыдущих сериях

...три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью...

...он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...

Тут: https://habr.com/ru/articles/898876/

Читать с начала: https://habr.com/ru/articles/898622/

👍9❤3🔥3

1.96K viewsedited 11:28

AI и грабли

CPO openai рассказывает как внутри используют LLM

Там в целом много интересных мыслей, но поделюсь конкретной инфой про внутрянку, которая меня удивила (смотреть с этого места):

Часто используют fine-tuned модели (дообученные под узкую задачу). Это сильно расходится с тем, что я вижу в индустрии – почти никто не занимается таким. Я раньше думал, что просто это слишком мало пользы дает по сравнению с нормально написанными промптами.

Сейчас думаю, что просто мало кто умеет это правильно делать + не всегда у компаний есть ресурсы на сбор качественного датасета.

———

Еще рассказывает, что часто разбивают сложные задачи на много очень маленьких запросов, каждый из которых легко валидируется.

Когда работаю с чужим кодом, часто вижу, что когнитивно сложную задачу сваливают в один запрос, а если не справляется – просто догружают компьютом (используют o3-mini где хватило бы 4o-mini). В итоге система – хаотичная и непредсказуемая. То работает как надо, то выдает бред (обычно во время презентации результатов заказчику)

Короче, интересно послушать, как используют ИИ в самой хайповой ИИ-компании

YouTube

OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more | Kevin Weil

Kevin Weil is the chief product officer at OpenAI, where he oversees the development of ChatGPT, enterprise products, and the OpenAI API. Prior to OpenAI, Kevin was head of product at Twitter, Instagram, and Planet, and was instrumental in the development…

❤14👍10🔥1

2K views06:25

AI и грабли

This media is not supported in your browser

VIEW IN TELEGRAM

Таблицы правят миром.

Если подумать, то большинство простых интеграции ИИ: взять данные из одной таблицы → отправить в OpenAI API → сложить в другую таблицу.

Вот где деньги.

Я уже несколько раз писал про ИИ в гугл-таблицах здорового человека. И даже сам реализацию делал, но не придумал, как конкурировать с ребятами по первой ссылке.

У них кстати вообще все в порядке – на гугл таблицах держатся миллионы бизнесов по всему миру. Уж где где ИИ реально дает значимый прирост – за раз можно обработать тысячи строк без копирования каждой строки в chatgpt и обратно.

В комментах скрины базовой аналитики трафа gptforwork.com

Но есть один нюанс – гугл наконец запускает аналог (на гифке – он).

Пока доступ ограничен (Available only with Enterprise Standard and Enterprise Plus). Но для нас это хороший знак, особенно для бизнеса – скоро можно будет очень дешево автоматизировать много задач без внешних "ии-экспертов" и дополнительных интеграций. Осталось только обучить своих сотрудников. ~~Эх, сюда бы прогрев на свои курсы.~~

Вот я часто думаю, а какие ИИ продукты делать, чтобы не проиграть конкуренцию гигантам. Интересно, выживет ли gptforwork 🧐

🤔11🔥6❤5👍3

2.19K viewsedited 05:33

AI и грабли

Как получилось, что юристы используют среду для разработчиков?

e/acc часто пишет про изменение индустрий, вижн будущего, которые он берет из исследований либо из общения с фаундерами (он же занимается инвестициями, ага). И я у него на канале не первый раз вижу (1, 2, 3) упоминания очень удивившей меня штуки.

Мол, можно взять AI среду для разработчиков Cursor и настроить ее как рабочюю программу для неразработческих задач. Звучит сомнительно, честно говоря. Но я попытался покритиковать свою критику и вот что из этого получилось:

Зачем вообще сложный Cursor вместо простого chatgpt?

1. Встроенная реализация агентов
Это значит, что система может выполнять несколько заранее не прописанных шагов без участия пользователя, планируя новые действия на основе результатов предыдущих (это, кмк, один из самых важных критериев агентности). Пример агента – openai deepresearch (его, кстати, надавно открыли и для бесплатных пользователей). Он понимает, на какие сайты еще сходить на основе того, что *уже* нагуглил до этого.

Агент может выполнить сложную последовательность шагов (например, пройтись по гуглтабличке с ссылками на видосы, скачать их, вытащить из них аудиодорожку через ffmpeg, сделать транскрибацию, а потом сделать саммари и сохранить в файлики).

2. Рабочий контекст
Часто у нас есть какой-то рабочий контекст. Файлики, таблички, инструкции. Для программистов очень важно уметь быстро добавлять нужный контекст к запросам, и Cursor поддерживает это by design. Можно сослаться на конкретный файл или папку. И результаты работы тоже сразу сохранятся в виде готовых артефактов. Отдельно стоит сказать про .cursorrules файлы с "настройками" поведения LLM под разные задачи.

3. Встроенная расширяемость
Сейчас в сообществе набирают популярность MCP-серверы – по сути удобные унифицированные обертки над внешними сервисами, дающие к ним доступ LLM-агентам. В два клика даем системе доступ к корпоративному Notion или гугл календарю. Если подходящего нет, просто просим LLM написать его самому. А можно даже не трогать MCP, а просто просить разработчиков или LLM написать переиспользуемые python-скрипты – агент будет их использовать в дальнейшем. Для примера, в кейсе выше это может быть скрипт, который перегоняет все папку с видосиками в набор текстовых файлов.

4. Супер удобная работа с текстом.
Ну серьезно, нужно писать отдельный пост, почему Cursor – лучший инструмент для написания текстов. Он умеет завершать предложения за меня, на лету исправляет падежи, сам понимает, куда я хочу переместить курсор. Можно выделить часть текста и дать задачу сделать что-то именно с этой частью. Можно сделать что-то со всем текстом и он покажет, что именно поменял.

По сути, если вы работали с Canvas режимом в ChatGPT, то на пальцах
ChatGPT < Canvas < Cursor
А точнее
ChatGPT < Canvas <<< Cursor

---

Есть еще вопрос, а что мешает сделать себе полноценный сервис под свою область (и ко мне даже приходили с таким запросом). Но даже просто реализовать нормальную агентскую систему – сложно. Бизнесу дешевле взять уже готовое и расширяемое. (но собственные системы можно и нужно делать, когда есть четкие повторяемые задачи, где есть потенциал свести участие человека к минимуму).

А вот если задач много, разных, они не всегда разбиваются на заранее известную последовательность шагов + нужен человеческий контроль/планирование, то я пока даже и не могу ничего лучше придумать, чем Cursor. Вот так вот я переобулся, короче.

Посмотреть видео, как это примерно выглядит можно тут

P.s. у меня гораздо менее технооптимистичный взгляд, чем у e/acc, и вижу много сложностей во внедрении таких инструментов в реальном бизнесе, но сама идея мне все равно очень понравилась, и захотелось ее поразгонять и поделиться 🤗

e/acc

Если 6 месяцев назад разработчик который не использует курсор или windsurf казался каким-то динозавром без прошлого и будущего, то сегодня такими являются HR’ы, сейлзы, маркетологи и legal. Компании среднего размера это сэкономит от $500к в год на софте и…

❤14🔥6👍4❤‍🔥2😱2🤔1

2.3K viewsedited 10:30

About

Blog

Apps

Platform