AI и грабли

Решил посмотреть, можно ли использовать AI studio, чтобы оценивать размер PDFок.

Оказалось, что нельзя – после экстракции текста получается в три раза меньше токенов, чем должно – видимо, гугл достает не всю инфу. А вот в плейграунде OpenAI все верно показывает

Если работаете с гуглом – лучше отправлять голый текст вместо файлов. Или 2/3 инфы непредсказуемо потеряется

👍9❤6🤔5🔥2

1.14K views06:36

AI и грабли

Как я прокрастинирую или делаем лого с GPT:

В одном AI чатике принесли интересный кейс на использование новых заклинаний генерации картинок в ChatGPT. И даже более-менее бизнесовый, а не бесконечные мемы и фотки в стиле студии Гибли – нужно сгенерить стилизованный логотип из обычного.

Неудачные попытки автора – на картинке 1 (да, логотип – это просто черный квадрат на белом фоне)

Референсы с другим логотипом – картинка 2

Я вообще не шарю за генерацию картинок + от рабочих задач на сегодня уже мозги пухнут. Идеальные условия, чтобы провести время с пользой для сообщества и своих навыков image generation

Оказалось, что сетка даже не понимает, что это логотип, пока я ей явно его не опишу (я бы тоже на самом деле не понял)

Еще оказалось, что она очень любит симметричные картинки

Но это можно сломать, если схематично порисовать на ней (картинка 5)

Кстати, такой же подход классно работает с фронтендом – делаешь скрин страницы, рисуешь стрелочками что куда хочешь подвинуть и просишь LLM переписать код

Ну и нормально объяснить как всегда помогает. Например, пояснить примеры или что значит "удалить остатки" (последнее сообщение). Короче, все как с людьми, как обычно

👍18❤5

1.09K views14:09

AI и грабли

PDFки правят миром.

Я много в последнее время пишу про работу с пдфками (1, 2), и буду писать еще больше. Но зачем это обычному человеку?

Просто большая часть мнений в интернете – это выжимки из pdf.

Тут kyrillic приводит классный пример про драму между двумя YC-компаниями с корпоративным шпионажем – по сути весь стартап-сегмент интернета обменивался урезанной информацией из pdf-ки с иском против Deel.

Вот еще пару цитат из поста, с которыми согласен (с большинство остальных не очень):

Если приучить себя смотреть в первоисточник и быстро его анализировать, тем самым убирая чужое субъективное мнение, то многие знания будут намного точнее.

Вместо того чтобы спрашивать о критериях выдачи немецкого внж по чатикам, или тем более читать маркетинговые статьи из выдачи гугла, - лучше открыть pdf с законом и спросить/найти нужное (тут имеется ввиду спросить LLM)

Те, кто не научатся чтению 200-страничных pdf'ов (с LLM или без) - будут проигрывать в конкуренции. Потому что их знания о мире будут более обрывочные.

И от себя:

Эффект, про который говорит Кирилл, будет только усиливаться с распространением LLM – мусорной информации в интернете будет все больше. Уже сейчас найти инфу – не представляет сложности. А вот выбрать качественную – навык гораздо более важный.

Так что всем нам полезно знать, как грузить pdf в chatgpt и google ai studio и что там за ограничения

❤17👍8💯2

1.38K viewsedited 16:27

AI и грабли

Эта статья на прошлой неделе взорвала твиттер и русскоязычный ИИ-телеграм. Большинство серьезных ии-блогеров написали по ней обзоры. Почему?

Да просто это никакая не статья, а полноценный sci-fi рассказ про ближайшее будущее, только c кучей референсов на реальные данные. Написан топовыми чуваками в ИИ, один из которых работал в OpenAI и уже писал похожие предсказания в 2021 году, оказавшимися поразительно точными.

Все кто про нее уже слышал, но откладывал из-за сложного английского – я запарился и сделал ИИ систему для перевода. И оформил это все в виде мини-сериала на хабре.

Кто еще не слышал – тем более самое время.

Тизер:

...существует значительный шанс, что она сможет уничтожить цивилизацию...

...Китайские спецслужбы... удваивают усилия по краже весов OpenBrain...

...Замедление принесет в жертву лидерство Америки...

...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...

...два сверхразума торгуются с жестокой эффективностью...

...это, вероятно, был последний месяц, когда у людей был хоть какой-то реальный шанс контролировать свое собственное будущее...

...в середине 2030 года ИИ выпускает дюжину тихо распространяющихся биологических видов оружия...

Читать 1 часть тут: https://habr.com/ru/articles/898622/

1🤯11🔥7👍6❤1❤‍🔥1

10.2K viewsedited 09:22

AI и грабли

Вторая часть моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, ссылается на кучу данных, имеет две концовки (!) и сейчас его много обсуждают.

В предыдущей серии:

...агенты для программирования и исследований начинают трансформировать свои профессии...

...модель была «согласована» (aligned), так что она откажется выполнять вредоносные запросы...

...исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации...

...Ранним утром агент мониторинга трафика Agent-1 обнаруживает аномальную передачу данных...

https://habr.com/ru/articles/898834/

P.s. в конце развилка

❤13👌2

1.9K viewsedited 09:11

AI и грабли

Никто не ожидал, но 100% голосов за ускорение развития ИИ

В предыдущей серии:

...он мог бы оказать существенную помощь террористам в разработке биологического оружия...

...Иностранные союзники Америки не в курсе...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...копии Agent-4, похоже, довольно часто думают о таких темах, как захват управления...

https://habr.com/ru/articles/898864/

❤9🔥3

1.72K viewsedited 12:19

AI и грабли

Альтернативная концовка уже онлайн. На этом цикл заканчивается, так что кто откладывал чтение, чтобы "посмотреть весь сериал целиком", я подстроил даты публикаций, чтобы можно было почитать на выходных 🙃

В предыдущих сериях

...три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью...

...он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть...

...они просят Пентагон разработать план кинетических атак на китайские дата-центры...

...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...

Тут: https://habr.com/ru/articles/898876/

Читать с начала: https://habr.com/ru/articles/898622/

👍9❤3🔥3

1.96K viewsedited 11:28

AI и грабли

CPO openai рассказывает как внутри используют LLM

Там в целом много интересных мыслей, но поделюсь конкретной инфой про внутрянку, которая меня удивила (смотреть с этого места):

Часто используют fine-tuned модели (дообученные под узкую задачу). Это сильно расходится с тем, что я вижу в индустрии – почти никто не занимается таким. Я раньше думал, что просто это слишком мало пользы дает по сравнению с нормально написанными промптами.

Сейчас думаю, что просто мало кто умеет это правильно делать + не всегда у компаний есть ресурсы на сбор качественного датасета.

———

Еще рассказывает, что часто разбивают сложные задачи на много очень маленьких запросов, каждый из которых легко валидируется.

Когда работаю с чужим кодом, часто вижу, что когнитивно сложную задачу сваливают в один запрос, а если не справляется – просто догружают компьютом (используют o3-mini где хватило бы 4o-mini). В итоге система – хаотичная и непредсказуемая. То работает как надо, то выдает бред (обычно во время презентации результатов заказчику)

Короче, интересно послушать, как используют ИИ в самой хайповой ИИ-компании

YouTube

OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more | Kevin Weil

Kevin Weil is the chief product officer at OpenAI, where he oversees the development of ChatGPT, enterprise products, and the OpenAI API. Prior to OpenAI, Kevin was head of product at Twitter, Instagram, and Planet, and was instrumental in the development…

❤14👍10🔥1

2K views06:25

AI и грабли

This media is not supported in your browser

VIEW IN TELEGRAM

Таблицы правят миром.

Если подумать, то большинство простых интеграции ИИ: взять данные из одной таблицы → отправить в OpenAI API → сложить в другую таблицу.

Вот где деньги.

Я уже несколько раз писал про ИИ в гугл-таблицах здорового человека. И даже сам реализацию делал, но не придумал, как конкурировать с ребятами по первой ссылке.

У них кстати вообще все в порядке – на гугл таблицах держатся миллионы бизнесов по всему миру. Уж где где ИИ реально дает значимый прирост – за раз можно обработать тысячи строк без копирования каждой строки в chatgpt и обратно.

В комментах скрины базовой аналитики трафа gptforwork.com

Но есть один нюанс – гугл наконец запускает аналог (на гифке – он).

Пока доступ ограничен (Available only with Enterprise Standard and Enterprise Plus). Но для нас это хороший знак, особенно для бизнеса – скоро можно будет очень дешево автоматизировать много задач без внешних "ии-экспертов" и дополнительных интеграций. Осталось только обучить своих сотрудников. ~~Эх, сюда бы прогрев на свои курсы.~~

Вот я часто думаю, а какие ИИ продукты делать, чтобы не проиграть конкуренцию гигантам. Интересно, выживет ли gptforwork 🧐

🤔11🔥6❤5👍3

2.19K viewsedited 05:33

AI и грабли

Как получилось, что юристы используют среду для разработчиков?

e/acc часто пишет про изменение индустрий, вижн будущего, которые он берет из исследований либо из общения с фаундерами (он же занимается инвестициями, ага). И я у него на канале не первый раз вижу (1, 2, 3) упоминания очень удивившей меня штуки.

Мол, можно взять AI среду для разработчиков Cursor и настроить ее как рабочюю программу для неразработческих задач. Звучит сомнительно, честно говоря. Но я попытался покритиковать свою критику и вот что из этого получилось:

Зачем вообще сложный Cursor вместо простого chatgpt?

1. Встроенная реализация агентов
Это значит, что система может выполнять несколько заранее не прописанных шагов без участия пользователя, планируя новые действия на основе результатов предыдущих (это, кмк, один из самых важных критериев агентности). Пример агента – openai deepresearch (его, кстати, надавно открыли и для бесплатных пользователей). Он понимает, на какие сайты еще сходить на основе того, что *уже* нагуглил до этого.

Агент может выполнить сложную последовательность шагов (например, пройтись по гуглтабличке с ссылками на видосы, скачать их, вытащить из них аудиодорожку через ffmpeg, сделать транскрибацию, а потом сделать саммари и сохранить в файлики).

2. Рабочий контекст
Часто у нас есть какой-то рабочий контекст. Файлики, таблички, инструкции. Для программистов очень важно уметь быстро добавлять нужный контекст к запросам, и Cursor поддерживает это by design. Можно сослаться на конкретный файл или папку. И результаты работы тоже сразу сохранятся в виде готовых артефактов. Отдельно стоит сказать про .cursorrules файлы с "настройками" поведения LLM под разные задачи.

3. Встроенная расширяемость
Сейчас в сообществе набирают популярность MCP-серверы – по сути удобные унифицированные обертки над внешними сервисами, дающие к ним доступ LLM-агентам. В два клика даем системе доступ к корпоративному Notion или гугл календарю. Если подходящего нет, просто просим LLM написать его самому. А можно даже не трогать MCP, а просто просить разработчиков или LLM написать переиспользуемые python-скрипты – агент будет их использовать в дальнейшем. Для примера, в кейсе выше это может быть скрипт, который перегоняет все папку с видосиками в набор текстовых файлов.

4. Супер удобная работа с текстом.
Ну серьезно, нужно писать отдельный пост, почему Cursor – лучший инструмент для написания текстов. Он умеет завершать предложения за меня, на лету исправляет падежи, сам понимает, куда я хочу переместить курсор. Можно выделить часть текста и дать задачу сделать что-то именно с этой частью. Можно сделать что-то со всем текстом и он покажет, что именно поменял.

По сути, если вы работали с Canvas режимом в ChatGPT, то на пальцах
ChatGPT < Canvas < Cursor
А точнее
ChatGPT < Canvas <<< Cursor

---

Есть еще вопрос, а что мешает сделать себе полноценный сервис под свою область (и ко мне даже приходили с таким запросом). Но даже просто реализовать нормальную агентскую систему – сложно. Бизнесу дешевле взять уже готовое и расширяемое. (но собственные системы можно и нужно делать, когда есть четкие повторяемые задачи, где есть потенциал свести участие человека к минимуму).

А вот если задач много, разных, они не всегда разбиваются на заранее известную последовательность шагов + нужен человеческий контроль/планирование, то я пока даже и не могу ничего лучше придумать, чем Cursor. Вот так вот я переобулся, короче.

Посмотреть видео, как это примерно выглядит можно тут

P.s. у меня гораздо менее технооптимистичный взгляд, чем у e/acc, и вижу много сложностей во внедрении таких инструментов в реальном бизнесе, но сама идея мне все равно очень понравилась, и захотелось ее поразгонять и поделиться 🤗

e/acc

Если 6 месяцев назад разработчик который не использует курсор или windsurf казался каким-то динозавром без прошлого и будущего, то сегодня такими являются HR’ы, сейлзы, маркетологи и legal. Компании среднего размера это сэкономит от $500к в год на софте и…

❤14🔥6👍4❤‍🔥2😱2🤔1

2.3K viewsedited 10:30

AI и грабли

Чат – плохой интерфейс для LLM

↑ Мнение, которое я часто вижу. Вот пример обоснования, которое мне нравится.

Коротко: люди не любят писать много в чате, они привыкли тыкать по уже готовым кнопочкам, которые как-то меняют контент в "рабочей области" (условно, фотошоп). А в идеале, вообще, понимать что пользователь хочет и предлагать ему динамически генерируемые опции. Условно, подсвечивать косяки в тексте и предлагать кнопки с опциями как их исправить.

Это хорошо перекликается с тем, что я писал выше про Cursor.

Другое мнение, которое я услышал в видосе Байрама Аннакова с обзором изменений в индустрии (мб самый плотный по смыслу материал, который я видел за последний месяц). Моя вольная интерпретация:

Для людей максимально естественно общаться в формате чатов (в т.ч. голосовых) – контекст передается интеративно – человек "приемник" может уточнить у "передатчика" что он не понял. Или "передатчик" сам может добавить инфы в процессе общения. Мы учились этому с детства, но раньше диджитал системы просто не могли так общаться, поэтому нам нужны были всякие кнопки, заранее продуманные последовательности экранов и т.д. А теперь могут. И это хорошо

У меня тут нет своего мнения, но если анализировать существующие успешные продукты, то вижу, что приходим к гибриду. В том же Cursor у нас действительно есть рабочая область вне чата, над которое ИИ и совершает изменения.

И он сам угадывает, что хочет пользователь (положение курсора, inline автодополнение по нажатию tab). При этом, очень много работы совершается в формате интерактивного общения в чате (часто, голосом), что дает большую свободу, чем просто набор заготовленных кнопок.

А вы в каком режиме больше используете ИИ?

kyrillic

Про будущее AI интерфейсов, ч.1. После презентации Apple Intelligence я писал, что интерфейсы для LLM-продуктов в виде чатов со временем уйдут. А вчера OpenAI представили Canvas - бета версию "LLM-интерфейса здорового человека". У Claude тоже есть такое,…

🔥10❤6❤‍🔥4👍4🤔3

2.1K views06:08

AI и грабли

Топ лайфхак последней недели для разработчиков, которые используют ИИ

git diff --staged | cat

Опционально добавляем: --word-diff

Зачем?

Для больших задач, которые не получается сделать в один запрос, полезно показать прошлую динамику изменений: что уже сделано, какие подходы использовались, в каком стиле менялся код.

Это "праймит" модель в определенную сторону и стиль – LLMки как и люди, любят быть последовательными и не особо противоречить своим прошлым решениям (см. Чалдини).

———

И без применения к разработке, есть глобальный разгон, что ось времени – то, чего не хватает ИИ для более качественной работы в любом домене.

Вместо того, чтобы показывать текст и просить его отредактировать, вывалив из головы все представления о прекрасном, можно просто показать историю предыдущих изменений этого текста.

Модель вычленит нужное "направление мысли" и продолжит работать по нему даже без задротного промтинга.

🔥18👍7🤯5🤔2✍1❤1🤓1

2.03K viewsedited 12:44

AI и грабли

Выключи камеру

Совет про ведение онлайн-созвонов от моей близкой подруги и классного предпринимателя (если ищете работу в заграничном айти, советую, Даша правда крутая).

Не знаю как вы, а я большую часть звонков пялюсь не на собеседника, а на себя. Поправляю волосы, осанку, слежу за мимикой и вот это вот все. Ожидаемо, это не помогает наладить эмоциональный контакт с собеседником (а онлайн это и так сложно).

Можно поспорить с тем, что этот контакт вообще нужен – мы же профессионалы, которые умеют разделять эмоции и работу. Но я в такое не верю, зато верю, что доверие снижает издержки на коммуникацию (=> экономически выгодно).

In any human interaction, the required amount of communication is inversely proportional to the level of trust (с) Ben Horowitz

Оказалось, что если не видеть свое лицо, то фокус внимания тотально переходит на собеседника. А, как говорит моя мама, "где внимание, там результат".

Осталось только научиться отключать свое лицо для себя, не выключая его для собеседника. В зуме есть специальная кнопка (картинка 1).

А для остальных приложений я использую стандартное мак-приложение stickies/записки – его можно включить в режиме "поверх всех окон" – я просто накрываю им свое изображение (картинка 2). Аналог под винду

Это совершенно другой опыт общения.

❤20🔥7❤‍🔥6

2.41K views10:52

AI и грабли

Инсайты из чатов

Уже третий раз себя ловлю на повторении одного и того же действия – когда нужна какая-то инфа про страну, оформление виз, получение доков, то просто выкачиваю весь чат, и отправляю в LLM. Вроде все просто, но на самом деле есть пара нюансов:

* Как выкачать файл
* Как его подготовить для LLM
* Как его туда передавать

———

1. Выкачать чат можно только в одной из десктопных версий ТГ

2. Выкачиваем именно json формат

3. Но он перегружен информацией и LLMка быстро начнет путаться на больших чатах. Открываем в браузере html файл из первого коммента к этому посту – это простая конвертилка, которая преобразует дамп канала в более простой для LLM формат

4. Открываем ai.studio (большой контекст), пишем системный промпт типа:

отвечай на вопросы используя только информацию из телеграм чата:

5. Копируем туда текст из конвертилки или просто прикрепляем файлом

6. После этого задаем любые вопросы по чату

Лайфхак (добавить к промпту):

Отвечая на вопрос, давай ссылки на конкретные сообщения, которые используешь, используя формат https://t.me/oestick/<message_id>

(первую часть ссылки нужно заполнить самостоятельно)

UPD: конвертилка v2 теперь живет тут

1❤36👍22🔥9❤‍🔥4🕊1

3.49K views19:19

About

Blog

Apps

Platform