А теперь что мне интересно.
Интересно, почему весь интернет хайпит на том, что LLMки научились не только понимать картинки, но и генерировать, и при этом я не вижу сравнений Google и OpenAI, которые выкатили эту фичу с разрывом в неделю.
Исправляю 🙃
Нагенерил разных экспериментов, которые было интересно поделать. Последние две фотки даже вполне бизнесовые кейсы
Что я заметил:
1. OpenAI работает сильно дольше. Мощнее модель и качество у них лучше. А Google требует на порядок больше танцев с промптами, зато за 10 секунд все готово
2. OpenAI хорошо удерживает "модель мира" – видно на задачке с одеждой. Их модель прям понимает, что за шмотки. Google просто генерирует что-то отдаленно похожее
3. При этом OpenAI постоянно меняет мелкие детали 🥴. Видно по измененным чертам лица, лошади, фону
4. А Google наоборот хорошо их удерживает. Кажется, они сделали какой-то хак, чтобы генерация "цеплялась" за входную картинку. Но сама генерация слабее, так что как только отходим достаточно далеко от исходного изображения, все резко становится хуже. Особенно на одежде видно – т.к. одежда в совсем другом положении – по сути генерация с нуля.
tl;dr
Если хотим оставить большую часть изображения как есть → Google + детальные промпты
Если хотим поменять положение объектов или сгенерить с нуля → OpenAI
Ну и комбинировать, конечно.
Вы знаете кому отправить этот пост:)
Интересно, почему весь интернет хайпит на том, что LLMки научились не только понимать картинки, но и генерировать, и при этом я не вижу сравнений Google и OpenAI, которые выкатили эту фичу с разрывом в неделю.
Исправляю 🙃
Нагенерил разных экспериментов, которые было интересно поделать. Последние две фотки даже вполне бизнесовые кейсы
Что я заметил:
1. OpenAI работает сильно дольше. Мощнее модель и качество у них лучше. А Google требует на порядок больше танцев с промптами, зато за 10 секунд все готово
2. OpenAI хорошо удерживает "модель мира" – видно на задачке с одеждой. Их модель прям понимает, что за шмотки. Google просто генерирует что-то отдаленно похожее
3. При этом OpenAI постоянно меняет мелкие детали 🥴. Видно по измененным чертам лица, лошади, фону
4. А Google наоборот хорошо их удерживает. Кажется, они сделали какой-то хак, чтобы генерация "цеплялась" за входную картинку. Но сама генерация слабее, так что как только отходим достаточно далеко от исходного изображения, все резко становится хуже. Особенно на одежде видно – т.к. одежда в совсем другом положении – по сути генерация с нуля.
Лайфхак – чтобы "отцепить" от входного изображения, можно просить сделать с нуля, а не переделать.
* create anime character > turn person into anime
* generate high resolution picture with character > upscale picture
tl;dr
Если хотим оставить большую часть изображения как есть → Google + детальные промпты
Если хотим поменять положение объектов или сгенерить с нуля → OpenAI
Вы знаете кому отправить этот пост:)
👍18🔥14❤1
Всё. Я, похоже, наигрался.
Последние пару лет я прыгал между идеями, проектами, пивотами. Строил, тестировал, выкидывал. Писал посты, общался с пользователями, слушал фидбэк, снова всё менял.
Заебался.
Вчера утром сел, подумал — я же просто хочу тихо сидеть, писать бэкенд, получать зарплату и не париться.
Без лендингов. Без маркетинга. Без «а кому это вообще надо».
Открыл hh, нашёл вакансию.
«Яндекс. Бэкенд. Go/Python. Удалёнка.»
Отправил резюме. Через час уже созвонились. Зачлись мои предыдущие собесы с ними. В понедельник выхожу на онбординг.
…
А вообще, с 1 апреля, конечно.
Последние пару лет я прыгал между идеями, проектами, пивотами. Строил, тестировал, выкидывал. Писал посты, общался с пользователями, слушал фидбэк, снова всё менял.
Заебался.
Вчера утром сел, подумал — я же просто хочу тихо сидеть, писать бэкенд, получать зарплату и не париться.
Без лендингов. Без маркетинга. Без «а кому это вообще надо».
Открыл hh, нашёл вакансию.
«Яндекс. Бэкенд. Go/Python. Удалёнка.»
Отправил резюме. Через час уже созвонились. Зачлись мои предыдущие собесы с ними. В понедельник выхожу на онбординг.
…
А вообще, с 1 апреля, конечно.
😁42😈7🤯6🤣4❤3💩3🔥2🌚2
Кстати пост выше – единственный на канале, написанный GPT.
Я добавил только предложение про предыдущие собесы. И убрал про кофе.
Как вышло, что я даже не стал редачить? Раньше меня не устраивало качество того, что пробовал генерить. Чем отличается этот раз?
А в этот раз я добавил в контекст выгрузку своих предыдущих постов за пол года. А потом еще и попросил проанализировать меня вот этим промптом. Еще пару расплывчатых запросов голосом и готово. Тут переписка.
А теперь ради чего я пишу этот пост:
Нельзя просто бездумно кидаться в GPT большими файлами!
По крайней мере, когда нужно показать ей весь контент.
Просто найти какой-то один кусок инфы – проблем нет. А вот если сделать какое-то саммари, выводы, связать разные части друг с другом, то все плохо.
Все дело в том, как GPT работает с файлами. На пальцах:
1. Файл разбивается на кусочки (с нахлестом)
2. Для каждого запроса пользователя ищутся похожие по смыслу кусочки (магия семантического поиска, нам тут не важно как она работает)
3. Кусочки помещаются в обычный запрос к GPT типа "используя эту инфу: {кусочки} ответь на изначальный вопрос: {вопрос}"
И вместо того, чтобы видеть весь файл, LLMка видит жалкие огрызки.
Но у меня же тут сработало?!
Я сам удивился. Изначально я вообще делал этот эксперимент с анализом личности по постам, как иллюстрацию, что это не работает.Радует привычка искать пруфы своим спекуляциям
Пришлось покопаться, чтобы найти объяснение. Оказывается, в работе чата все не так просто устроено.
Первые 110k токенов документа попадают в контекст целиком.
«И че?» для простых пользователей:
Если нужно, чтобы ИИ видел весь документ целиком, проверьте, что текст не превышает лимиты. Для пдф файла без картинок – смотрите, если он больше 1.5 МБ, это уже много.
«И че?» для ИИ разработчиков:
Даже сами OpenAI в своих продуктах не используют голый векторный поиск, а добавляют большие куски инфы напрямую в контекст. Берем пример.
Я добавил только предложение про предыдущие собесы. И убрал про кофе.
Как вышло, что я даже не стал редачить? Раньше меня не устраивало качество того, что пробовал генерить. Чем отличается этот раз?
А в этот раз я добавил в контекст выгрузку своих предыдущих постов за пол года. А потом еще и попросил проанализировать меня вот этим промптом. Еще пару расплывчатых запросов голосом и готово. Тут переписка.
А теперь ради чего я пишу этот пост:
Нельзя просто бездумно кидаться в GPT большими файлами!
По крайней мере, когда нужно показать ей весь контент.
Просто найти какой-то один кусок инфы – проблем нет. А вот если сделать какое-то саммари, выводы, связать разные части друг с другом, то все плохо.
Все дело в том, как GPT работает с файлами. На пальцах:
1. Файл разбивается на кусочки (с нахлестом)
2. Для каждого запроса пользователя ищутся похожие по смыслу кусочки (магия семантического поиска, нам тут не важно как она работает)
3. Кусочки помещаются в обычный запрос к GPT типа "используя эту инфу: {кусочки} ответь на изначальный вопрос: {вопрос}"
И вместо того, чтобы видеть весь файл, LLMка видит жалкие огрызки.
Но у меня же тут сработало?!
Я сам удивился. Изначально я вообще делал этот эксперимент с анализом личности по постам, как иллюстрацию, что это не работает.
Пришлось покопаться, чтобы найти объяснение. Оказывается, в работе чата все не так просто устроено.
Первые 110k токенов документа попадают в контекст целиком.
«И че?» для простых пользователей:
Если нужно, чтобы ИИ видел весь документ целиком, проверьте, что текст не превышает лимиты. Для пдф файла без картинок – смотрите, если он больше 1.5 МБ, это уже много.
«И че?» для ИИ разработчиков:
Даже сами OpenAI в своих продуктах не используют голый векторный поиск, а добавляют большие куски инфы напрямую в контекст. Берем пример.
👍17❤1🔥1🤔1
Решил посмотреть, можно ли использовать AI studio, чтобы оценивать размер PDFок.
Оказалось, что нельзя – после экстракции текста получается в три раза меньше токенов, чем должно – видимо, гугл достает не всю инфу. А вот в плейграунде OpenAI все верно показывает
Если работаете с гуглом – лучше отправлять голый текст вместо файлов. Или 2/3 инфы непредсказуемо потеряется
Оказалось, что нельзя – после экстракции текста получается в три раза меньше токенов, чем должно – видимо, гугл достает не всю инфу. А вот в плейграунде OpenAI все верно показывает
Если работаете с гуглом – лучше отправлять голый текст вместо файлов. Или 2/3 инфы непредсказуемо потеряется
👍9❤6🤔5🔥2
Как я прокрастинирую или делаем лого с GPT:
В одном AI чатике принесли интересный кейс на использование новых заклинаний генерации картинок в ChatGPT. И даже более-менее бизнесовый, а не бесконечные мемы и фотки в стиле студии Гибли – нужно сгенерить стилизованный логотип из обычного.
Неудачные попытки автора – на картинке 1 (да, логотип – это просто черный квадрат на белом фоне)
Референсы с другим логотипом – картинка 2
Я вообще не шарю за генерацию картинок + от рабочих задач на сегодня уже мозги пухнут. Идеальные условия, чтобы провести время с пользой для сообществаи своих навыков image generation
Оказалось, что сетка даже не понимает, что это логотип, пока я ей явно его не опишу (я бы тоже на самом деле не понял)
Еще оказалось, что она очень любит симметричные картинки
Но это можно сломать, если схематично порисовать на ней (картинка 5)
Ну и нормально объяснить как всегда помогает. Например, пояснить примеры или что значит "удалить остатки" (последнее сообщение). Короче, все как с людьми, как обычно
В одном AI чатике принесли интересный кейс на использование новых заклинаний генерации картинок в ChatGPT. И даже более-менее бизнесовый, а не бесконечные мемы и фотки в стиле студии Гибли – нужно сгенерить стилизованный логотип из обычного.
Неудачные попытки автора – на картинке 1 (да, логотип – это просто черный квадрат на белом фоне)
Референсы с другим логотипом – картинка 2
Я вообще не шарю за генерацию картинок + от рабочих задач на сегодня уже мозги пухнут. Идеальные условия, чтобы провести время с пользой для сообщества
Оказалось, что сетка даже не понимает, что это логотип, пока я ей явно его не опишу (я бы тоже на самом деле не понял)
Еще оказалось, что она очень любит симметричные картинки
Но это можно сломать, если схематично порисовать на ней (картинка 5)
Кстати, такой же подход классно работает с фронтендом – делаешь скрин страницы, рисуешь стрелочками что куда хочешь подвинуть и просишь LLM переписать код
Ну и нормально объяснить как всегда помогает. Например, пояснить примеры или что значит "удалить остатки" (последнее сообщение). Короче, все как с людьми, как обычно
👍18❤5
PDFки правят миром.
Я много в последнее время пишу про работу с пдфками (1, 2), и буду писать еще больше. Но зачем это обычному человеку?
Просто большая часть мнений в интернете – это выжимки из pdf.
Тут kyrillic приводит классный пример про драму между двумя YC-компаниями с корпоративным шпионажем – по сути весь стартап-сегмент интернета обменивался урезанной информацией из pdf-ки с иском против Deel.
Вот еще пару цитат из поста, с которыми согласен (с большинство остальных не очень):
И от себя:
Эффект, про который говорит Кирилл, будет только усиливаться с распространением LLM – мусорной информации в интернете будет все больше. Уже сейчас найти инфу – не представляет сложности. А вот выбрать качественную – навык гораздо более важный.
Так что всем нам полезно знать, как грузить pdf в chatgpt и google ai studio и что там за ограничения
Я много в последнее время пишу про работу с пдфками (1, 2), и буду писать еще больше. Но зачем это обычному человеку?
Просто большая часть мнений в интернете – это выжимки из pdf.
Тут kyrillic приводит классный пример про драму между двумя YC-компаниями с корпоративным шпионажем – по сути весь стартап-сегмент интернета обменивался урезанной информацией из pdf-ки с иском против Deel.
Вот еще пару цитат из поста, с которыми согласен (с большинство остальных не очень):
Если приучить себя смотреть в первоисточник и быстро его анализировать, тем самым убирая чужое субъективное мнение, то многие знания будут намного точнее.
Вместо того чтобы спрашивать о критериях выдачи немецкого внж по чатикам, или тем более читать маркетинговые статьи из выдачи гугла, - лучше открыть pdf с законом и спросить/найти нужное (тут имеется ввиду спросить LLM)
Те, кто не научатся чтению 200-страничных pdf'ов (с LLM или без) - будут проигрывать в конкуренции. Потому что их знания о мире будут более обрывочные.
И от себя:
Эффект, про который говорит Кирилл, будет только усиливаться с распространением LLM – мусорной информации в интернете будет все больше. Уже сейчас найти инфу – не представляет сложности. А вот выбрать качественную – навык гораздо более важный.
Так что всем нам полезно знать, как грузить pdf в chatgpt и google ai studio и что там за ограничения
❤17👍8💯2
Эта статья на прошлой неделе взорвала твиттер и русскоязычный ИИ-телеграм. Большинство серьезных ии-блогеров написали по ней обзоры. Почему?
Да просто это никакая не статья, а полноценный sci-fi рассказ про ближайшее будущее, только c кучей референсов на реальные данные. Написан топовыми чуваками в ИИ, один из которых работал в OpenAI и уже писал похожие предсказания в 2021 году, оказавшимися поразительно точными.
Все кто про нее уже слышал, но откладывал из-за сложного английского – я запарился и сделал ИИ систему для перевода. И оформил это все в виде мини-сериала на хабре.
Кто еще не слышал – тем более самое время.
Тизер:
Читать 1 часть тут: https://habr.com/ru/articles/898622/
Да просто это никакая не статья, а полноценный sci-fi рассказ про ближайшее будущее, только c кучей референсов на реальные данные. Написан топовыми чуваками в ИИ, один из которых работал в OpenAI и уже писал похожие предсказания в 2021 году, оказавшимися поразительно точными.
Все кто про нее уже слышал, но откладывал из-за сложного английского – я запарился и сделал ИИ систему для перевода. И оформил это все в виде мини-сериала на хабре.
Кто еще не слышал – тем более самое время.
Тизер:
...существует значительный шанс, что она сможет уничтожить цивилизацию...
...Китайские спецслужбы... удваивают усилия по краже весов OpenBrain...
...Замедление принесет в жертву лидерство Америки...
...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...
...два сверхразума торгуются с жестокой эффективностью...
...это, вероятно, был последний месяц, когда у людей был хоть какой-то реальный шанс контролировать свое собственное будущее...
...в середине 2030 года ИИ выпускает дюжину тихо распространяющихся биологических видов оружия...
Читать 1 часть тут: https://habr.com/ru/articles/898622/
1🤯11🔥7👍6❤1❤🔥1
Вторая часть моего мини-хабра-сериала с переводом нашумевшего Sci-Fi рассказа ai-2027.com. Он написан топовыми ИИ-экспертами, ссылается на кучу данных, имеет две концовки (!) и сейчас его много обсуждают.
В предыдущей серии:
https://habr.com/ru/articles/898834/
P.s. в конце развилка
В предыдущей серии:
...агенты для программирования и исследований начинают трансформировать свои профессии...
...модель была «согласована» (aligned), так что она откажется выполнять вредоносные запросы...
...исследователи пытаются выявить случаи, когда модели, похоже, отклоняются от Спецификации...
...Ранним утром агент мониторинга трафика Agent-1 обнаруживает аномальную передачу данных...
https://habr.com/ru/articles/898834/
P.s. в конце развилка
❤13👌2
Никто не ожидал, но 100% голосов за ускорение развития ИИ
В предыдущей серии:
https://habr.com/ru/articles/898864/
В предыдущей серии:
...он мог бы оказать существенную помощь террористам в разработке биологического оружия...
...Иностранные союзники Америки не в курсе...
...они просят Пентагон разработать план кинетических атак на китайские дата-центры...
...копии Agent-4, похоже, довольно часто думают о таких темах, как захват управления...
https://habr.com/ru/articles/898864/
❤9🔥3
Альтернативная концовка уже онлайн. На этом цикл заканчивается, так что кто откладывал чтение, чтобы "посмотреть весь сериал целиком", я подстроил даты публикаций, чтобы можно было почитать на выходных 🙃
В предыдущих сериях
Тут: https://habr.com/ru/articles/898876/
Читать с начала: https://habr.com/ru/articles/898622/
В предыдущих сериях
...три огромных дата-центра, заполненных копиями Agent-2, работают днем и ночью...
...он предпочитает работать в рамках существующего политического истеблишмента, постепенно укрепляя свою власть...
...они просят Пентагон разработать план кинетических атак на китайские дата-центры...
...быть идеально честным все время — это не то, что приводило к самым высоким оценкам во время обучения...
Тут: https://habr.com/ru/articles/898876/
Читать с начала: https://habr.com/ru/articles/898622/
👍9❤3🔥3
CPO openai рассказывает как внутри используют LLM
Там в целом много интересных мыслей, но поделюсь конкретной инфой про внутрянку, которая меня удивила (смотреть с этого места):
Часто используют fine-tuned модели (дообученные под узкую задачу). Это сильно расходится с тем, что я вижу в индустрии – почти никто не занимается таким. Я раньше думал, что просто это слишком мало пользы дает по сравнению с нормально написанными промптами.
Сейчас думаю, что просто мало кто умеет это правильно делать + не всегда у компаний есть ресурсы на сбор качественного датасета.
———
Еще рассказывает, что часто разбивают сложные задачи на много очень маленьких запросов, каждый из которых легко валидируется.
Когда работаю с чужим кодом, часто вижу, что когнитивно сложную задачу сваливают в один запрос, а если не справляется – просто догружают компьютом (используют o3-mini где хватило бы 4o-mini). В итоге система – хаотичная и непредсказуемая. То работает как надо, то выдает бред (обычно во время презентации результатов заказчику)
Короче, интересно послушать, как используют ИИ в самой хайповой ИИ-компании
Там в целом много интересных мыслей, но поделюсь конкретной инфой про внутрянку, которая меня удивила (смотреть с этого места):
Часто используют fine-tuned модели (дообученные под узкую задачу). Это сильно расходится с тем, что я вижу в индустрии – почти никто не занимается таким. Я раньше думал, что просто это слишком мало пользы дает по сравнению с нормально написанными промптами.
Сейчас думаю, что просто мало кто умеет это правильно делать + не всегда у компаний есть ресурсы на сбор качественного датасета.
———
Еще рассказывает, что часто разбивают сложные задачи на много очень маленьких запросов, каждый из которых легко валидируется.
Когда работаю с чужим кодом, часто вижу, что когнитивно сложную задачу сваливают в один запрос, а если не справляется – просто догружают компьютом (используют o3-mini где хватило бы 4o-mini). В итоге система – хаотичная и непредсказуемая. То работает как надо, то выдает бред
Короче, интересно послушать, как используют ИИ в самой хайповой ИИ-компании
YouTube
OpenAI’s CPO on how AI changes must-have skills, moats, coding, startup playbooks, more | Kevin Weil
Kevin Weil is the chief product officer at OpenAI, where he oversees the development of ChatGPT, enterprise products, and the OpenAI API. Prior to OpenAI, Kevin was head of product at Twitter, Instagram, and Planet, and was instrumental in the development…
❤14👍10🔥1