{AI} love you | Нейросет
284 subscribers
89 photos
16 videos
88 links
Авторский канал о prompt-gramming.
Гайды, разборы, ревью, рекомендации и личные инсайты о нейросетях.

Автор — @troclap
____________
Курс "ChatGPT в работе"
на Stepik: https://stepik.org/a/200358
на GetCourse: https://ailoveyou.getcourse.ru/gpt-assistant
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
👆 Яркая визуализация падения ChatGPT-3.5 (началось в декабре и закончилось к марту).

Telegram-источник

#llm #leaderboard
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №5

Относительно скромный период в плане релизов, хотя не без громких утечек. И все равно масса интересного.

{ Свежак }

🔠 GPT-5 (или около того) появилась на чатбот арене под загадочным названием gpt2.
🔠 Релиз нового поколения ИИ-аватаров от Synthesia (конкурента HeyGen).
🔠 Вышла версия LLaMA-3-8B (легковесная) с контекстным окном в 1 миллион токенов (!), как у Gemini 1.5.
🔠 Китайский генератор видео Vidu первым приблизился к качеству, заданному Sora от OpenAI.

{ Пульс }

⚡️ Медицинская модель OpenBioLLM 70B вышла на первое место по тестам на медицинских задачах (даже выше GPT-4).
⚡️ LMSYS разработали новый бенчмарк Arena Hard v0.1 на основе анализа пользовательских запросов на Chatbot Arena.
⚡️ Складывается новый тип устойчивых моделей — генерация изображения человека по одному (!) обучающему фото. Новая модель из этого класса — Consistent ID.
⚡️ Аналогичная ситуация в виртуальных примерочных (одеть человека в заданную одежду), качество моделей растет. Две новые — IDM-VTON и Magic Clothing.
⚡️ По-настоящему важно: прорыв в редактировании человеческого ДНК с помощью ИИ.

{ Текстуры }

ChatGPT-3.5 всё — пора пользоваться другими LLM.
Разбор продакшена нашумевшего ИИ-видео Air Head (при участии Sora). Спойлер: остается много человеческого труда.
Тренды в GenAI от Степана Гершуни.
Marques Brownlee разносит второе AI-based носимое устройство, на этот раз Rabbit R1.
Исследование «Яков и Партнёры» о влиянии GenAI в горно-металлургической отрасли.

{ Находки }

😯 ImgSys — арена для сравнения разных файнтюнов Stable Diffusion моделей.
😯 Speechmatics — лучшая speech-to-text модель, судя по бенчмаркам.
😯 Shadow — сервис по аренде облачного ПК с мощным GPU (до 16 ГБ VRAM).

{ Перекресток мнений }

Цикл обновления GenAI. Несмотря на постоянное FoMO в GenAI, на мой взгляд, сложились четкие циклы. За один год базовая модель устаревает (сменяется поколение моделей), каждые три месяца — происходит значимый шаг вперед. Это всё применимо только для тех классов моделей, которые прошли свой "ChatGPT-момент" (X), то есть массовая аудитория почувствовала и научилась извлекать ценность технологии. По ту сторону X сейчас: LLM, RAG-чатботы, Code Interpretator, VLM (Vision-модели), генерация / restyle / inpainting / upscale изображения, depth-анимация, расшифровка речи, TTS (синтез речи), генерация музыки и их композ. Всё.

#llm #text #ai_avatar #video #med #benchmark #consistent #clothes #video #trend #device #image #speech #gpu
Please open Telegram to view this post
VIEW IN TELEGRAM
Маркетинговые LLM-опросы

Банальная идея — использовать LLM как респондентов на всевозможных опросах — почему-то незаслуженно игнорируется. Возможно за банальностью, возможно из-за "отсутствия субъектности" у чатботов их мнение само по себе неинтересно. За этим всем упускают тот факт, что LLM — интересный респондент со своим искаженно объективным мнением после прочтения всего интернета и обучения с учителем 😃

Слегка зашел на территорию ютуберов: сделал яркую обложку и придумал подводку к видеоразбору этого кейса. Сам разбор записан в рамках вебинара из курса "ChatGPT в работе", где мы разбираем такие и многие другие полезные юзкейсы языковых нейросеток. Накопилось много отснятого материала, который хочется вынести наружу. Темп повествования на вебинаре не такой бойкий, как в видеоуроках, зато есть спонтанные моменты, в которые проникают интересные мысли. Напишите в комментах здесь или на ютубе, как вам? выпускать такие ролики дальше? если да, накидайте свои кейсы.

Возвращаясь к теме, на мой взгляд, в 2024-м должно появиться research-агентство, которое станет специализироваться на LLM-опросах, необязательно только маркетинговых, но и социологических в целом тоже.

#llm #usecase #research #marketing #youtube
Дополнение к циклам обновления GenAI

Четкие циклы обновлений и крупных релизов сложились не спонтанно, а являются намеренной политикой провайдеров моделей. В недавнем выступлении Sam Altman несколько раз подчеркивает, что видит ценность в постепенном улучшении моделей, а не скачками (грубо говоря от GPT-4 к GPT-5). Все в индустрии понимают, что находятся на восходящем тренде, и приучают к этому потребителей моделей, чтобы не шокировать общественность.

Новое поколение: раз в 1-1,5 года (очень дорогое удовольствие, от $10M)
Значимый апгрейд: каждые 3 месяца (чаще либо не получается, либо считают ненужным)

#llm #text #cycle
Please open Telegram to view this post
VIEW IN TELEGRAM
Radiowave girls 🖤

Красоту в студию. AI боженька в смешении стилей. Взято отсюда.

#image #midjourney #restyle
#ОбзорГены №6

Многое из того, что попало в эту подборку, быстро исчезнет из внимания, потому что наступившая неделя должна принести новости, которые "перевернут игру".

{ Свежак }

🔠 Prompt Generator от Claude: лучшая попытка автоматизации промпт-инжиниринга.
🔠 Adobe выкатили конструктор изометрических 3D-сцен Project Neo. Один из лучших юзкейсов — создание референсов для генерации пейзажных сцен.
🔠 ElevenLabs снова всех уделал в звуке, представив свой txt2music. Udio по вокалу бил Suno, а ElevenLabs бьет Udio.
🔠 Bernini: 3D генератор от Автодеска. Генерация 3D подбирается к промышленности.
🔠 Компания Gradient выпустила LLaMA-3-8B с 4M (!!) контекстным окном. Ну, о-о-очень много.
🔠 Google представил ScreenAI для работы с UX продукта. Шаг в сторону LAM (large action model).
🔠 Gazelle — первая open source VoiceToLLM модель. Врата, которые раскрыла модель Hume и в которые похоже попадет сегодняшний релиз от OpenAI.

{ Пульс }

⚡️ LLaMA-3-70B бьет топов в креативных задачах (поэзия и проза, брейншторминг), но проигрывает в сложных (математика, перевод, суммаризация).
⚡️ Чат-бот gpt2 сделал клон игры Flappy Bird по zero-shot промпту.
⚡️ Учет лёгких планеты: все 50 млн км лесов с точностью до 1 метра в высоту и с разрешением в каждое дерево.
⚡️ ML-модель позволила расшифровать алфавит кашалотов.
⚡️ Исследование физических свойств предметов в ИИ-реальности.
⚡️ Ученые из Мэрилэнда изобрели мантию-невидимку, которая скрывается от Computer Vision моделей.

{ Текстуры }

Кейс про маркетинговые LLM-опросы — нетривиальное решение очевидной задачи.
Отличная подборка LLM-кейсов от Леши Хахунова и Димы Мацкевича.
"Превзойдет ли цифровой интеллект биологический?" — лекция от Jeoffrey Hinton с важными идеями.
30+ легендарных статей от Ильи Суцкевера, которые помогут разобраться во всём (!)
Обзор рынка: число AI-стартапов в мире, применение GenAI в России, топ-100 LLM в одной таблице, самая масштабная карта MAD-рынка и перевернутая структура прибыльности GenAI-индустрии.
Ролик, в котором девушка (не) шутит про то, что усердно работает для того, чтобы ее муж мог позволить себе терять по $30тыс в месяц на своем AI-стартапе.

{ Находки }

😯 Cleanlab — LLM-чатбот с проверкой надежности ответов.
😯 Recraft — пока лучший сервис для векторизации и генерации векторных изображений.
😯 WebCamMotionCapture — софт для стилизации вебкам-трансляций.

{ Перекресток мнений }

Inpainting / Restyling / Evaluation. Самая частая претензия к GenAI-креативам в тексте / картинке / музыке / видео — это отсутствие привычного творческого контроля. По мере того, как новая модальность пробивает порог массовости применения, становится заметно, что в GenAI-пайплайнах есть своя форма творческого контроля, которая отличается от до-генеративного. Музыкальный генератор Udio вот-вот внедрил Audio Inpainting, знакомый по картинкам и видео. В изображениях Inpainting и Control Net уже серьезно перевернули процесс, создав феноменальные ComfyUI-пайплайны. Компонент, которого мне пока не хватает нигде — это Evaluation. Сейчас его выполняет человеческий вкус, и превосходный AI-креатив выходит от людей с безупречным вкусом.

#llm #promptgramming #3d #lam #speech #review #gamedev #ecology #stem #cv #marketing #usecase #map #rag #vector #restyle #video #inpainting
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI показали крошки от того, на что новая модель GPT-4o способна. В демо сконцентрировались на голосовом общении (впечатляющем!), но посмотрите, что случилось с визуалом 👆:
— генерация рукописного текста
— идеальная передача печатного текста
— наконец, инфографика ✔️
— брендирование (перенос лого из входного изображения)
— генерация 3D на основе 6 консистентных изображений 👇🏻

Первая true-multimodal модель, где на вход и на выход подаются все модальности, с которыми нейросети вообще справляются. Плюс на стыке модальностей очевидно возникли новые способности, которых не было у mono-modal моделей по отдельности. В очередной раз OpenAI выпустили лидирующую general use модель.

#openai #speech #image #3d #vision #consistency
Главная интрига для меня: как скажется более оптимальный мультиязычный токенизатор на генерацию текста по-русски?

Именно старый токенизатор отвечал за большую часть отставания в качестве генерации на русском языке в отличие от английского. Это было критично, например, для SEO-статей.

Первые результаты (у меня уже появился доступ к GPT-4o) впечатляют. Качество русскоязычного текста заметно улучшилось. Ушли словесный мусор и безудержные эпитеты.

Еще нужно тестировать, но кажется скоро рунет резко заполнится AI-текстом.

#llm #text
Google привычно скорее разочаровывает нежели очаровывает. OpenAI раз за разом их обыгрывает медийно и по перформансу моделей. Сломать эту тенденцию не получается.

Но когда на презентации слово "AI" звучит 120 раз, то парочка выстрелов всегда в яблочко. На мой взгляд, есть две пользовательские сферы, в которых у Google все шансы всех обыграть:
1. Персонализация AI-чатбота (за счет того, что Google уже знает о вас).
2. Внутрикадровый AI-поиск в Youtube (есть мнение, что он придет на смену Google-поиску).

И то, и другое упоминалось вчера, без особых акцентов. Для первого уже есть NotebookLM, для второго Google AI Studio. У обоих beta-проектов есть очевидные достоинства, и они недооценены. Странно, что Google не может расставить акценты и грамотно пропиарить успешные решения.

#release #text #video #rag
Please open Telegram to view this post
VIEW IN TELEGRAM