#ОбзорГены №2
Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.
{ Свежак }
🔠 Spotify запустил плейлисты, которые собираются по текстовым запросам (пример LLM рекомендательной системы, которую я несколько раз подсвечивал)
🔠 SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке. В частности у них появился GigaAM-Emo для определения эмоций по речи как русскоязычный аналог Hume.ai
🔠 Cohere выпустили Command R+ — прекрасную open-sourse LLM, для которой не нужен супер компьютер (но 2x3090). Вообще Cohere — теневые лидеры в поставке LLM-моделей для RAG-чатботов и других корпоративных решений.
🔠 Теперь ChatGPT может редактировать изображения DALL-E (делать inpainting выделенной области).
{ Пульс }
⚡️ AssemblyAI со своей моделью Universal-1 перехватили пальму первенства по качеству расшифровки аудио в текст
⚡️ Anthropic обнаружили новый способ взлома LLM (с длинным контекстом) — many-shot jailbreaking. Этот прием возник именно из-за длинного контекста.
⚡️ DeepMind представили исследование про генерацию токенов в LLM с разным количеством ресурсов / энергии. Это движение в сторону так называемой "Системы 2", когда LLM будет способна "напрягаться", чтобы спланировать свой ответ и лишь потом его генерировать.
{ Текстуры }
✅ Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
✅ Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
✅ Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
✅ Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.
{ Перекресток мнений }
❓ Позиционирование естественного интеллекта. Присутствие ИИ в определенных задачах (tasks) фрустрирует людей и проблематизирует их место в работе (job). На мой взгляд, у людей возникла путаница между результатом и процессом. ИИ часто обыгрывает человека в определенной задаче по результату, используя совсем не человеческий процесс. Нейросети вообще натренированы на результат с попыткой хакнуть процесс. При этом для ИИ достижим отличный результат далеко не во всех сферах, а еще далеко не всегда результат — это главное. Иногда главное — это присутствие в процессе, для которого самое важное мгновенно оценивать изменяющийся контекст и адекватно на него реагировать.
#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
✅ Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
✅ Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
✅ Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.
{ Перекресток мнений }
#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
Spotify
Spotify Premium Users Can Now Turn Any Idea Into a Personalized Playlist With AI Playlist in Beta
We know that discovery happens on Spotify, with nearly two billion discoveries happening on our platform every day. Features like our AI DJ and daylist power those discoveries and bring fans closer to the artists they love. Now we’re providing our Spotify…
Please open Telegram to view this post
VIEW IN TELEGRAM
#ОбзорГены №7
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
🔠 Вышла true-multimodal модель от OpenAI — GPT-4o. Там столько достойного внимания, что релиз до сих пор распаковывается. Например, новый Data Analysis внутри ChatGPT.
🔠 На конференции Google I/O показали проект Astra: видео-чатбот внутри смартфона или Google Glasses (!). И мно-о-о-го другого, например, music2music модель.
🔠 Microsoft представил концепцию Copilot+PC — того самого более глубокого заземления AI в операционную систему и аппаратное обеспечение, которое все ждут. Другие значимые релизы.
🔠 Suno выпустил audio2audio функцию — то, что позволит лучше контролировать процесс музыкального производства.
{ Пульс }
⚡️ В консоли Claude (аналог OpenAI Platform) появились переменные для кастомизации промптов.
⚡️ Hugging Face, на котором размещают все демки свежих исследований, расширил возможность пользоваться ими бесплатно через Zero GPU.
⚡️ Google в пакете со всем остальным выпустил виртуальную примерочную.
⚡️ Как всегда, сразу же появился системный промпт GPT-4o (для ценителей).
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
❓ GenAI революция vs эволюция. На мой взгляд, революционный потенциал еще высок (в AI-агентах и внедрении в аппаратное обеспечение), однако стало ярко виден эволюционный потенциал — то, как GenAI-продукты планомерно расширяют охват задач и залезают на знакомые территории со своими правилами воркфлоу. Быстрые примеры: GPT-4o вместо умной колонки, Krea / Leonardo вместо фотошопа, AI Data Analysis вместо PowerBI, RAG-чатбот вместо отраслевого поисковика. Везде идет именно эволюционная борьба (можно сказать, естественный отбор 😃): конкуренты перенимают приемы друг друга, защищают core преимущества.
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Две недели прошли под влиянием трех топовых презентаций: OpenAI, Google I/O и Microsoft Build. Остальное чуть померкло, потому что гиганты навалили много, в том числе изумруды.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Говорящий дэшборд и Консистентность в DALL-E — делюсь наблюдениями от работы над двумя проектами.
✅ Список ютуб-канал на тему AI — многое входит и в мой ютуб-сет.
✅ Еще один туториал про запуск LLM локально — правильный навык.
✅ Статья кинокритика Марии Кувшиновой о том, как нейросети стали апостолами сюрреализма.
✅ Воркфлоу по переносу персонажа в любую локацию и видео нового уровня на основе AnimateDiff + Inpainting + After Effect — две роскошных визуальных работы.
✅ Гениальные предметы интерьера, созданные через ИИ-перенос стиля.
{ Находки }
😯 Chatter — новостной голосовой подкаст от Hume.
😯 Off/Script — производство реальных вещей, вдохновленных AI-творчеством.
{ Перекресток мнений }
#llm #promptgramming #analysis #multimodal #music #video #gadget #gpu #fashion #usecases #image #media #production #evolution
Please open Telegram to view this post
VIEW IN TELEGRAM
Первый бенчмарк для video-to-answer
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark
Называется Video-MME. Тестирует мультимодальные нейросети на закрытых тестовых вопросах по содержанию видео. На вход подают кадры и расшифровку, на выходе нейросеть выбирает один из вариантов ответа в тесте. Как я не раз говорил, в этой задаче уверенным лидерством владеет Gemini 1.5. Она на голову сильнее GPT-4(o) за счет своего огромного контекста и очевидно гигантского преимущества из-за возможности обучаться на Youtube-видео.
#video #multimodal #benchmark