#ОбзорГены №2
Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.
{ Свежак }
🔠 Spotify запустил плейлисты, которые собираются по текстовым запросам (пример LLM рекомендательной системы, которую я несколько раз подсвечивал)
🔠 SberDevices представили Giga Acoustic Model — семейство моделей для обработки звучащей речи, обученных на русском языке. В частности у них появился GigaAM-Emo для определения эмоций по речи как русскоязычный аналог Hume.ai
🔠 Cohere выпустили Command R+ — прекрасную open-sourse LLM, для которой не нужен супер компьютер (но 2x3090). Вообще Cohere — теневые лидеры в поставке LLM-моделей для RAG-чатботов и других корпоративных решений.
🔠 Теперь ChatGPT может редактировать изображения DALL-E (делать inpainting выделенной области).
{ Пульс }
⚡️ AssemblyAI со своей моделью Universal-1 перехватили пальму первенства по качеству расшифровки аудио в текст
⚡️ Anthropic обнаружили новый способ взлома LLM (с длинным контекстом) — many-shot jailbreaking. Этот прием возник именно из-за длинного контекста.
⚡️ DeepMind представили исследование про генерацию токенов в LLM с разным количеством ресурсов / энергии. Это движение в сторону так называемой "Системы 2", когда LLM будет способна "напрягаться", чтобы спланировать свой ответ и лишь потом его генерировать.
{ Текстуры }
✅ Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
✅ Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
✅ Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
✅ Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.
{ Перекресток мнений }
❓ Позиционирование естественного интеллекта. Присутствие ИИ в определенных задачах (tasks) фрустрирует людей и проблематизирует их место в работе (job). На мой взгляд, у людей возникла путаница между результатом и процессом. ИИ часто обыгрывает человека в определенной задаче по результату, используя совсем не человеческий процесс. Нейросети вообще натренированы на результат с попыткой хакнуть процесс. При этом для ИИ достижим отличный результат далеко не во всех сферах, а еще далеко не всегда результат — это главное. Иногда главное — это присутствие в процессе, для которого самое важное мгновенно оценивать изменяющийся контекст и адекватно на него реагировать.
#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Неделька выдалась мультимодальной, необычно много внимания привлекли аудио-музыкальные модели.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Туториал для Suno v3 (лучшей text2musiс модели) от "эйай ньюз".
✅ Нерешаемая задачка для ChatGPT, которую решили за 3 суток — первоначальная неразрешимость задачи предполагалась в сложной алгоритмичности и решении на уровне отдельных символов, но это не преграда для умелых промпт-инженеров.
✅ Общение с реализовавшимся сценарием футуролога — мастерство промптинга в действии.
✅ Краткая шпаргалка по блокам лендинга — заготовка для ChatGPT, чтобы быстро собрать веб-страницу.
{ Перекресток мнений }
#multimodal #llm #audio #music #image #dalle #recommend #tutorial #jailbreaking #promptgramming
Please open Telegram to view this post
VIEW IN TELEGRAM
Spotify
Spotify Premium Users Can Now Turn Any Idea Into a Personalized Playlist With AI Playlist in Beta
We know that discovery happens on Spotify, with nearly two billion discoveries happening on our platform every day. Features like our AI DJ and daylist power those discoveries and bring fans closer to the artists they love. Now we’re providing our Spotify…
#ОбзорГены №8
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
🔠 Apple наконец внедрил AI в iPhone, пожалуй, самая сильная фича — голосовое управление приложениями.
🔠 Случилось аж два мощных релиза среди видеогенераторов: Kling и Luma. Последние очевидно используют свое лидерство в 3D.
🔠 Выложили веса Stable Diffusion 3 Medium — культовой визуальной нейросетки для сообщества. Полный open-source уходит в прошлое.
🔠 Anthropic запустил AI-агентов на базе чат-бота Claude.
🔠 Eleven Labs теперь генерирует любые звуки, не только речь.
{ Пульс }
⚡️ У Udio появился Audio2Audio режим. Режим редактирования — это первый шаг к полной адаптации новой технологии.
⚡️ В мире анимации фурор вызвала межкадровая интерполяция от ToonCrafter. Посмотрите сами.
⚡️ Окончательное решение вопроса с джейлбрейкерами: близко к тому, чтобы мошенничество с LLM пресекалось на уровне нейронов.
⚡️ В мире животных: учёные принялись за распознание лая собак.
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
❓ С чего начать? Apple на этой неделе выступил не как технологический лидер, а как отраслевой гигант, которого конкуренция вынудила внедрить AI. Другие крупные компании ощущают себя схоже: AI не угрожает их положению на рынке, а вот конкуренты с глубоко внедренным AI угрожают. Если присмотреться к тому, что именно внедряют корпорации, то можно увидеть "консервативный" AI: суммаризация, перевод, генерация картинок, общение с документом. Топ-4 для старта.
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Две добротные недели. Всё крутится, всё движется.
{ Свежак }
{ Пульс }
{ Текстуры }
✅ Грядет Action Engine — центр интернета действий
✅ Анализ емкости данных для обучения ИИ — данные закончились или ещё есть?
✅ Гайд, как использовать GPT-Vision для настоящего OCR
✅ Как достать любой кастомный промпт из GPT?
✅ Обзор российских агрегаторов ботов (без vpn)
✅ AI-инструменты для маркетинга
✅ "Панельск" — прекрасный художественный проект, берущий сок из множества нейросетей
✅ Актуальная цитата из Стругацких
{ Находки }
😯 Два сервиса по дешёвой аренде GPU: GPUDeploy и Vast.
{ Перекресток мнений }
#gadget #image #video #aiagent #audio #speech #llm #science #animation #marketing #data #gpu #vision #prompts
Please open Telegram to view this post
VIEW IN TELEGRAM