Яндекс и ВШЭ провели масштабное исследование об ИИ в образовании. Мы подготовили для вас краткую выжимку — это очень интересно! 🔍
Исследование целиком читайте по ссылке: education.yandex.ru/aihighreport
Исследование целиком читайте по ссылке: education.yandex.ru/aihighreport
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Journey: лекции о будущем технологий👨💼
В июне Сбер запускает конференцию AI Journey — масштабное мероприятие о том, как ИИ меняет мир. Нижний Новгород, Санкт-Петербург, Владивосток, Казань и «Сириус» станут точками притяжения для тех, кто интересуется нейросетями и их внедрением в разные отрасли!🚀
На сессиях выступят эксперты из индустрии и науки: поделятся опытом, последними трендами и ключевыми кейсами применения ИИ🤖
Лекцию из Нижнего Новгорода уже можно посмотреть, следующая – 16 июня: aij.ru/lections📲
В июне Сбер запускает конференцию AI Journey — масштабное мероприятие о том, как ИИ меняет мир. Нижний Новгород, Санкт-Петербург, Владивосток, Казань и «Сириус» станут точками притяжения для тех, кто интересуется нейросетями и их внедрением в разные отрасли!
На сессиях выступят эксперты из индустрии и науки: поделятся опытом, последними трендами и ключевыми кейсами применения ИИ
Лекцию из Нижнего Новгорода уже можно посмотреть, следующая – 16 июня: aij.ru/lections
Please open Telegram to view this post
VIEW IN TELEGRAM
#машталерпишет
🌏 Сегодня на разборе — PlayDiffusion 1.0 от PlayAI: диффузионная in-painting-модель для точечного редактирования речи без переписывания всей строки. Полезно, когда нужно заменить слово, поправить ударение или подчистить артефакт — и при этом сохранить тембр, ритм и плавность фразы.
Что придумали авторы:
☀️ DCT-кодек → дискретные аудиотокены
• звуковая дорожка кодируется в компактную последовательность; маскируем только те токены, что требуют правки.
🌑 Non-Causal Masking
• модифицированный Llama-decoder смотрит одновременно на прошлые, текущие и будущие токены → границы правок сшиваются без «клея».
🌌 Custom BPE 10 K
• всего 10 000 текстовых токенов — меньше таблица эмбеддингов, больше скорость инференса.
🌌 Speaker Conditioning
• заранее извлекаем эмбеддинг диктора → голос остаётся узнаваемым на всех исправленных фрагментах.
🚀 Диффузионное восстановление
1. Стартуем с полностью или частично замаскированной последовательности.
2. Модель предсказывает токены, оценивает уверенность, ремаскирует самые «сомнительные».
3. 20 итераций — и чистый аудиопоток готов.
На выходе токены декодируются BigVGAN, возвращая полновесный звук.
Что получилось:
🛰 До ×50 быстрее по количеству шагов генерации (20 итераций вместо 1000 для 20 секунд аудио на 50 Гц).
🔭 Редактирование точечно-гладкое: стыки незаметны, тембр и интонация сохраняются.
🛰 При полной маске модель работает как TTS, но без авторегрессионного «туннеля».
А зачем это всё?
• Лёгкие правки подкастов, диалогов, озвучки игр — без перезаписи дублей.
• Совместимость: справляется и с «живой» речью, и с аудио от сторонних TTS.
• Open source (Apache 2.0) — можно интегрировать в свои пайплайны, обучать на локальных данных и кастомных голосах.
Ссылочки:
Paper📄 | Model🛸 | HF Demo🎧 | GitHub 🐱
Что придумали авторы:
• звуковая дорожка кодируется в компактную последовательность; маскируем только те токены, что требуют правки.
• модифицированный Llama-decoder смотрит одновременно на прошлые, текущие и будущие токены → границы правок сшиваются без «клея».
• всего 10 000 текстовых токенов — меньше таблица эмбеддингов, больше скорость инференса.
• заранее извлекаем эмбеддинг диктора → голос остаётся узнаваемым на всех исправленных фрагментах.
1. Стартуем с полностью или частично замаскированной последовательности.
2. Модель предсказывает токены, оценивает уверенность, ремаскирует самые «сомнительные».
3. 20 итераций — и чистый аудиопоток готов.
На выходе токены декодируются BigVGAN, возвращая полновесный звук.
Что получилось:
А зачем это всё?
• Лёгкие правки подкастов, диалогов, озвучки игр — без перезаписи дублей.
• Совместимость: справляется и с «живой» речью, и с аудио от сторонних TTS.
• Open source (Apache 2.0) — можно интегрировать в свои пайплайны, обучать на локальных данных и кастомных голосах.
Ссылочки:
Paper📄 | Model
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM