песочница кодИИм

Яндекс и ВШЭ провели масштабное исследование об ИИ в образовании. Мы подготовили для вас краткую выжимку — это очень интересно! 🔍

Исследование целиком читайте по ссылке: education.yandex.ru/aihighreport

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

359 views10:06

песочница кодИИм

Please open Telegram to view this post

VIEW IN TELEGRAM

318 views09:32

песочница кодИИм

Please open Telegram to view this post

VIEW IN TELEGRAM

286 viewsedited 12:04

песочница кодИИм

AI Journey: лекции о будущем технологий👨‍💼

В июне Сбер запускает конференцию AI Journey — масштабное мероприятие о том, как ИИ меняет мир. Нижний Новгород, Санкт-Петербург, Владивосток, Казань и «Сириус» станут точками притяжения для тех, кто интересуется нейросетями и их внедрением в разные отрасли!🚀

На сессиях выступят эксперты из индустрии и науки: поделятся опытом, последними трендами и ключевыми кейсами применения ИИ🤖

Лекцию из Нижнего Новгорода уже можно посмотреть, следующая – 16 июня: aij.ru/lections

📲

Please open Telegram to view this post

VIEW IN TELEGRAM

244 views09:02

песочница кодИИм

0:35

This media is not supported in your browser

VIEW IN TELEGRAM

#машталерпишет

🌏 Сегодня на разборе — PlayDiffusion 1.0 от PlayAI: диффузионная in-painting-модель для точечного редактирования речи без переписывания всей строки. Полезно, когда нужно заменить слово, поправить ударение или подчистить артефакт — и при этом сохранить тембр, ритм и плавность фразы.

Что придумали авторы:

☀️ DCT-кодек → дискретные аудиотокены
  • звуковая дорожка кодируется в компактную последовательность; маскируем только те токены, что требуют правки.

🌑 Non-Causal Masking
  • модифицированный Llama-decoder смотрит одновременно на прошлые, текущие и будущие токены → границы правок сшиваются без «клея».

🌌 Custom BPE 10 K
  • всего 10 000 текстовых токенов — меньше таблица эмбеддингов, больше скорость инференса.

🌌 Speaker Conditioning
  • заранее извлекаем эмбеддинг диктора → голос остаётся узнаваемым на всех исправленных фрагментах.

🚀 Диффузионное восстановление
  1. Стартуем с полностью или частично замаскированной последовательности.
  2. Модель предсказывает токены, оценивает уверенность, ремаскирует самые «сомнительные».
  3. 20 итераций — и чистый аудиопоток готов.

На выходе токены декодируются BigVGAN, возвращая полновесный звук.

Что получилось:

🛰 До ×50 быстрее по количеству шагов генерации (20 итераций вместо 1000 для 20 секунд аудио на 50 Гц).
🔭 Редактирование точечно-гладкое: стыки незаметны, тембр и интонация сохраняются.
🛰 При полной маске модель работает как TTS, но без авторегрессионного «туннеля».

А зачем это всё?
• Лёгкие правки подкастов, диалогов, озвучки игр — без перезаписи дублей.
• Совместимость: справляется и с «живой» речью, и с аудио от сторонних TTS.
• Open source (Apache 2.0) — можно интегрировать в свои пайплайны, обучать на локальных данных и кастомных голосах.

Ссылочки:
Paper📄 | Model🛸 | HF Demo🎧 | GitHub

🐱

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

181 views11:04

песочница кодИИм

Forwarded from Московское образование

160 views13:02

песочница кодИИм

Please open Telegram to view this post

VIEW IN TELEGRAM