песочница кодИИм
972 subscribers
758 photos
26 videos
1 file
235 links
Здесь про искусственный интеллект для подростков.

С любовью от команды Центра педагогического мастерства и ФПМИ МФТИ 💖🧑🏼‍💻

Наш сайт: кодиим.цпм.рф
Мы на Yappy: http://yappy.media/n/kodiim
Все вопросы (предложения, комментарии): project@cpm.moscow
Download Telegram
Яндекс и ВШЭ провели масштабное исследование об ИИ в образовании. Мы подготовили для вас краткую выжимку — это очень интересно! 🔍

Исследование целиком читайте по ссылке: education.yandex.ru/aihighreport
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
AI Journey: лекции о будущем технологий👨‍💼

В июне Сбер запускает конференцию AI Journey масштабное мероприятие о том, как ИИ меняет мир. Нижний Новгород, Санкт-Петербург, Владивосток, Казань и «Сириус» станут точками притяжения для тех, кто интересуется нейросетями и их внедрением в разные отрасли!🚀

На сессиях выступят эксперты из индустрии и науки: поделятся опытом, последними трендами и ключевыми кейсами применения ИИ🤖

Лекцию из Нижнего Новгорода уже можно посмотреть, следующая – 16 июня: aij.ru/lections 📲
Please open Telegram to view this post
VIEW IN TELEGRAM
#машталерпишет

🌏 Сегодня на разборе — PlayDiffusion 1.0 от PlayAI: диффузионная in-painting-модель для точечного редактирования речи без переписывания всей строки. Полезно, когда нужно заменить слово, поправить ударение или подчистить артефакт — и при этом сохранить тембр, ритм и плавность фразы.


Что придумали авторы:

☀️ DCT-кодек → дискретные аудиотокены
  • звуковая дорожка кодируется в компактную последовательность; маскируем только те токены, что требуют правки.

🌑 Non-Causal Masking
  • модифицированный Llama-decoder смотрит одновременно на прошлые, текущие и будущие токены → границы правок сшиваются без «клея».

🌌 Custom BPE 10 K
  • всего 10 000 текстовых токенов — меньше таблица эмбеддингов, больше скорость инференса.

🌌 Speaker Conditioning
  • заранее извлекаем эмбеддинг диктора → голос остаётся узнаваемым на всех исправленных фрагментах.

🚀 Диффузионное восстановление
  1. Стартуем с полностью или частично замаскированной последовательности.
  2. Модель предсказывает токены, оценивает уверенность, ремаскирует самые «сомнительные».
  3. 20 итераций — и чистый аудиопоток готов.

На выходе токены декодируются BigVGAN, возвращая полновесный звук.


Что получилось:

🛰 До ×50 быстрее по количеству шагов генерации (20 итераций вместо 1000 для 20 секунд аудио на 50 Гц).
🔭 Редактирование точечно-гладкое: стыки незаметны, тембр и интонация сохраняются.
🛰 При полной маске модель работает как TTS, но без авторегрессионного «туннеля».


А зачем это всё?
• Лёгкие правки подкастов, диалогов, озвучки игр — без перезаписи дублей.
• Совместимость: справляется и с «живой» речью, и с аудио от сторонних TTS.
• Open source (Apache 2.0) — можно интегрировать в свои пайплайны, обучать на локальных данных и кастомных голосах.

Ссылочки:
Paper📄 | Model🛸 | HF Demo🎧 | GitHub 🐱
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM