Forwarded from Ученый без степени | AI-блог Ани
Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁18🤣8👍2🌚2🔥1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
❤14⚡4❤🔥4🍌1
Den4ik Research
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200…
А я видел как он не спал сутками и сходил с ума, чтобы успеть релизнуть в августе. Все это будучи школьником в 16 лет.
СКИДЫВАЕМ 1000 НА ШТОРЫ ДЕНИСУ:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
https://www.tbank.ru/cf/7WKnNMqWtOx
СКИДЫВАЕМ 1000 НА ШТОРЫ ДЕНИСУ:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
https://www.tbank.ru/cf/7WKnNMqWtOx
Т‑Банк
Сбор на другое
Деньги собирает Денис П..
🤯14⚡3👍3🔥2😢1
Forwarded from Институт AIRI
Все лекции и семинары «Лето с AIRI 2025» теперь в открытом доступе 🔥
Собрали для вас записи выступлений ведущих исследователей и экспертов — от фундаментальных вопросов искусственного интеллекта до практических примеров его применения в науке и индустрии.
📎 Сохраняйте ссылки на плейлисты: VK Видео, YouTube
Собрали для вас записи выступлений ведущих исследователей и экспертов — от фундаментальных вопросов искусственного интеллекта до практических примеров его применения в науке и индустрии.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥4🍓3
Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)
На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.
Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff
Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.
На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.
Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0
Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ
#audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Лекция. Аудио кодеки. Часть 1
Занятие ведёт Захар Варфоломеев
Ссылка на материалы занятия:
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре…
Ссылка на материалы занятия:
---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре…
🔥11❤8✍3👍3🍓1
VF | Science
Ноутбук для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄
Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ.
Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity по кодбуку (покажет насколько равномерно используются коды) или утилизацию кодов на разных уровнях/на первом. Или попробовать другую простенькую задачу и посмотреть как интерпретируются уровни RVQ, вероятно на разных уровнях содержится разная семантика/смысл.
https://colab.research.google.com/drive/1L6sTCrpdxybkSOOrc4G2E4AuRnQLWZQj#scrollTo=cHGzcgj8oRVi
Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ.
Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity по кодбуку (покажет насколько равномерно используются коды) или утилизацию кодов на разных уровнях/на первом. Или попробовать другую простенькую задачу и посмотреть как интерпретируются уровни RVQ, вероятно на разных уровнях содержится разная семантика/смысл.
https://colab.research.google.com/drive/1L6sTCrpdxybkSOOrc4G2E4AuRnQLWZQj#scrollTo=cHGzcgj8oRVi
Google
Copy of Копия блокнота
Colab notebook
👍6❤3
Forwarded from Ученый без степени | AI-блог Ани
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5
VF | Science
12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML
Пишите/заходите на огонек, запись будет на ютубе у Сергея
Пишите/заходите на огонек, запись будет на ютубе у Сергея
🔥14❤10 3🥴1
VF | Science
12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML Пишите/заходите…
Очень я рад, именно лекции Сергея Николенко дали мне лучшую теорию и погружение в математику ML. Безусловно этот человек мой кумир. Очень классно совмещает знание истории и математики в своих лекциях. Впрочем, Сергей чемпион мира по ЧГК и автор множества книг :)
👍12🔥9⚡7
Forwarded from Sinекура
Доклад вчера, кстати, безусловно удался. Большое спасибо Захару, он отлично подготовился, и этот семинар уже точно будет частью курса DL в этом году.)
Спасибо всем, кто пришёл, ну а дальше будет опять something completely different...
Спасибо всем, кто пришёл, ну а дальше будет опять something completely different...
❤🔥19💘5🍾4 1
В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов (https://www.songsterr.com/) — наш основной продукт, которым ежемесячно пользуются миллионы.
Мы работаем над сложными задачами в ML, включая разработку моделей для автоматической транскрипции музыки. Наши модели уже успешно создают табулатуры из аудио — вот пример результата (https://www.youtube.com/watch?v=rM4nAZOJoTQ). Это лишь часть наших проектов в области AI и музыки.
Требуемые навыки:
• Разработка и оптимизация DL-моделей, внедрение в прод
• Глубокое знание современных DL-архитектур
• Опыт тренировки на multi-GPU, оптимизация гиперпараметров
• Работа с грязными user-generated датасетами: фильтрация, очистка
• Желательно: аудиообработка и music information retrieval
Стек:
• Python + PyTorch
• Accelerate/DeepSpeed/W&B
Проекты завязаны на музыке и обучении — интерес к темам плюс. Главное — умение выдавать результат.
Условия:
• Полностью удалёнка, ставка от $9900/mo gross.
• Оформление на контракт, можно из РФ/РБ.
• Предпочитаем фулл-тайм, но график гибкий, сами выбираете когда работать. Хотите больше — допчасы с пропорциональной оплатой. В годовой уже ставке учтены месяц отпуска, 7 дней больничных, 14 праздников и компенсация техники, потому отдельно не оплачиваются.
Процесс отбора:
• Код-тест
• Фидбек по тесту от нас
• Если все ок — оплачиваемое тестовое (испытательный срок парт-тайм): реальная задача, график свободный, можно совмещать с текущей работой — никаких рисков
Связь: @rammusin
Мы работаем над сложными задачами в ML, включая разработку моделей для автоматической транскрипции музыки. Наши модели уже успешно создают табулатуры из аудио — вот пример результата (https://www.youtube.com/watch?v=rM4nAZOJoTQ). Это лишь часть наших проектов в области AI и музыки.
Требуемые навыки:
• Разработка и оптимизация DL-моделей, внедрение в прод
• Глубокое знание современных DL-архитектур
• Опыт тренировки на multi-GPU, оптимизация гиперпараметров
• Работа с грязными user-generated датасетами: фильтрация, очистка
• Желательно: аудиообработка и music information retrieval
Стек:
• Python + PyTorch
• Accelerate/DeepSpeed/W&B
Проекты завязаны на музыке и обучении — интерес к темам плюс. Главное — умение выдавать результат.
Условия:
• Полностью удалёнка, ставка от $9900/mo gross.
• Оформление на контракт, можно из РФ/РБ.
• Предпочитаем фулл-тайм, но график гибкий, сами выбираете когда работать. Хотите больше — допчасы с пропорциональной оплатой. В годовой уже ставке учтены месяц отпуска, 7 дней больничных, 14 праздников и компенсация техники, потому отдельно не оплачиваются.
Процесс отбора:
• Код-тест
• Фидбек по тесту от нас
• Если все ок — оплачиваемое тестовое (испытательный срок парт-тайм): реальная задача, график свободный, можно совмещать с текущей работой — никаких рисков
Связь: @rammusin
Songsterr Tabs with Rhythm
Guitar Tabs with Rhythm | Songsterr
Access over 1 million guitar, bass, and drum tabs with free play-along original audio. Create accurate tabs from YouTube links using advanced AI technology.
🍓7🔥6🤯4⚡1👀1
VF | Science
В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов (https://www.songsterr.com/) — наш основной продукт, которым ежемесячно пользуются миллионы.…
Мои друзья в поиске MLщиков, ребята тоже делают транскрипцию музыки и много чего еще, попробуйте податься!) Мои доклады и посты в помощь 🤭
❤7🔥4
Forwarded from Audio2MIDI Channel
Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства
В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне💯
Мы продолжаем развитие сервиса и уже внедряем улучшения, чтобы вывести конвертацию аудио в MIDI на новый уровень. Спасибо за ваше доверие❤️
——————
Audio2MIDI has entered the TOP 100 of the University Technological Entrepreneurship Platform ranking.
In 2025, over 2,300 teams from across Russia applied for the selection, and our project immediately made it into the top hundred 💯
We continue to develop the service and are already implementing improvements to take audio-to-MIDI conversion to the next level. Thank you for your trust ❤️
В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне
Мы продолжаем развитие сервиса и уже внедряем улучшения, чтобы вывести конвертацию аудио в MIDI на новый уровень. Спасибо за ваше доверие
——————
Audio2MIDI has entered the TOP 100 of the University Technological Entrepreneurship Platform ranking.
In 2025, over 2,300 teams from across Russia applied for the selection, and our project immediately made it into the top hundred 💯
We continue to develop the service and are already implementing improvements to take audio-to-MIDI conversion to the next level. Thank you for your trust ❤️
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥20👍6🔥4🆒2 2
Audio2MIDI Channel
Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне 💯 Мы продолжаем развитие сервиса и уже внедряем…
Позвольте похвастаться
💯16🙏9😁3🍾3🏆1
VF | Science
Продолжайте следить за каналом, потому что цели на 2025: ✔️ Понять какие цели и пути мне реально важны)) *️⃣ Научиться грамотно распределять время и свои ресурсы *️⃣ Расширять свои знания и навыки за пределы аудио ML *️⃣ Сделать 100+ классных постов и стримов…
Штош, что то достиг, другое отодвинул ибо переосмыслил и стало неважно, третье не успел. Но вообще, недурно 👍
Даже слишком быстро все пошло, я даже не понимаю, что достигать дальше, отделено от выполненных целей. Будто бы делать качественнее и преумножать то, что есть. Но все же выделю несколько новых. После праздников🥳
Даже слишком быстро все пошло, я даже не понимаю, что достигать дальше, отделено от выполненных целей. Будто бы делать качественнее и преумножать то, что есть. Но все же выделю несколько новых. После праздников
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥3🤝3
VF | Science
Продолжайте следить за каналом, потому что цели на 2025: ✔️ Понять какие цели и пути мне реально важны)) *️⃣ Научиться грамотно распределять время и свои ресурсы *️⃣ Расширять свои знания и навыки за пределы аудио ML *️⃣ Сделать 100+ классных постов и стримов…
Цель номер 2 остается и горит 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1💯1🤝1
А писать посты с разборами статей как то приелось, также есть нейронки, да и хочется делиться тем, что я знаю на практике длиною в год и более. Я в этом году много говорил про кодеки и авторегрссию в домене аудио (музыка, речь). Дальше будет порционно что-то иное, в течение года.
Я просто выложу список самых интересных и ценных работ.
По вопросам моей деятельности/таким-то инсайдам всегда можете обращаться в коменты/лс.
С наступающим, всех благ!)
Я просто выложу список самых интересных и ценных работ.
По вопросам моей деятельности/таким-то инсайдам всегда можете обращаться в коменты/лс.
С наступающим, всех благ!)
2❤11👍5🔥3