VF | Science – Telegram

VF | Science

1.05K subscribers

218 photos

23 videos

2 files

87 links

Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь)

Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий.

Автор: @varfolomeefff

Download Telegram

About

Blog

Apps

Platform

1.05K subscribers

Ну, все, следующий типа полезный пост через месяц, автор устал

🏆11💋4

1.44K views15:46

Forwarded from Ученый без степени | AI-блог Ани

☕️На канале 3Blue1Brown вышло новенькое гостевое видео от Стивена Уэлша (📺Welsh Labs), в котором он рассказывает (конечно же, в сопровождении крутых и наглядных визуализаций), как работают системы генерации видео из текста

🔗

But how do AI videos actually work?

Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного

💻 Приятного просмотра!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10

1.56K views15:08

Знаю все типы людей 😆
А кто вы?

Please open Telegram to view this post

VIEW IN TELEGRAM

😁18🤣8👍2🌚2🔥1

1.46K viewsedited 19:25

Forwarded from Den4ik Research

This media is not supported in your browser

VIEW IN TELEGRAM

This media is not supported in your browser

VIEW IN TELEGRAM

Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx

❤14⚡4❤‍🔥4🍌1

946 views16:55

Den4ik Research

Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200…

А я видел как он не спал сутками и сходил с ума, чтобы успеть релизнуть в августе. Все это будучи школьником в 16 лет.

СКИДЫВАЕМ 1000 НА ШТОРЫ ДЕНИСУ:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
https://www.tbank.ru/cf/7WKnNMqWtOx

Сбор на другое

Деньги собирает Денис П..

🤯14⚡3👍3🔥2😢1

1.35K viewsedited 17:40

Forwarded from Институт AIRI

Все лекции и семинары «Лето с AIRI 2025» теперь в открытом доступе 🔥

Собрали для вас записи выступлений ведущих исследователей и экспертов — от фундаментальных вопросов искусственного интеллекта до практических примеров его применения в науке и индустрии.

📎

Сохраняйте ссылки на плейлисты: VK Видео, YouTube

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9🔥4🍓3

2.04K views11:44

👀 Про аудио кодеки в Deep Learning School

Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :)

На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели специфические для них проблемы и способы их решения — такие как недифференцируемость в процессе обучения, коллапс кодовой книги, неэффективное покрытие домена и недостаточная репрезентативность для последующих задач. Отметили тенденции в современных исследованиях, разобрали конкретные примеры актуальных аудиокодеков и подумали, как можно объединить существующие подходы для обучения собственного кодека, потенциально превосходящего текущие решения. В завершение поговорили о практических рекомендациях по обучению кодеков и дополнительной литературе по теме.

Лекцию сделал без глубокого погружения в конкретные работы, зато мы обсудили гораздо больше других мыслей и сохранили интуицию по самым важным идеям и проблемам VQ-VAE моделей. Хотелось сделать лецию с упором на актуальные идеи и дать ровно столько, чтобы вы могли решить, куда стоит углубиться самостоятельно, имея фундамент заложенный после просмотра. Пишите возникающие вопросы в чат курса DLS или мне @varfolomeefff

Предлагаю посмотреть и поделиться мнением под постом. Давно я длинные лекции не читал.

На днях выделю особенно интересные тезисы из лекции в канал и обсужу их. Интуиция на леции правда животрепещущая и есть, о чем поспорить/подумать.

Часть 1: https://youtu.be/4mVfb-mhv9k?si=k9Q2wgtsA1h2DcP0

Часть 2: https://youtu.be/kOS6qHc6K2g?si=Po-jHSLwpeO5LmkZ

#audio #perfomances

Please open Telegram to view this post

VIEW IN TELEGRAM

Лекция. Аудио кодеки. Часть 1

Занятие ведёт Захар Варфоломеев

Ссылка на материалы занятия:

---
Deep Learning School при ФПМИ МФТИ
Каждые полгода мы запускаем новую итерацию нашего двухсеместрового практического онлайн-курса по глубокому обучению. Наборы проводятся в августе-сентябре…

🔥11❤8✍3👍3🍓1

4.94K viewsedited 13:37

👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели…

Ноутбук для семинара, в котором мы обучим поверх кодов Mimi кодека классификатор голосов на мужской и женский 😄

Используем 8 кодбуков, обучаем 8 трансформер-энкодеров, делаем темпоральный пулинг по токенам, а затем атеншн пулинг между энкодерами. Потом обычный классификатор. Из прикольного - визуализация атеншна на разные уровни RVQ.

Научились работать с RVQ и в качестве упражнения можете посчитать разные статистики для кодовых книг, например perpexity по кодбуку (покажет насколько равномерно используются коды) или утилизацию кодов на разных уровнях/на первом. Или попробовать другую простенькую задачу и посмотреть как интерпретируются уровни RVQ, вероятно на разных уровнях содержится разная семантика/смысл.

https://colab.research.google.com/drive/1L6sTCrpdxybkSOOrc4G2E4AuRnQLWZQj#scrollTo=cHGzcgj8oRVi

Copy of Копия блокнота

👍6❤3

4.69K viewsedited 16:29

Forwarded from Ученый без степени | AI-блог Ани

Интерактивный tutorial по аудио кодекам от Kyutai labs 😎

https://kyutai.org/next/codec-explainer

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

1.56K views12:33

👀 Про аудио кодеки в Deep Learning School Сегодня выложили 2 части лекции и она немножко затянулась, примерно на 100 минут :) На лекции мы обсудили основополагающую технологию VQ-VAE и дошли до современных подходов к обучению аудиокодеков. Попутно рассмотрели…

12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML

Пишите/заходите на огонек, запись будет на ютубе у Сергея

🔥14❤103🥴1

1.35K viewsedited 09:09

12го ноября прилечу в Питер к Сергею Николенко (@sinecor), буду рассказывать в главном здании СПбГУ все, что знаю про дискретные репрезентации и выбор между непрерывными фичами, это будет экстраполяция семинара про аудио кодеки на весь ML Пишите/заходите…

Очень я рад, именно лекции Сергея Николенко дали мне лучшую теорию и погружение в математику ML. Безусловно этот человек мой кумир. Очень классно совмещает знание истории и математики в своих лекциях. Впрочем, Сергей чемпион мира по ЧГК и автор множества книг :)

👍12🔥9⚡7

1.51K viewsedited 09:12

Forwarded from Sinекура

Доклад вчера, кстати, безусловно удался. Большое спасибо Захару, он отлично подготовился, и этот семинар уже точно будет частью курса DL в этом году.)

Спасибо всем, кто пришёл, ну а дальше будет опять something completely different...

❤‍🔥19💘5🍾41

1.21K views08:22

В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов (https://www.songsterr.com/) — наш основной продукт, которым ежемесячно пользуются миллионы.

Мы работаем над сложными задачами в ML, включая разработку моделей для автоматической транскрипции музыки. Наши модели уже успешно создают табулатуры из аудио — вот пример результата (https://www.youtube.com/watch?v=rM4nAZOJoTQ). Это лишь часть наших проектов в области AI и музыки.

Требуемые навыки:
• Разработка и оптимизация DL-моделей, внедрение в прод
• Глубокое знание современных DL-архитектур
• Опыт тренировки на multi-GPU, оптимизация гиперпараметров
• Работа с грязными user-generated датасетами: фильтрация, очистка
• Желательно: аудиообработка и music information retrieval

Стек:
• Python + PyTorch
• Accelerate/DeepSpeed/W&B
Проекты завязаны на музыке и обучении — интерес к темам плюс. Главное — умение выдавать результат.

Условия:
• Полностью удалёнка, ставка от $9900/mo gross.
• Оформление на контракт, можно из РФ/РБ.
• Предпочитаем фулл-тайм, но график гибкий, сами выбираете когда работать. Хотите больше — допчасы с пропорциональной оплатой. В годовой уже ставке учтены месяц отпуска, 7 дней больничных, 14 праздников и компенсация техники, потому отдельно не оплачиваются.

Процесс отбора:
• Код-тест
• Фидбек по тесту от нас
• Если все ок — оплачиваемое тестовое (испытательный срок парт-тайм): реальная задача, график свободный, можно совмещать с текущей работой — никаких рисков

Связь: @rammusin

Songsterr Tabs with Rhythm

Guitar Tabs with Rhythm | Songsterr

Access over 1 million guitar, bass, and drum tabs with free play-along original audio. Create accurate tabs from YouTube links using advanced AI technology.

🍓7🔥6🤯4⚡1👀1

1.26K views05:16

В команду успешной музыкальной платформы с 15-летней историей ищем талантливого ML-разработчика, для качественного усиления, в связи с ростом. Плеер гитарных табов (https://www.songsterr.com/) — наш основной продукт, которым ежемесячно пользуются миллионы.…

Мои друзья в поиске MLщиков, ребята тоже делают транскрипцию музыки и много чего еще, попробуйте податься!) Мои доклады и посты в помощь 🤭

❤7🔥4

1.11K views05:18

Forwarded from Audio2MIDI Channel

Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства

В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне 💯

Мы продолжаем развитие сервиса и уже внедряем улучшения, чтобы вывести конвертацию аудио в MIDI на новый уровень. Спасибо за ваше доверие❤️

——————
Audio2MIDI has entered the TOP 100 of the University Technological Entrepreneurship Platform ranking.

In 2025, over 2,300 teams from across Russia applied for the selection, and our project immediately made it into the top hundred 💯

We continue to develop the service and are already implementing improvements to take audio-to-MIDI conversion to the next level. Thank you for your trust ❤️

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥20👍6🔥4🆒22

747 views13:49

Audio2MIDI Channel

Audio2MIDI вошёл в ТОП-100 рейтинга Платформы университетского технологического предпринимательства В 2025 году на отбор подали заявки более 2300 команд со всей России, и наш проект сразу оказался в первой сотне 💯 Мы продолжаем развитие сервиса и уже внедряем…

Позвольте похвастаться

💯16🙏9😁3🍾3🏆1

797 views13:49

Продолжайте следить за каналом, потому что цели на 2025: ✔️ Понять какие цели и пути мне реально важны)) *️⃣Научиться грамотно распределять время и свои ресурсы *️⃣Расширять свои знания и навыки за пределы аудио ML *️⃣Сделать 100+ классных постов и стримов…

Штош, что то достиг, другое отодвинул ибо переосмыслил и стало неважно, третье не успел. Но вообще, недурно 👍

Даже слишком быстро все пошло, я даже не понимаю, что достигать дальше, отделено от выполненных целей. Будто бы делать качественнее и преумножать то, что есть. Но все же выделю несколько новых. После праздников 🥳

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥3🤝3

402 viewsedited 17:53

Продолжайте следить за каналом, потому что цели на 2025: ✔️ Понять какие цели и пути мне реально важны)) *️⃣Научиться грамотно распределять время и свои ресурсы *️⃣Расширять свои знания и навыки за пределы аудио ML *️⃣Сделать 100+ классных постов и стримов…

Цель номер 2 остается и горит 😇

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥1💯1🤝1

389 views17:54

А писать посты с разборами статей как то приелось, также есть нейронки, да и хочется делиться тем, что я знаю на практике длиною в год и более. Я в этом году много говорил про кодеки и авторегрссию в домене аудио (музыка, речь). Дальше будет порционно что-то иное, в течение года.

Я просто выложу список самых интересных и ценных работ.

По вопросам моей деятельности/таким-то инсайдам всегда можете обращаться в коменты/лс.

С наступающим, всех благ!)

2❤11👍5🔥3

407 viewsedited 17:56