VF | Science
1.05K subscribers
218 photos
23 videos
2 files
87 links
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь)

Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий.

Автор: @varfolomeefff
Download Telegram
🔍 Кстати, если вы давно искали структурированное руководство по аудио-кодекам — то вот оно!

🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки

Исследователи создали:

🔥 Таксономию токенайзеров: обзор подходов по архитектуре, способам квантизации, типам обучения и применению (речь, музыка, аудио вообще)

🔥 Анализ токенов: EnCodec, DAC, WavTokenizer и др. — что и как работает

🔥 Бенчмаркинг на разных задачах: от реконструкции аудио до задач понимания и генерации с LLM

Есть, что поизучать на выходных 💃
Please open Telegram to view this post
VIEW IN TELEGRAM
75👍3
This media is not supported in your browser
VIEW IN TELEGRAM
15❤‍🔥8
VF | Science
Video message
Кто любит джаз?) 🎶
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥183🗿31🍾1
Media is too big
VIEW IN TELEGRAM
👀 Небольшая демонстрация результата работы новой модели в @Audio2MIDIBot

Звучать стало несколько лучше на семплах, где модель повторялась и была неточной. Совсем скоро будет ещё лучше 💯

Далее хочется ускорить инференс и сделать модель компактнее.

#audio #startup
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥219👏44
This media is not supported in your browser
VIEW IN TELEGRAM
Пов: как Захар проходил собесы в Яндекс, Сбер, Звук, Т-Банк и другие чудесные места

P. S. завтра сессия и 3 собеса в 1 день, как это произошло не знаю 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣26😁6🔥3💘21
👾 Открытие "Лето с AIRI"

В октябре я впервые встретился с Иваном Валерьевичем Оселедцем, генеральным директором AIRI. Полчаса я крутился и не мог решиться подойти, но подошёл. Оказалось совсем не страшно и не сложно говорить с уважаемым ученым, преподавателем, директором... Разговор пошел очень легко и плодотворно. Это было на конференции Fall into ML и тогда я решил, что напишу А* статью, а также поеду на лето с аири. Как нам сказали, это событие федерального масштаба и теперь ясно почему.

После того дня я много раз пересекался с сотрудниками аири, начал ходить на открытые семинары, научные конференции. Начал более углубленно изучать все, что казалось, я уже знал. Нашел тему для исследования, собрал множество мнений, навязывался к очень серьезным ученым и это было не зря! Поэтому сегодня я здесь.

Сейчас атмосфера и окружение способствует познанию нового. Конечно, мне очень захочется поделиться своим пониманием и выводами. До скорого.

#airi #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥21👍117🗿21
Forwarded from Den4ik Research
AIRI Poster.pdf
2.7 MB
Наш проект на Лето с AIRI 👾

Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.

Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):

1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов


@den4ikresearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥542👍1
Den4ik Research
AIRI Poster.pdf
Нифига, я выбрал делать выделение экшнов из видео для обучения VLA (Vision Language Action) моделей, которые интегируются в роботов. Хотя там тоже есть VQ-VAE и играет критическую роль. Это позволит сделать фаундешн модель для роботов, однажды, кому-то, как пойдет, или не пойдет) Удачи мне... :)
12❤‍🔥52👍1🤯1
This media is not supported in your browser
VIEW IN TELEGRAM
9❤‍🔥4🔥2🍌1💋1
VF | Science
Video message
1,5 часа прошли как по щелчку... Атмосфера была супер! Давно мечтал поучаствовать в мероприятии такого формата. Локация выбрана прекрасно, длинный коридор напротив актового зала ТГУ, портреты уважаемых отечественных ученых над постерами, стены, возведённые в 1870х годах, товарищи неравнодушные к современной науке и моей работе!

Через полчаса второй акт, где слушать уже буду я. Интересных работ предостаточно.
👍94🍌1
Forwarded from ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot

🎯 Channel: @vf_science

🔥 Roast Analysis:

Ну что, Захар «я-в-18-лет-уже-кандидат-наук» Варфоломеев, пришло время для разбора полетов. Читаю твой канал и складывается ощущение, что ты решил в одиночку закрыть все вакансии в IT-индустрии: и ML-инженер, и ресерчер, и стартапер, и спикер, и организатор, и даже пекарь тортиков. Ты когда спишь вообще? А, точно, не спишь, ты же в 4 утра доделываешь презентацию, потому что через 4 часа лететь в Уфу «поражать людей своей харизмой и умом». Скромность — это точно не про тебя.

Ты так часто пишешь про VQ-VAE, что у меня скоро начнется «коллапс кодбука» в голове. «Братишка, я тебе покушать принес» — и вываливает список из 13 статей. Спасибо, братишка, я лучше голодным останусь. Уже все поняли, что ты нашел свою главную любовь. Ждем пост «Как прошла наша свадьба с VQ-VAE. На медовый месяц обучаем новую модельку». А потом, конечно же, «Полный отказ от VQ-VAE, это была ошибка молодости». Классика.

Твои цели на год длиннее, чем «Война и мир». Написать статью на NIPS, вырасти до синьора, выучить японский, помочь сотням студентов, и, видимо, колонизировать Марс. Ты там случайно не перепутал список дел со списком желаний для Деда Мороза? Особенно доставляет пункт «Понять какие цели и пути мне реально важны». То есть сначала ты записался во все кружки мира, а потом сел думать, а зачем тебе это все надо. Гениальный план, Захар, надежный, как швейцарские часы.

Отдельная тема — твой нетворкинг. «Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов». Ты уже, я смотрю, мысленно переехал в Сколково и выбираешь цвет для своего «круглого тензора». Скоро, чтобы с тобой пива выпить, надо будет регистрироваться на митап, проходить три этапа собеседования и приносить с собой постерную сессию.

И, конечно, венец твоей карьеры — «завалил ЕГЭ, но устроился на работу мечты, которую увы не удержал в кошачьих лапках». Это самый эпичный путь от «ууу, развелось нынче малолеток» до «я снова буду более зрелым спецом». Ладно, малой, расти большой, не будь лапшой. Но только умоляю, прекрати так часто использовать слово «бьютифул» и смущенный смайлик. А то выглядит, будто ты сам в шоке от того, что натворил.
🤣24🔥9🌭6🌚2😁1
👀 Разделяй и властвуй: как декомпозиция помогает решать сложные задачи в Deep Learning

Последнее время часто замечаю некоторую мысль, вижу ее в статьях, в решениях моих товарищей и также активно применяю ее в нашем проекте @Audio2MIDIBot. Сталкивались ли вы с задачей, которая кажется неподъёмной для одной нейросети? Когда данные настолько сложны, что даже самая глубокая архитектура не справляется? Сегодня я хочу поговорить о мощном принципе, который помогает решать такие проблемы — о декомпозиции.

Идея особенно актуальна, когда мы пытаемся решить сложную генеративную или дискриминативную задачу в один этап: подали на вход сырые данные — на выходе получили финальный результат. Такой подход часто ведет к нестабильному обучению и посредственному качеству.

Ключевая мысль: сложную проблему нужно разбить на последовательность более простых.

Каждый следующий этап нашего решения (будь то слой в сети или отдельная модель) должен работать с уже упрощенным, более "чистым" представлением данных. Мы последовательно снижаем неопределенность, пока финальная задача не станет почти тривиальной. Как говорил методолог Георгий Щедровицкий: «Решение задачи состоит в том, что мы находим язык, в котором решение очевидно».


В мире DL этот поиск "языка" — это, по сути, архитектурный feature engineering. Мы не просто надеемся, что сеть сама всё выучит. Мы сознательно проектируем пайплайн так, чтобы помочь ей это сделать и определяем данные на вход.

А теперь вопрос: как максимально упростить задачу? Под упростить я понимаю уменьшить неопределнность модели в отношении желаемого результата. Получить такой преобразование распределния, чтобы модель быстро и точно научилась решать целевую задачу. Мы снова делаем feature engineering. Хотя почти все думают, что в нейросетях фичи выделяются автоматически - с одной стороны это верно. С другой - именно мы контролируем, как эти фичи будут выделяться и что подавать на вход.

Самое время увидеть примеры, где мы обощаем мысль за пределы преобразований между слоями нейросети.

Пример 1: Музыка в ноты (@Audio2MIDIBot)
Мы хотим создать нейросеть, которая переводит ЛЮБУЮ музыку в ноты для фортепиано. Пространство всех аудиозаписей в мире невероятно сложное и зашумленное. Обучить одну модель "аудио -> детализированное MIDI" — гигантская и нестабильная задача, в частности из за аудиокодеков.

Решение через декомпозицию: разбиываем процесс на два этапа:
▪️Модель 1 (Грубое извлечение): Аудиокодек и трансформер извлекают из сложного аудиосигнала простую последовательность нот (MIDI). Результат часто бывает с ошибками и без нюансов.
▪️Модель 2 (Улучшение/Refinement): Вторая, уже чисто "символьная" модель, берет на вход простые MIDI и обогащает их, исправляет ошибки и добавляет детали. Она работает в гораздо более простом и стабильном пространстве "MIDI -> улучшенные MIDI".

Этот двухэтапный подход стал прорывом в нашем проекте, кардинально улучшив качество (подробнее о недостатках я рассказывал на Data Fest).

Пример 2: Стилизация портретов (от Алексея Попова)
Команда Леши делала диффузионную модель для стилизации портрета (например, добавить мультяшные эффекты). Полностью генерировать стилизованный портрет с нуля, сохраняя черты лица конкретного человека, очень сложно. Модель легко может "забыть" исходные детали.

Решение через декомпозицию: Вместо генерации с нуля, процесс можно разбить:
▪️Этап 1 (Сохранение идентичности): Первые шаги диффузии генерируют основу портрета, максимально близкую к реальному человеку, без стилизации.
▪️Этап 2 (Стилизация): Последующие шаги добавляют стилизующие детали поверх уже "узнаваемой" основы.

Так модель лучше сохраняет индивидуальные черты лица, а стилизация получается более качественной и предсказуемой.

#research #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7322👍1
Пример 3: Иерархическая генерация изображений (NeurIPS Best Paper)
Третий пример довольно абстрактный. Теперь мы хотим генерировать детализированное изображение 512x512 за один проход — вычислительно и концептуально сложная задача. Модель должна одновременно думать и о композиции, и о мелких текстурах. Решение через декомпозицию: Иерархический подход.
▪️Этап 1: Генерируется изображение очень низкого разрешения (например, 64x64), которое определяет общую композицию и цвета.
▪️Этап 2, 3...: Последовательные модели (или шаги) повышают разрешение, каждый раз добавляя детали поверх уже существующей структуры.

Получается более стабильная генерация и высокий уровень детализации, которого сложно достичь за один шаг.

Постарался описать большими мазками данную в начале мысль. В следующий раз, столкнувшись с задачей, которая кажется нерешаемой, спросите себя: "А можно ли ее разбить на несколько подзадач попроще?" Возможно, именно в этом и кроется ключ к успеху) Вот такая абстрактная мысль очень часто встречается в моей работе за последний год.

#research #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
10❤‍🔥3🍓3🫡11
Ну, все, следующий типа полезный пост через месяц, автор устал
🏆11💋4
☕️На канале 3Blue1Brown вышло новенькое гостевое видео от Стивена Уэлша (📺Welsh Labs), в котором он рассказывает (конечно же, в сопровождении крутых и наглядных визуализаций), как работают системы генерации видео из текста

🔗But how do AI videos actually work?

Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного

💻 Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
10
Знаю все типы людей 😆
А кто вы?
Please open Telegram to view this post
VIEW IN TELEGRAM
😁18🤣8👍2🌚2🔥1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!

Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1

Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:

Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов

Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов

Данные лежат вот тут: https://huggingface.co/ESpeech

Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.

Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)

Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.

Послушать модели без скачивания можно вот здесь:

https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS

Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:

https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat

Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:

USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
144❤‍🔥4🍌1