VF | Science
1.07K subscribers
218 photos
23 videos
2 files
87 links
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь)

Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий.

Автор: @varfolomeefff
Download Telegram
VF | Science
Ситуация у меня следующая: до дедлайна подачи статьи про векторное квантование на NIPS осталось два месяца. Эксперименты ещё не начаты, есть четыре разные постановки задачи. Статья, конечно, пишется сильно заранее, до того как появятся результаты экспериментов.…
Думаю можно поднять занавес перед своим ресерчем. Мне уже не терпится)

Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять research proposal и записывать видосик.

Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))

При всем при этом:
*️⃣ кодовая книга будет оставаться замороженной в процессе всего обучения
*️⃣ нам не нужно заново инициализировать кодовую книгу, достаточно использовать предобученную или инициализировать ее 1 раз
*️⃣ латентное пространство модели остается стабильным и не меняется критично в процессе адаптации кодовой книги
*️⃣ упрощается подбор архитектуры и гиперпараметров модели
*️⃣ (скоро проверим на практике) улучшает качество модели в случаях, когда с фиксированной кодовой книгой лосс вышел на плато

Экспов еще будет весьма много. Ожидайте подробностей в скором времени...

#research #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
👍188❤‍🔥7🔥1💅1
Forwarded from Audio2MIDI Channel
🎶Новые обновления🎶

Совсем скоро нас будет 10 000 — столько человек уже воспользовались нашим ботом🤍

Вот что мы недавно обновили:
🟣Улучшили разделение по кнопке «Голос и минусовка 🎤🎸» — теперь звучит идеально
🟣В кнопке «Распознать ноты из пианино 🎹» добавили PDF нотных партитур — теперь в любом способе распознавания можно получить ноты в PDF
🟣Обновили визуализацию MIDI на сайте — стало удобнее и красивее

Тестим и ждём от вас комментариев и идей по улучшению нашего сервиса🥹
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Audio2MIDI Channel
🎶Новые обновления🎶 Совсем скоро нас будет 10 000 — столько человек уже воспользовались нашим ботом🤍 Вот что мы недавно обновили: 🟣Улучшили разделение по кнопке «Голос и минусовка 🎤🎸» — теперь звучит идеально 🟣В кнопке «Распознать ноты из пианино 🎹» добавили…
Ах, хочу поделиться радостью. История, которую я начал почти год назад набирает обороты 😎

Также VQ-VAE ресерч в первую очередь нацелен на улучшение качества аудио2миди, ибо под капотом там аудио кодеки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉17👏8❤‍🔥7
VF | Science
Думаю можно поднять занавес перед своим ресерчем. Мне уже не терпится) Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь…
Опа... Мне показалось или дедлайн подачи заявки подвинули на 10 дней. Подарок судьбы прям, а то я сижу как полузомби и пишу мини-статью, потом еще видео снимать было 🥺

upd: Действительно, наверное узнали, что я не успел все экспы провести ))) это очев шутка
Теперь напишу более объемные выводы по ресерчу
Please open Telegram to view this post
VIEW IN TELEGRAM
13😁4🐳1🏆11
👀 Урааа, появился свой сервер с 4090

Буду размечать датку, трейнить новые модельки + тестить ресерч на задаче аудио2миди
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👀9🎉6💅3👨‍💻2
This media is not supported in your browser
VIEW IN TELEGRAM
👍1811🥰4🏆11
👀 Union Club Meetup (тык)

В дополнение к датафесту советую еще одну активность.

Пару месяцев назад узнал про сообщество Union от своих друзей (уже 4 из них состоят в клубе). Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов :)

Union Club — сообщество Tech-предпринимателей, которые развивают IT-продукты.
Сайт клуба: https://unionclub.pro

Скоро будет митап для участников сообщества, на который мне выпала честь прийти. Приходите тоже. Именно в юнионе можно найти человека, с которым вы за пару недель замутите темку и заработаете миллионы. Прямо перед моим носом, прямо несколько недель назад случилась такая история. К слову, я тоже делаю бизнес: недавно мы включили монетизацию для @Audio2MIDIBot .

Думаю, на митапах с акцентом на предпринимателей нужно максимально нетворкаться. С каждым индивидуально, понимая потребности и свои сильные стороны (хард скилы, связи в обществе, навыки руководства и тд). Нужно сделать так, чтобы когда вы или другой человек решит делать интересное дело, с бОльшей вероятностью его/ваше лицо вспомнилось первым.

Если вы готовы, все подробности по митапу здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤‍🔥64🥴1🤝1
ДААААААА
Я сделал это на 1 курсе бакалавра
Выполнена еще одна цель, поставленная на год
42👍13💋6🔥4🏆2
👀 Сегодня большой день: закрыть датафест, побыть ведущим, побыть спикером, пообщаться с сотней человек, а потом поехать на день рождения младшего брата! (точнее на то, что останется от вечеринки)

Секция про ML в музыке стартует в 17:20, мой доклад в 18:40. До встречи в прямом эфире! Все ссылки здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥5🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
12🌚1
👀 Список аудио моделей, который регулярно обновляется

Периодически я возвращаюсь к репозиторию, где удобно разделены аудио модельки, чтобы быстро подобрать актуальную под свою задачу.

В репозитории рассматриваются три ключевые области: (1) модели для репрезентаций, (2) аудиокодеки и (3) языковые модели, которые способствуют развитию больших языковых моделей для речи/аудио.

*️⃣Модели для репрезентаций: Эти модели сосредоточены на обучении структурных представлений речи, которые затем могут быть квантованы в дискретные речевые токены, часто называемые семантическими токенами.

*️⃣Аудиокодеки: Эти модели предназначены для обучения дискретных токенов речи и аудио, часто называемых акустическими токенами, при сохранении способности к реконструкции и низкой битовой скорости.

*️⃣LLM для речи: Эти модели обучаются на основе речевых и акустических токенов с использованием подхода языкового моделирования. Они демонстрируют высокую эффективность в задачах понимания речи и генерации речи.


GitHub: https://github.com/ga642381/speech-trident

#audio #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6🔥521
👀 Тот самый приветственный пост спустя 19 месяцев

Меня зовут Захар Варфоломеев @varfolomeefff. Обучать нейронки это моя работа, я ML Engineer, объединяю музыку и технологии, а также немножко ученый и предприниматель + организатор и спикер на конференциях. Тяжело выделить конкретные факты, их много. Сначала начну со своей личности, потом расскажу про факты о карьере. Пора бы записать новый подкаст вообще)) А старые я, конечно, не дам 😆

Самое актуальное:
*️⃣Вокруг меня просто невероятные люди! Я общался со всеми слоями населения, знаю их истории и разделяю их взгляды. Мое окружение состоит из айтишников с опытом работы больше, чем мне лет, руководителей крупных департаментов, долларовых миллионеров, ученых с мировым именем, преподавателей... Есть лучшие из лучших, а в то же время я знаю, как живут и чего хотят обычные люди. Мне очень повезло, я тоже выходец из простой семьи. Кроме профессиональных кругов есть друзья и среди музыкантов, и профи спортсменов, писателей, врачей, юристов... Я узнал, какой интересной может быть жизнь, сколько всего можно попробовать и как работу, и как развлечение.
*️⃣У меня очень много интересов: шахматы, баскетбол, бильярд, фортепиано, бальные танцы, графический дизайн, стрит и астрофото, преподавание, люблю выступать на публику, печь тортики, сочинять стихи, кататься на скейте, смотреть аниме, изучать английский и японский, играть в комп. игры... список пополняется. Это скорее плохо, но сам по себе интерес не вредит)
*️⃣Я делал очень много ошибок, очень много мучился от десятков параллельных мыслей, слишком быстро взрослел, совсем не по годам и не от хорошей жизни (но жаловаться не на что). Завалил ЕГЭ, но устроился на работу мечты. Потерял друзей, но обрел новых, невероятных. Часто "тушил пожары", ничего не успевал как следует. Но тяжелые времена рождают сильных котиков!
*️⃣Начал кодить в 12 лет, я классический вкатун, у меня не было знакомых инженеров, математиков и т.д. В основном я и люди вокруг были творческими личностями.
*️⃣Последний год делаю стартап @Audio2MIDIBot, мы набрали более 15 тыс. юзеров и проверили много гипотез, сейчас учим новые нейронки.
*️⃣Весь мой коммерческий опыт в ML связан с обработкой аудио. Я обучал нейронки для генерации музыки, извлечения музыкальной информации, синтеза речи, классификации звуков и т.д.
*️⃣Люблю делиться знаниями, я потомственный преподаватель) Вы могли видеть мои выступления на множестве ML конференций, в вузах, в школах, на ютуб стримах и т.д. Получалось плохо, но становится только лучше.

Вот такой водопад слов! Теперь поделюсь примерами постов на разные темы:
1) Мое выступление с прошлого года и с этого года на DataFest.
2) Разбор в формате карточек секции ML in Music на датафесте (когда настроение хорошее, могу дизайнить, хы).
3) Немного о личной жизни.
4) О посещении конференции AIConf
5) Про мой ресерч VQ-VAE моделей: раз и два

Всем хорошего дня! Пора в путь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2819🏆135💩3
❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."
▪️Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."
▪️Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."
▪️Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤‍🔥8👍32🔥2