VF | Science

Ситуация у меня следующая: до дедлайна подачи статьи про векторное квантование на NIPS осталось два месяца. Эксперименты ещё не начаты, есть четыре разные постановки задачи. Статья, конечно, пишется сильно заранее, до того как появятся результаты экспериментов.…

Думаю можно поднять занавес перед своим ресерчем. Мне уже не терпится)

Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять research proposal и записывать видосик.

Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))

При всем при этом:
*️⃣ кодовая книга будет оставаться замороженной в процессе всего обучения
*️⃣ нам не нужно заново инициализировать кодовую книгу, достаточно использовать предобученную или инициализировать ее 1 раз
*️⃣ латентное пространство модели остается стабильным и не меняется критично в процессе адаптации кодовой книги
*️⃣ упрощается подбор архитектуры и гиперпараметров модели
*️⃣ (скоро проверим на практике) улучшает качество модели в случаях, когда с фиксированной кодовой книгой лосс вышел на плато

Экспов еще будет весьма много. Ожидайте подробностей в скором времени...

#research #carieer

Please open Telegram to view this post

VIEW IN TELEGRAM

Институт AIRI

До закрытия приёма заявок на школу по искусственному интеллекту «Лето с AIRI» в ТГУ — всего 4 дня!

Все лекции и семинары прошлого года доступны в VK Видео — загляните, чтобы почувствовать атмосферу Школы и вдохновиться на участие.

Подавайте заявки по ссылке…

👍188❤‍🔥7🔥1💅1

4.31K viewsedited 02:38

VF | Science

Forwarded from Audio2MIDI Channel

🎶Новые обновления🎶

Совсем скоро нас будет 10 000 — столько человек уже воспользовались нашим ботом🤍

Вот что мы недавно обновили:
🟣Улучшили разделение по кнопке «Голос и минусовка 🎤🎸» — теперь звучит идеально
🟣В кнопке «Распознать ноты из пианино 🎹» добавили PDF нотных партитур — теперь в любом способе распознавания можно получить ноты в PDF
🟣Обновили визуализацию MIDI на сайте — стало удобнее и красивее

Тестим и ждём от вас комментариев и идей по улучшению нашего сервиса🥹

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9

1.35K views06:41

VF | Science

Audio2MIDI Channel

🎶Новые обновления🎶 Совсем скоро нас будет 10 000 — столько человек уже воспользовались нашим ботом🤍 Вот что мы недавно обновили: 🟣Улучшили разделение по кнопке «Голос и минусовка 🎤🎸» — теперь звучит идеально 🟣В кнопке «Распознать ноты из пианино 🎹» добавили…

Ах, хочу поделиться радостью. История, которую я начал почти год назад набирает обороты 😎

Также VQ-VAE ресерч в первую очередь нацелен на улучшение качества аудио2миди, ибо под капотом там аудио кодеки.

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉17👏8❤‍🔥7

1.43K viewsedited 06:42

VF | Science

Опа... Мне показалось или дедлайн подачи заявки подвинули на 10 дней. Подарок судьбы прям, а то я сижу как полузомби и пишу мини-статью, потом еще видео снимать было 🥺

upd: Действительно, наверное узнали, что я не успел все экспы провести ))) это очев шутка
Теперь напишу более объемные выводы по ресерчу

Please open Telegram to view this post

VIEW IN TELEGRAM

❤13😁4🐳1🏆11

1.6K viewsedited 18:41

VF | Science

👀 Урааа, появился свой сервер с 4090

Буду размечать датку, трейнить новые модельки + тестить ресерч на задаче аудио2миди

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥18👀9🎉6💅3👨‍💻2

1.44K viewsedited 21:17

VF | Science

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

1.17K views07:32

👍18❤11🥰4🏆11

VF | Science

👀

Union Club Meetup (тык)

В дополнение к датафесту советую еще одну активность.

Пару месяцев назад узнал про сообщество Union от своих друзей (уже 4 из них состоят в клубе). Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов :)

Union Club — сообщество Tech-предпринимателей, которые развивают IT-продукты.
Сайт клуба: https://unionclub.pro

Скоро будет митап для участников сообщества, на который мне выпала честь прийти. Приходите тоже. Именно в юнионе можно найти человека, с которым вы за пару недель замутите темку и заработаете миллионы. Прямо перед моим носом, прямо несколько недель назад случилась такая история. К слову, я тоже делаю бизнес: недавно мы включили монетизацию для @Audio2MIDIBot .

Думаю, на митапах с акцентом на предпринимателей нужно максимально нетворкаться. С каждым индивидуально, понимая потребности и свои сильные стороны (хард скилы, связи в обществе, навыки руководства и тд). Нужно сделать так, чтобы когда вы или другой человек решит делать интересное дело, с бОльшей вероятностью его/ваше лицо вспомнилось первым.

Если вы готовы, все подробности по митапу здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤‍🔥6⚡4🥴1🤝1

1.3K viewsedited 11:00

VF | Science

ДААААААА
Я сделал это на 1 курсе бакалавра
Выполнена еще одна цель, поставленная на год

❤42👍13💋6🔥4🏆2

1.43K viewsedited 19:30

VF | Science

👀 Сегодня большой день: закрыть датафест, побыть ведущим, побыть спикером, пообщаться с сотней человек, а потом поехать на день рождения младшего брата! (точнее на то, что останется от вечеринки)

Секция про ML в музыке стартует в 17:20, мой доклад в 18:40. До встречи в прямом эфире! Все ссылки здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

ODS Events

В 12:05 мы стартуем эфир с офлайн-площадки Data Fest 2025 в гостях у X5 Tech!

В программе доклады из секций:

🛒 Data и ML в Retail от хоста площадки X5 Tech
🧠 NLP, AI4SE, Advanced LLM и целый блок докладов ML in Music 🎶 — от сообщества ODS🦜
📺 Ссылка на трансляцию…

❤9👍6🔥5🌚1

1K viewsedited 10:12

VF | Science

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

1.01K views10:13

❤12🌚1

VF | Science

👀 Список аудио моделей, который регулярно обновляется

Периодически я возвращаюсь к репозиторию, где удобно разделены аудио модельки, чтобы быстро подобрать актуальную под свою задачу.

В репозитории рассматриваются три ключевые области: (1) модели для репрезентаций, (2) аудиокодеки и (3) языковые модели, которые способствуют развитию больших языковых моделей для речи/аудио.

*️⃣Модели для репрезентаций: Эти модели сосредоточены на обучении структурных представлений речи, которые затем могут быть квантованы в дискретные речевые токены, часто называемые семантическими токенами.

*️⃣Аудиокодеки: Эти модели предназначены для обучения дискретных токенов речи и аудио, часто называемых акустическими токенами, при сохранении способности к реконструкции и низкой битовой скорости.

*️⃣LLM для речи: Эти модели обучаются на основе речевых и акустических токенов с использованием подхода языкового моделирования. Они демонстрируют высокую эффективность в задачах понимания речи и генерации речи.

GitHub: https://github.com/ga642381/speech-trident

#audio #papers

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - ga642381/speech-trident: Awesome speech/audio LLMs, representation learning, and codec models

Awesome speech/audio LLMs, representation learning, and codec models - ga642381/speech-trident

❤8👍6🔥5✍21

1.08K viewsedited 17:30

VF | Science

👀 Тот самый приветственный пост спустя 19 месяцев

Меня зовут Захар Варфоломеев @varfolomeefff. Обучать нейронки это моя работа, я ML Engineer, объединяю музыку и технологии, а также немножко ученый и предприниматель + организатор и спикер на конференциях. Тяжело выделить конкретные факты, их много. Сначала начну со своей личности, потом расскажу про факты о карьере. Пора бы записать новый подкаст вообще)) А старые я, конечно, не дам 😆

Самое актуальное:
*️⃣Вокруг меня просто невероятные люди! Я общался со всеми слоями населения, знаю их истории и разделяю их взгляды. Мое окружение состоит из айтишников с опытом работы больше, чем мне лет, руководителей крупных департаментов, долларовых миллионеров, ученых с мировым именем, преподавателей... Есть лучшие из лучших, а в то же время я знаю, как живут и чего хотят обычные люди. Мне очень повезло, я тоже выходец из простой семьи. Кроме профессиональных кругов есть друзья и среди музыкантов, и профи спортсменов, писателей, врачей, юристов... Я узнал, какой интересной может быть жизнь, сколько всего можно попробовать и как работу, и как развлечение.
*️⃣У меня очень много интересов: шахматы, баскетбол, бильярд, фортепиано, бальные танцы, графический дизайн, стрит и астрофото, преподавание, люблю выступать на публику, печь тортики, сочинять стихи, кататься на скейте, смотреть аниме, изучать английский и японский, играть в комп. игры... список пополняется. Это скорее плохо, но сам по себе интерес не вредит)
*️⃣Я делал очень много ошибок, очень много мучился от десятков параллельных мыслей, слишком быстро взрослел, совсем не по годам и не от хорошей жизни (но жаловаться не на что). Завалил ЕГЭ, но устроился на работу мечты. Потерял друзей, но обрел новых, невероятных. Часто "тушил пожары", ничего не успевал как следует. Но тяжелые времена рождают сильных котиков!
*️⃣Начал кодить в 12 лет, я классический вкатун, у меня не было знакомых инженеров, математиков и т.д. В основном я и люди вокруг были творческими личностями.
*️⃣Последний год делаю стартап @Audio2MIDIBot, мы набрали более 15 тыс. юзеров и проверили много гипотез, сейчас учим новые нейронки.
*️⃣Весь мой коммерческий опыт в ML связан с обработкой аудио. Я обучал нейронки для генерации музыки, извлечения музыкальной информации, синтеза речи, классификации звуков и т.д.
*️⃣Люблю делиться знаниями, я потомственный преподаватель) Вы могли видеть мои выступления на множестве ML конференций, в вузах, в школах, на ютуб стримах и т.д. Получалось плохо, но становится только лучше.

Вот такой водопад слов! Теперь поделюсь примерами постов на разные темы:
1) Мое выступление с прошлого года и с этого года на DataFest.
2) Разбор в формате карточек секции ML in Music на датафесте (когда настроение хорошее, могу дизайнить, хы).
3) Немного о личной жизни.
4) О посещении конференции AIConf
5) Про мой ресерч VQ-VAE моделей: раз и два

Всем хорошего дня! Пора в путь.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥28❤19🏆135💩3

1.46K viewsedited 13:04

VF | Science

❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."

▪️

Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."

▪️

Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."

▪️

Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤

🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16❤‍🔥8👍3✍2🔥2

7.79K views15:53

About

Blog

Apps

Platform