VF | Science
Ситуация у меня следующая: до дедлайна подачи статьи про векторное квантование на NIPS осталось два месяца. Эксперименты ещё не начаты, есть четыре разные постановки задачи. Статья, конечно, пишется сильно заранее, до того как появятся результаты экспериментов.…
Думаю можно поднять занавес перед своим ресерчем. Мне уже не терпится)
Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять research proposal и записывать видосик.
Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))
При всем при этом:
*️⃣ кодовая книга будет оставаться замороженной в процессе всего обучения
*️⃣ нам не нужно заново инициализировать кодовую книгу, достаточно использовать предобученную или инициализировать ее 1 раз
*️⃣ латентное пространство модели остается стабильным и не меняется критично в процессе адаптации кодовой книги
*️⃣ упрощается подбор архитектуры и гиперпараметров модели
*️⃣ (скоро проверим на практике) улучшает качество модели в случаях, когда с фиксированной кодовой книгой лосс вышел на плато
Экспов еще будет весьма много. Ожидайте подробностей в скором времени...
#research #carieer
Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь, потому что хочется поехать на "Лето с AIRI", а сегодня последний день для подачи заявки. Буду заполнять research proposal и записывать видосик.
Объясню на скорую руку. Кароч, я делаю метод для обучения моделей, основанных на VQ-VAE, который адаптирует размер кодовой книги для задач генерации и ретривала. Часто модели, которые решают эти задачи на основе VQ-VAE используют кодовую книгу, подобранную для задачи реконструкции, ее не обучают для целевой задачи. Поэтому кодовая книга может быть не совсем подходящей, то есть ее распределение либо слишком простое, либо слишком сложное для целевой задачи, не говоря о том, что оно может просто плохо перекрывать датасет. Я предлагаю метод для динамического обновления размера кодовой книги в процессе обучения, ориентируясь на датасет и целевую задачу. Кодовая книга должна идеально адаптироваться под задачу, модель и данные, полностью раскрывая потенциал модели))
При всем при этом:
Экспов еще будет весьма много. Ожидайте подробностей в скором времени...
#research #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Институт AIRI
До закрытия приёма заявок на школу по искусственному интеллекту «Лето с AIRI» в ТГУ — всего 4 дня!
Все лекции и семинары прошлого года доступны в VK Видео — загляните, чтобы почувствовать атмосферу Школы и вдохновиться на участие.
Подавайте заявки по ссылке…
Все лекции и семинары прошлого года доступны в VK Видео — загляните, чтобы почувствовать атмосферу Школы и вдохновиться на участие.
Подавайте заявки по ссылке…
👍18 8❤🔥7🔥1💅1
Forwarded from Audio2MIDI Channel
Совсем скоро нас будет 10 000 — столько человек уже воспользовались нашим ботом
Вот что мы недавно обновили:
Тестим и ждём от вас комментариев и идей по улучшению нашего сервиса🥹
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9
Audio2MIDI Channel
Ах, хочу поделиться радостью. История, которую я начал почти год назад набирает обороты 😎
Также VQ-VAE ресерч в первую очередь нацелен на улучшение качества аудио2миди, ибо под капотом там аудио кодеки.
Также VQ-VAE ресерч в первую очередь нацелен на улучшение качества аудио2миди, ибо под капотом там аудио кодеки.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉17👏8❤🔥7
VF | Science
Думаю можно поднять занавес перед своим ресерчем. Мне уже не терпится) Прошло 2 месяца и мы с Денисом наконец-то завели эксперименты. Точнее, мы их заводили лишь последние трое суток и спали по 3 часа, ибо лишь недавно компьют освободился. Очень тороплюсь…
Опа... Мне показалось или дедлайн подачи заявки подвинули на 10 дней. Подарок судьбы прям, а то я сижу как полузомби и пишу мини-статью, потом еще видео снимать было 🥺
upd: Действительно, наверное узнали, что я не успел все экспы провести )))это очев шутка
Теперь напишу более объемные выводы по ресерчу
upd: Действительно, наверное узнали, что я не успел все экспы провести )))
Теперь напишу более объемные выводы по ресерчу
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13😁4🐳1🏆1 1
Буду размечать датку, трейнить новые модельки + тестить ресерч на задаче аудио2миди
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👀9🎉6💅3👨💻2
В дополнение к датафесту советую еще одну активность.
Пару месяцев назад узнал про сообщество Union от своих друзей (уже 4 из них состоят в клубе). Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов :)
Union Club — сообщество Tech-предпринимателей, которые развивают IT-продукты.
Сайт клуба: https://unionclub.pro
Скоро будет митап для участников сообщества, на который мне выпала честь прийти. Приходите тоже. Именно в юнионе можно найти человека, с которым вы за пару недель замутите темку и заработаете миллионы. Прямо перед моим носом, прямо несколько недель назад случилась такая история. К слову, я тоже делаю бизнес: недавно мы включили монетизацию для @Audio2MIDIBot .
Думаю, на митапах с акцентом на предпринимателей нужно максимально нетворкаться. С каждым индивидуально, понимая потребности и свои сильные стороны (хард скилы, связи в обществе, навыки руководства и тд). Нужно сделать так, чтобы когда вы или другой человек решит делать интересное дело, с бОльшей вероятностью его/ваше лицо вспомнилось первым.
Если вы готовы, все подробности по митапу здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤🔥6⚡4🥴1🤝1
Секция про ML в музыке стартует в 17:20, мой доклад в 18:40. До встречи в прямом эфире! Все ссылки здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
ODS Events
В 12:05 мы стартуем эфир с офлайн-площадки Data Fest 2025 в гостях у X5 Tech!
В программе доклады из секций:
🛒 Data и ML в Retail от хоста площадки X5 Tech
🧠 NLP, AI4SE, Advanced LLM и целый блок докладов ML in Music 🎶 — от сообщества ODS🦜
📺 Ссылка на трансляцию…
В программе доклады из секций:
🛒 Data и ML в Retail от хоста площадки X5 Tech
🧠 NLP, AI4SE, Advanced LLM и целый блок докладов ML in Music 🎶 — от сообщества ODS🦜
📺 Ссылка на трансляцию…
❤9👍6🔥5🌚1
Периодически я возвращаюсь к репозиторию, где удобно разделены аудио модельки, чтобы быстро подобрать актуальную под свою задачу.
В репозитории рассматриваются три ключевые области: (1) модели для репрезентаций, (2) аудиокодеки и (3) языковые модели, которые способствуют развитию больших языковых моделей для речи/аудио.*️⃣ Модели для репрезентаций: Эти модели сосредоточены на обучении структурных представлений речи, которые затем могут быть квантованы в дискретные речевые токены, часто называемые семантическими токенами.*️⃣ Аудиокодеки: Эти модели предназначены для обучения дискретных токенов речи и аудио, часто называемых акустическими токенами, при сохранении способности к реконструкции и низкой битовой скорости.*️⃣ LLM для речи: Эти модели обучаются на основе речевых и акустических токенов с использованием подхода языкового моделирования. Они демонстрируют высокую эффективность в задачах понимания речи и генерации речи.
GitHub: https://github.com/ga642381/speech-trident
#audio #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - ga642381/speech-trident: Awesome speech/audio LLMs, representation learning, and codec models
Awesome speech/audio LLMs, representation learning, and codec models - ga642381/speech-trident
❤8👍6🔥5✍2 1
Меня зовут Захар Варфоломеев @varfolomeefff. Обучать нейронки это моя работа, я ML Engineer, объединяю музыку и технологии, а также немножко ученый и предприниматель + организатор и спикер на конференциях. Тяжело выделить конкретные факты, их много. Сначала начну со своей личности, потом расскажу про факты о карьере. Пора бы записать новый подкаст вообще)) А старые я, конечно, не дам
Самое актуальное:
Вот такой водопад слов! Теперь поделюсь примерами постов на разные темы:
1) Мое выступление с прошлого года и с этого года на DataFest.
2) Разбор в формате карточек секции ML in Music на датафесте (когда настроение хорошее, могу дизайнить, хы).
3) Немного о личной жизни.
4) О посещении конференции AIConf
5) Про мой ресерч VQ-VAE моделей: раз и два
Всем хорошего дня! Пора в путь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28❤19🏆13 5💩3
Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.
Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!
#music #audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16❤🔥8👍3✍2🔥2