Кто мы?!
Чего мы хотим?!
Мы хотим послушать про VQ-VAE и трансформеры для @Audio2MIDIBot
Материалы скоро будут опубликованы.
Чего мы хотим?!
Мы хотим послушать про VQ-VAE и трансформеры для @Audio2MIDIBot
Материалы скоро будут опубликованы.
🔥19👍4🤩2😍2⚡1
#Взаимная_рекомендация
🫤 Привет! На связи админ самого доброго канала про Дата Саенс
📕 Меня зовут Ваня. Я студент 4-го курса НИТУ МИСИС, Junior Data Scientist в международной FMCG компании. За моими плечами десятки хакатонов и грантовых конкурсов, в том числе в качестве эксперта (кстати для самых интересных кейсов я веду свою публичную базу знаний).
🤑 Кроме машинного обучения я увлекаюсь технологическим предпринимательством, развиваю свой ИИ-стартап и уже получил грант на развитие, чему посвятил целую серию постов на своем канале и продолжаю развивать эту тематику.
🧑💻 Ну и, конечно, про материалы для ДС с нуля, про интересные подходы, про необычные путешествия, про интересные книги - и еще больше интересного о моем канале я рассказал в этом посте .
😊 Уверен, контент будет полезен как специалистам в области ML/DS, так и всем тем, кто только начал свой путь в этом интересном направлении. Welcome!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤9⚡5🤝3
VF | Science
#Взаимная_рекомендация 🫤 Привет! На связи админ самого доброго канала про Дата Саенс 📕 Меня зовут Ваня. Я студент 4-го курса НИТУ МИСИС, Junior Data Scientist в международной FMCG компании. За моими плечами десятки хакатонов и грантовых конкурсов, в том…
Чем-то мы с Ваней похожи. ML, стартап, преподавание, работа. Мне приятно поддержать его старания.
10❤10❤🔥3☃3💅2
Поздравляю @den4ikresearch с ассептом его папиры про расстановщик ударений на COLING!!!
Не каждый в 15 лет может похвастаться оценками 3-4 из 5 на COLING...
Не каждый в 15 лет может похвастаться оценками 3-4 из 5 на COLING...
👍18😁2❤1🏆1
Автор уже давно фокусируется на теме векторного квантования и даже начинает свой ресерч, который, возможно, значительно улучшит все модели связанные с VQ-VAE :) Пока что за 2 месяца не успел разочароваться в идеях, но они определенно требуют тщательной доработки. Сейчас хочется структурировать информацию для себя и тех, кто осознает важность темы. За 8 лет ее существования произошло много интересного и следовательно ресерчить становиться сложнее, хы.
VQ-VAE очень популярная архитектура, которая активно применяется в домене аудио, изображений, видео, мультимодалок, и реже в 3д моделировании, биологии/химии. На основе VQ-VAE создаются модели для сжатия и восстановления данных, которые сейчас используются во многих стриминговых платформах. Также VQ-VAE применяется для задач генерации или извлечения информации, например мое любимое audio2midi, которое я делаю или panoptic segmentation.
Полезная идея, мы поняли. Но нет ничего идеального, у VQ-VAE есть конкретные сценарии применения и проблемы, о которых речь пойдет далее:
Поэтому, например для некоторых моделей в CV используют просто патчи, как в ViT. Интересный момент, мы еще вернемся к нему, а пока идем дальше.
Это лишь основные проблемы, далее мы обсудим пути их решения и парочку весьма специфичных, но важных идей. Будет много-много цитирований.
#papers #review #vqvae
Please open Telegram to view this post
VIEW IN TELEGRAM
☃6❤3❤🔥2👍1
Написать статью на NIPS/ICLR в 18 лет, ммм, почему и бы нет. Погнали. @den4ikresearch с тебя гпушки, ахах.
🔥9❤🔥2
Сейчас обсудим работу, дающую полезную интуицию про обучение VQ-VAE. Предыдущий пост был про основные проблемы, а этот будет про их решения. Больше всего внимания было уделено "коллапсу кодбука" [1], [2], [3], [4], [5], [6], [7], явление при котором используется меньшая часть элементов кодбука. Еще в первой статье про VQ-VAE [1] была предложена стратегия обновления кодбука с использованием EMA. Следующая работа [2] изучает стратегию с EMA и попутно предлагает новое решение.
Авторы утверждают, что норма элементов кодбука должна быть меньше нормы feature maps из энкодера. Чтобы сохранять масштаб (норму) элементов кодбука, будет использоваться батч нормализация.
Другая важная мысль будет о том, что K-Means это алгоритм рассчитанный на фиксированные данные. То есть, при обучении кодбука используются feature maps, которые меняются от семпла к семплу. Обновление кластеров может быть слишком быстрым, чтобы адаптировать все элементы кодбука. Особенно при том, что градиенты влияют только на последние полученные элементы кодбука.
Как я сказал ранее, кодбук обновляется каждый новый семпл. Отмечу, что здесь VQ-VAE обучается с нуля, энкодер не предобученный. Чтобы выходы энкодера были более стабильными и обновление кодбука шло проще, авторы предлагают первые M_init итераций обучать модель без VQ.
Далее операция VQ включается в процесс обучения и через K-Means++ создается кодбук. Кластеризация будет происходить по семплам собранным через reservoir sampling [8]. Это будет гарантировать, что в начале все элементы кодбука будут использоваться. Затем, чтобы адаптироваться к изменениям в распределении выходов энкодера, кодовая книга будет периодически обновляться по той же схеме. Ну а за метриками отправляйтесь в статью. Методы не самый актуальный, но идеи были хорошие. Продолжим обсуждение других работ в следующих постах.
#papers #vqvae #audio #images
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥6❤3❤🔥1
Forwarded from Audio2MIDI Channel
2024 год стал для нас годом активного развития и значимых достижений
Всё началось с моего увлечения переводом музыки в ноты, который сейчас я воплощаю в дипломном проекте в магистратуре МФТИ. В марте я познакомился с Верой в стартап-клубе «Берёзовая роща» от МФТИ, где возникла идея реализовать диплом в стартап. А в июне встретил Захара на Data Fest 2024, где его доклад «Генерация нот на основе аудио произвольного содержания» вдохновил меня на дальнейшую работу. К проекту присоединились мои друзья Михаил и Александр, и вместе мы сделали многое:
Поэтому строим грандиозные планы на 2025 год:
Всё это стало возможным благодаря вам и вашей поддержке. Спасибо, что были с нами! В следующем году мы продолжим радовать новыми достижениями. Пусть музыка станет ближе каждому
С наступающим Новым годом!
Please open Telegram to view this post
VIEW IN TELEGRAM
👏11🔥8🎄3🍾1
Меня зовут Захар Варфоломеев, недавно мне исполнилось 18 лет. Сейчас мне довелось выступать на ML конференциях, поработать ML инженером над нейронками для генерации музыки в X-Labs AI, развить стартап Audio2MIDI, проводить собственные исследования связанные с VQ-VAE, обрести очень разнообразное и крутое окружение. С такими друзьями, как у меня можно горы свернуть! Я снова отмечу факт, что я конечно старался, но без череды знакомств я бы не смог проявить себя столь ярко.
Этот год стал самым значимым в моей жизни. Историю о нем я начну немного раньше 2024:
Конец, а кто слушал молодец. Этот год подарил мне: новых друзей, много крутых знакомств, и продуктковых, и научых, и вне проф. деятельности. Этот год дал возможности проявить себя, первую и сразу работу мечты, которую я увы не удержал в кошачьих лапках, но когда я снова буду работать, буду более зрелым спецом и более полезным. Этот подарил мне совершеннолетие и тусовки, которые я раньше видел только в кино. Этот год подарил мне славу и признание среди моих кумиров. Этот год подарил мне незабываемые путешевствия.
Пусть 2025 год подарит не меньше особенных историй и достижений. Будьте здоровы и счастливы!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥11👏6⚡2🎉1🎄1
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7😎1