VF | Science

Кто мы?!
Чего мы хотим?!

Мы хотим послушать про VQ-VAE и трансформеры для @Audio2MIDIBot
Материалы скоро будут опубликованы.

🔥19👍4🤩2😍2⚡1

1.38K views11:21

VF | Science

#Взаимная_рекомендация

🫤 Привет! На связи админ самого доброго канала про Дата Саенс

📕 Меня зовут Ваня. Я студент 4-го курса НИТУ МИСИС, Junior Data Scientist в международной FMCG компании. За моими плечами десятки хакатонов и грантовых конкурсов, в том числе в качестве эксперта (кстати для самых интересных кейсов я веду свою публичную базу знаний).

🤑 Кроме машинного обучения я увлекаюсь технологическим предпринимательством, развиваю свой ИИ-стартап и уже получил грант на развитие, чему посвятил целую серию постов на своем канале и продолжаю развивать эту тематику.

🧑‍💻 Ну и, конечно, про материалы для ДС с нуля, про интересные подходы, про необычные путешествия, про интересные книги - и еще больше интересного о моем канале я рассказал в этом посте .

😊 Уверен, контент будет полезен как специалистам в области ML/DS, так и всем тем, кто только начал свой путь в этом интересном направлении. Welcome!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9⚡5🤝3

1.18K views09:58

VF | Science

Чем-то мы с Ваней похожи. ML, стартап, преподавание, работа. Мне приятно поддержать его старания.

10❤10❤‍🔥3☃3💅2

1.25K viewsedited 10:00

VF | Science

Поздравляю @den4ikresearch с ассептом его папиры про расстановщик ударений на COLING!!!
Не каждый в 15 лет может похвастаться оценками 3-4 из 5 на COLING...

👍18😁2❤1🏆1

1.2K viewsedited 02:23

VF | Science

👀 Vector Quantized Variational Autoencoder — My Review

Автор уже давно фокусируется на теме векторного квантования и даже начинает свой ресерч, который, возможно, значительно улучшит все модели связанные с VQ-VAE :) Пока что за 2 месяца не успел разочароваться в идеях, но они определенно требуют тщательной доработки. Сейчас хочется структурировать информацию для себя и тех, кто осознает важность темы. За 8 лет ее существования произошло много интересного и следовательно ресерчить становиться сложнее, хы.

VQ-VAE очень популярная архитектура, которая активно применяется в домене аудио, изображений, видео, мультимодалок, и реже в 3д моделировании, биологии/химии. На основе VQ-VAE создаются модели для сжатия и восстановления данных, которые сейчас используются во многих стриминговых платформах. Также VQ-VAE применяется для задач генерации или извлечения информации, например мое любимое audio2midi, которое я делаю или panoptic segmentation.

Полезная идея, мы поняли. Но нет ничего идеального, у VQ-VAE есть конкретные сценарии применения и проблемы, о которых речь пойдет далее:
*️⃣Операция VQ вычисляет N центроидов кластеров по feature map'ам полученным из энкодера. Кластеризация приводит к потере информации.
*️⃣Через операцию VQ не протекают градиенты, поэтому мы вынуждены использовать аппроксимации, чаще STE.
*️⃣Поскольку градиент останавливается после VQ, он конечно не доходит до кодовой книги и энкодера. Получается, нам необходимо добавить вспомогательные функции потерь. Один лосс будет приближать выходы энкодера к элементам кодбука, второй лосс будет приближать элементы кодбука к выходом энкодера. А это уже дополнительные сложности оптимизации.

Поэтому, например для некоторых моделей в CV используют просто патчи, как в ViT. Интересный момент, мы еще вернемся к нему, а пока идем дальше.

*️⃣Из-за того, что часто вспомогательные лоссы просто считают L2 между конкретными семплами, возникает коллапс кодбука. Явление, при котором модель использует только небольшую часть токенов из кодовой книги, игнорируя остальные. Например, из 100 токенов может активно использоваться только 10, что снижает эффективность модели. Это потому, что мы приближаем друг к другу лишь конкретные семплы и ближе всех к выходам энкодера будут последние, а большинство предыдущих, при поиске по кодовой книге ближайшего, окажутся дальше последних и никогда не будут выбраны. Поэтому создавать большие кодбуки (10к+) не имело смысла.
*️⃣При обучении с нуля, подбор количества элементов кодбука и размерности его элементов это трудоемкий процесс процесс. Каждый раз будет необходимо заново инициализировать кодбук заданного размера и проверять различные центроиды кластеров.
*️⃣Также есть мысли о уменьшении количества токенов нужных для качественного восстановления данных из латентного пространства. Многие задачи требуют компрессии данных с низким битрейтом — минимальным количеством информации, необходимым для восстановления данных. Однако VQ-VAE не всегда эффективно работает в таких условиях, особенно если требуется высокая точность восстановления.
*️⃣Часто используют предобученные кодеки для различных задач генерации или извлечения информации. При этом, конечно же никто не хочет менять кодеки под их данные, модель и задачу. Просто это большие риски испортить кодек и страдать в процессе подбора параметров. Но страдать придется в любом случае, путем подбора и оптимизации декодера на основе токенов из выбранного кодека.
*️⃣Регионы по которым вычисляются латентные представления имеют разную информационную плотность. Условного говоря, мы хотим разделять регионы по смыслу. Например, отделять фон на изображении и токенизировать его отдельно, не пересекаясь с основными объектами.

Это лишь основные проблемы, далее мы обсудим пути их решения и парочку весьма специфичных, но важных идей. Будет много-много цитирований.

#papers #review #vqvae

Please open Telegram to view this post

VIEW IN TELEGRAM

☃6❤3❤‍🔥2👍1

1.18K viewsedited 13:45

VF | Science

Написать статью на NIPS/ICLR в 18 лет, ммм, почему и бы нет. Погнали. @den4ikresearch с тебя гпушки, ахах.

🔥9❤‍🔥2

862 viewsedited 13:48

VF | Science

👀 Robust Training of Vector Quantized Bottleneck Models

Сейчас обсудим работу, дающую полезную интуицию про обучение VQ-VAE. Предыдущий пост был про основные проблемы, а этот будет про их решения. Больше всего внимания было уделено "коллапсу кодбука" [1], [2], [3], [4], [5], [6], [7], явление при котором используется меньшая часть элементов кодбука. Еще в первой статье про VQ-VAE [1] была предложена стратегия обновления кодбука с использованием EMA. Следующая работа [2] изучает стратегию с EMA и попутно предлагает новое решение.

Авторы утверждают, что норма элементов кодбука должна быть меньше нормы feature maps из энкодера. Чтобы сохранять масштаб (норму) элементов кодбука, будет использоваться батч нормализация.

Другая важная мысль будет о том, что K-Means это алгоритм рассчитанный на фиксированные данные. То есть, при обучении кодбука используются feature maps, которые меняются от семпла к семплу. Обновление кластеров может быть слишком быстрым, чтобы адаптировать все элементы кодбука. Особенно при том, что градиенты влияют только на последние полученные элементы кодбука.

Как я сказал ранее, кодбук обновляется каждый новый семпл. Отмечу, что здесь VQ-VAE обучается с нуля, энкодер не предобученный. Чтобы выходы энкодера были более стабильными и обновление кодбука шло проще, авторы предлагают первые M_init итераций обучать модель без VQ.

Далее операция VQ включается в процесс обучения и через K-Means++ создается кодбук. Кластеризация будет происходить по семплам собранным через reservoir sampling [8]. Это будет гарантировать, что в начале все элементы кодбука будут использоваться. Затем, чтобы адаптироваться к изменениям в распределении выходов энкодера, кодовая книга будет периодически обновляться по той же схеме. Ну а за метриками отправляйтесь в статью. Методы не самый актуальный, но идеи были хорошие. Продолжим обсуждение других работ в следующих постах.

#papers #vqvae #audio #images

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥6❤3❤‍🔥1

1.57K views17:15

VF | Science

❤8☃5🎄3❤‍🔥1

969 views13:42

VF | Science

Forwarded from Audio2MIDI Channel

🎶

Итоги года и история стартапа Audio2MIDI

🎶

2024 год стал для нас годом активного развития и значимых достижений 💫
Всё началось с моего увлечения переводом музыки в ноты, который сейчас я воплощаю в дипломном проекте в магистратуре МФТИ. В марте я познакомился с Верой в стартап-клубе «Берёзовая роща» от МФТИ, где возникла идея реализовать диплом в стартап. А в июне встретил Захара на Data Fest 2024, где его доклад «Генерация нот на основе аудио произвольного содержания» вдохновил меня на дальнейшую работу. К проекту присоединились мои друзья Михаил и Александр, и вместе мы сделали многое:
🟣Победили в конкурсе ФСИ «Студенческий стартап», получив ресурсы для развития
🔵Привлекли более 3000 пользователей, что подтвердило востребованность нашей идеи
🟣Зарегистрировали ООО
🔵Прошли акселератор и стали резидентами Академии Инноваторов
🟣Успешно прошли акселератор «Стартап-сезоны» от МФТИ
🔵Вошли в ТОП-1000 университетских стартапов по версии Платформы университетского технологического предпринимательства
🟣Попали в публикации таких изданий, как ТАСС, РБК, Musicdaily, Bawaba AI и Slipped Disc и других
🔵Презентовали наши разработки на конференциях AI Conf, Ufa Dev Conf, финале хакатона XLABS AI HACK и на форуме «На волне» от Росмолодежи

Поэтому строим грандиозные планы на 2025 год:
🟡Улучшить точность распознавания нот, качество партитуры и удобство использования нашего продукта
🟡Развить маркетинговую стратегию для привлечения ещё большего числа пользователей
🟡Масштабировать проект, чтобы сделать сервис ещё доступнее и полезнее

Всё это стало возможным благодаря вам и вашей поддержке. Спасибо, что были с нами! В следующем году мы продолжим радовать новыми достижениями. Пусть музыка станет ближе каждому🤍

С наступающим Новым годом!

🎄

Please open Telegram to view this post

VIEW IN TELEGRAM

👏11🔥8🎄3🍾1

1.09K views08:39

VF | Science

👀 Коротко о том, как я провел 2024 год

Меня зовут Захар Варфоломеев, недавно мне исполнилось 18 лет. Сейчас мне довелось выступать на ML конференциях, поработать ML инженером над нейронками для генерации музыки в X-Labs AI, развить стартап Audio2MIDI, проводить собственные исследования связанные с VQ-VAE, обрести очень разнообразное и крутое окружение. С такими друзьями, как у меня можно горы свернуть! Я снова отмечу факт, что я конечно старался, но без череды знакомств я бы не смог проявить себя столь ярко.

Этот год стал самым значимым в моей жизни. Историю о нем я начну немного раньше 2024:
*️⃣В 2023 я с родителями переехал из Москвы в Краснодарский край и жил в небольшом домике на окраине. Меня ничего не отвлекало и часть 2024 я провел изолированным от прелестей Москвы. Эти обстоятельства позволили мне сфокусироваться на развитии навыков в ML. Я увлекся нейронками после 2х лет в бекенд разработке. В скором времени возникла идея стартапа Audio2MIDI, которую я принялся развивать.
*️⃣ Мое первое выступление 26го декабря 2023 на митапе в яндексе совместно с ODS Moscow. В тот день зажегся мой огонь и в то же время я облажался перед классными спецами, кто-то поддержал, кто-то посмеялся, но ведь было за что :) Хорошо, что записи не было, а вы думаете почему я согласился, хах. С этого события началось много важного и крутого!
*️⃣Я продолжал развивать идеи по своему проекту Audio2MIDI и снова совершенно случайно меня позвали выступать на DataFest2024. Выступление прошло 1го июня и мое личико стало еще более узнаваемым. Это выступление стало основной для формирования команды Audio2MIDI и моего оффера в X-Labs AI.
*️⃣С другой стороны в то же время я сдавал ЕГЭ и можно сказать забил на подготовку из за увлеченности в ML. Кое как поступил в МТИ, но это не приговор. Во-первых можно перевестись. Во-вторых, а зачем мне вуз, если я сам могу разобраться в множестве тем вышмата благодаря интернету и своим умным друзьям :) В-третьих наукой можно заниматься и без поступления в ВУЗ, научрука можно найти самостоятельно. Держите пример с моим другом, который в 15 лет написал статью на COLING обогнав топ лабы и рнд команды. Другая мысль о том, что в сильном вузе я пожалуй не смог бы совмещать много своих дел.
*️⃣Летом после ЕГЭ я активно ботал аудио ML, изучал много разных источников, особенно помог канал Сергея Николенко. Уровень его лекций соответствует магистратуре, но меня это не остановило, ибо я мыслю так. Информации я впитал много, не сразу все уложилось, но собеседование в X-Labs я прошел вроде бы даже хорошо :) С практической частью было сложнее, но потом я жоска засел на трое суток и сделал тестовое. Теперь на митапах когда спросят где я работаю, я не буду говорить, что я глупи школьник 😆
*️⃣Август-Ноябрь 2024, начался самый сложный период 2024. Я переехал в Москву, снимал себе жилье, пытался успевать ездить в ВУЗ и в офис, параллельно развивал стартап, продолжал выступать на конференциях и в ВУЗах, вести тг канал и ко всему этому добавилась научная деятельность. Появились возможно очень значимые идеи и надеюсь скоро я их проверю, наверное сам. Получается я параллельно преследовал 6+ целей и какое то время мне было приятно, но потом я выгорел. Все пошло через одно место, поэтому я расставил приоритеты по новой и стал иначе контролировать свой беклог дел.

Конец, а кто слушал молодец. Этот год подарил мне: новых друзей, много крутых знакомств, и продуктковых, и научых, и вне проф. деятельности. Этот год дал возможности проявить себя, первую и сразу работу мечты, которую я увы не удержал в кошачьих лапках, но когда я снова буду работать, буду более зрелым спецом и более полезным. Этот подарил мне совершеннолетие и тусовки, которые я раньше видел только в кино. Этот год подарил мне славу и признание среди моих кумиров. Этот год подарил мне незабываемые путешевствия.

Пусть 2025 год подарит не меньше особенных историй и достижений. Будьте здоровы и счастливы!

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥11👏6⚡2🎉1🎄1

956 viewsedited 16:47

VF | Science