VF | Science
1.05K subscribers
218 photos
23 videos
2 files
87 links
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь)

Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий.

Автор: @varfolomeefff
Download Telegram
👀 Ревью по выходным 14-15 сентября.

За выходные отлично провел время с коллегами. Мне не хватает слов, сколько положительных эмоций я испытал!

Начнем с того, что я работаю в X-Labs AI. Yeap bro, our boss is Ilon Mask. У нас есть много крутых ребят и проектов. Один из них это беспилотный гоночный автомобиль, который умеет дрифтить! На 6 видео именно такая машина, этот результат был достигнут за очень короткое время, коллеги не спали сутками, но ребята решили выйти на свет (смотрите конец обязательно). Также есть не менее инновационный проект Jggl, над которым я работаю в аудио команде. Jggl это соцсеть, с кучей нейронок для создания визуального и аудио контента. Позже расскажу ещё. Но факт — после вчерашнего я максимально зарядился перформить этот проект.

Теперь про день рождения. Его я отметил на конференции Яндекса и вообще не пожалел) Увиделся с теми, кого давно не видел и меня поздравили много людей, получил очень теплые слова, миу. Послушал доклад про аудио и дифузионки в кандинском. Отличная работа от спикеров! Было много вопросов на докладе про диффузионки, я слушал до конца и уже забыл почти все...)))) Но у меня есть заметки в избранном, фух. Доклад про аудио я бы еще обсудил здесь, скоро.

На следующий день я улетел в Минск на финал гонок по дрифту. Гонки спонсировала компания и мне выпала честь сгонять в командировку, это стал мой самый крутой день в жизни)))

В общем я еще 100 лет могу писать как я рад! Но теперь пора учиться, работать и делать полезный контент по аудио и др. темам DL.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥124👍3🔥2😎1
9го ноября прилечу в Уфу рассказывать про экстракцию миди из аудио)) Есть апдейты

Как минмум я просто хочу сгонять в Уфу :)

https://dc.ufacoder.com/#program
12❤‍🔥5🏆1
👀 Случайно нашел весьма полезную статью - обзор на foundtion модели в музыке. Она прямо таки новая, от 3го сентября. Нашел ее пока смотрел цитирования другой статьи) Совет - смотрите цитирования статей, которые вам понравились.

В статье и про музыкальные репрезентации, и про понимание музыки моделями, и про датасеты, и про подходы для обработки/генерации музыки и их проблемы. Также отдельно рассматриваются состовляющие музыки: вокал, аккомпонемент, ноты. Надеюсь прочтение поможет придумать ту самую идею для ризерча.

#audio #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍61
👀 Уже не помню как, но я снова нашел довольно занятную стаью. Она занятна тем, что обращает внимание на неочевидные свойства эмбедингов после обучения модели, в данной статье взяли CLAP. Эта статья относится к тем, кто использует предобученные модели для линейных проекций.

Начем с важных заявлений:
1) Если использовать предобученные модели, fine tuning аудио/текстовых моделей для линейных проекций почти не имеет смысла. Можно просто взять предобученные модельки и результат будет немного хуже)
2) Используя предобученные модели, а затем дообучая и тестируя их на других датасетах, запросто может произойти утечка данных. Просто потому, что датасеты претрейна и трейна покрывают много меток, в тестовом наборе они также могут содержаться.

Заметить это удалось путем T-SHE визуализации эмбедингов текста/аудио, их линейных проекций, а также линейных проекций после fine tuning. Утечка данных влияет на проекции аудио (рис. 1).

Далее, важный факт, что рядом находятся эмбединги, аудио которых похоже звучит. Например (рис. 1d) кластеры "crackling fire" и "mouse click" перемешались. Тогда, как текстовые проекции опираются на семантику. Например (рис. 2) кластеры "clock alarm" и "clock tick”.

Это было с применением fine tuning, а теперь посмотрим на кластеры без него (рис. 3). Видим, что кластеры не очень то и поменялись.

Вообще, смотреть кластеры прикольно, но для автоматизации авторы придумали простую метрику сравнивающую похожесть кластеров (рис. 4).

Класс и зачем я это прочитал... А вы зачем прочитали)) Вот и авторы говорят, мы надеемся, что это поможет ресерчерам и будет учитваться при дальнейших разработках. Возможно имеет смысл обучать модельки для проекций с нуля, как это решили сделать авторы, кстати при этом, на чистых данных они смогли опередить оригинальный CLAP. Придумать этому примнение я оставлю на вас) Для себя же я уже кое-что придумал 😬

Но все же прикольно, что теперь можно подойти и сказать, слыш, твой CLAP обучаеся не так, как ты думаешь)))

#papers #audio #images
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
54
Всем причастным к AI Conf от меня огромное спасибо! Очень рад, что уже сейчас смог стать частью такого вдохновляющего общества. 🙂

Я как мог старался поразить людей своей харизмой и умом))) Ещё вся музыка, которая играла между залами, настраивалась нами, поигрались в диджея хы. В целом все довольны, как я думаю. Ребята, если что пишите мне @varfolomeefff, постараюсь помочь.

Уровень организации конференции суперский, состав участников тем более. Вдобавок я как организатор получил компенсацию всех расходов связанных с конференцией, получил доступ к препати со спикерами и организаторами, меня накормили и одели) В общем быть организатором здорово) В прочем, не сказал бы, что другим участникам конференции было меньше заботы. ❤️

Конференция платная, не дешевая, но если у вас высоко развиты навыки общения, здесь вы можете построить себе репутацию среди "верхушки" отечественного ИИ, а также обменяться опытом с коллегами. Репутация может очень дорого стоить, в разном смысле. Лично я рассказал кучу всего необычного от себя и узнал о важных идеях/экспериментах от участников.

Мой круг общения был большой, конечно) Теперь есть новые и очень интересные знакомые, обязательно еще встретимся лично. Например меня пригласили в профи студию звукозаписи и ребята даже обучали свои нейронки для пения. Сгенеренную музыку даже можно продать за круглую сумму и сделать ее за 2 часа - 2 суток) Бывает... 😶

Также я встретился с невероятными гениями, плейбоями, филантропами... Это Денис @den4ikresearch, в 15 лет сделал лучший расстановщик ударений для TTS и еще кое-кто) Энивей мы все будучи школьниками начали работать над серьезными штуками. Здорово мы собрались вместе!

#конференция #карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19😁2🆒1
VF | Science
Всем причастным к AI Conf от меня огромное спасибо! Очень рад, что уже сейчас смог стать частью такого вдохновляющего общества. 🙂 Я как мог старался поразить людей своей харизмой и умом))) Ещё вся музыка, которая играла между залами, настраивалась нами, поигрались…
Серьезно, я же еще несколько месяцев назад был школьником без работы и такой и репутации, сидел в комнате 8кв и пялился в экран, а сейчас переехал в Москву...) Я до сих пор не могу привыкнуть и стараюсь особо не думать об этом... А что будет дальше, ооо!
❤‍🔥17👍7🔥4🥴2😁1
Пока что в аудио ML не было сенсаций, вернёмся к классике моего канала: автоматический перевод аудио в ноты фортепиано. Изредка, но я продолжаю работать над @Audio2Midi_bot 😐

Кароч теперь мы резиденты академии инноваторов и нам дали доступ к кластеру Ломоносов МГУ. Супер, впервые побывал там. Приятное место, да и сегодня там было очень пусто) Погода дождливая и воскресенье, а мы работаем до 22, хы.

Сейчас у меня 3 потока мыслей:
1) Заменить jukebox энкодер на энкодер получше, типа WavTokenizer) Их идея и правда крутая, хочу воспроизвести.
2) Сделать сильный декодер, сейчас просто трансформер с кросс энтропией инвариантной к октаве. Думаю один такой лосс многое не учитывает. Да и если брать WavTokenizer из 40-75 токенов получить полный миди файл звучит непросто. Наверняка нужно много данных и сильный декодер.
3) Смотрю в сторону иерархических архитектур в декодере. Для нот такая структура хорошо подходит, наверное. Распознавать такты, тональность, аккорды, длительность...

Обменялись новостями и начали ресерчить работы по automatic music transcription. На удивление в этом году появилось в 2-3 раза больше работ, чем в прошлом. Искали хорошие идеи для создания датасета, с его наличием большая проблема. Есть много аудио файлов где уже играет музыка на пианино по мотивам песен, но нет миди. Поэтому хотим сейчас решить проблему с недостатком данных через распознавание нот в аудио, где звучит ТОЛЬКО пианино. Эту задачу решить легче, но тоже сложно. Потестили сота модельки, они хорошо справляются, не без ошибок. Можно ещё распознавать миди по кадрам видео, трекинг прямоугольничков) Но такие модели еще совсем сырыре.

Просто дайте нам миллион аудио-миди пар, мы все сделаем, миу...
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥11👍6🔥52💩1