VF | Science
1.05K subscribers
218 photos
23 videos
2 files
87 links
Генерацией музыки и всем, что связано с аудио ML я занимаюсь, а всем остальным ML интересуюсь)

Делюсь знаниями, мыслями, событиями по своей карье, делаю анонсы своих онлайн/офлайн мероприятий.

Автор: @varfolomeefff
Download Telegram
👀 Union Club Meetup (тык)

В дополнение к датафесту советую еще одну активность.

Пару месяцев назад узнал про сообщество Union от своих друзей (уже 4 из них состоят в клубе). Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов :)

Union Club — сообщество Tech-предпринимателей, которые развивают IT-продукты.
Сайт клуба: https://unionclub.pro

Скоро будет митап для участников сообщества, на который мне выпала честь прийти. Приходите тоже. Именно в юнионе можно найти человека, с которым вы за пару недель замутите темку и заработаете миллионы. Прямо перед моим носом, прямо несколько недель назад случилась такая история. К слову, я тоже делаю бизнес: недавно мы включили монетизацию для @Audio2MIDIBot .

Думаю, на митапах с акцентом на предпринимателей нужно максимально нетворкаться. С каждым индивидуально, понимая потребности и свои сильные стороны (хард скилы, связи в обществе, навыки руководства и тд). Нужно сделать так, чтобы когда вы или другой человек решит делать интересное дело, с бОльшей вероятностью его/ваше лицо вспомнилось первым.

Если вы готовы, все подробности по митапу здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤‍🔥64🥴1🤝1
ДААААААА
Я сделал это на 1 курсе бакалавра
Выполнена еще одна цель, поставленная на год
42👍13💋6🔥4🏆2
👀 Сегодня большой день: закрыть датафест, побыть ведущим, побыть спикером, пообщаться с сотней человек, а потом поехать на день рождения младшего брата! (точнее на то, что останется от вечеринки)

Секция про ML в музыке стартует в 17:20, мой доклад в 18:40. До встречи в прямом эфире! Все ссылки здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥5🌚1
This media is not supported in your browser
VIEW IN TELEGRAM
12🌚1
👀 Список аудио моделей, который регулярно обновляется

Периодически я возвращаюсь к репозиторию, где удобно разделены аудио модельки, чтобы быстро подобрать актуальную под свою задачу.

В репозитории рассматриваются три ключевые области: (1) модели для репрезентаций, (2) аудиокодеки и (3) языковые модели, которые способствуют развитию больших языковых моделей для речи/аудио.

*️⃣Модели для репрезентаций: Эти модели сосредоточены на обучении структурных представлений речи, которые затем могут быть квантованы в дискретные речевые токены, часто называемые семантическими токенами.

*️⃣Аудиокодеки: Эти модели предназначены для обучения дискретных токенов речи и аудио, часто называемых акустическими токенами, при сохранении способности к реконструкции и низкой битовой скорости.

*️⃣LLM для речи: Эти модели обучаются на основе речевых и акустических токенов с использованием подхода языкового моделирования. Они демонстрируют высокую эффективность в задачах понимания речи и генерации речи.


GitHub: https://github.com/ga642381/speech-trident

#audio #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍6🔥521
👀 Тот самый приветственный пост спустя 19 месяцев

Меня зовут Захар Варфоломеев @varfolomeefff. Обучать нейронки это моя работа, я ML Engineer, объединяю музыку и технологии, а также немножко ученый и предприниматель + организатор и спикер на конференциях. Тяжело выделить конкретные факты, их много. Сначала начну со своей личности, потом расскажу про факты о карьере. Пора бы записать новый подкаст вообще)) А старые я, конечно, не дам 😆

Самое актуальное:
*️⃣Вокруг меня просто невероятные люди! Я общался со всеми слоями населения, знаю их истории и разделяю их взгляды. Мое окружение состоит из айтишников с опытом работы больше, чем мне лет, руководителей крупных департаментов, долларовых миллионеров, ученых с мировым именем, преподавателей... Есть лучшие из лучших, а в то же время я знаю, как живут и чего хотят обычные люди. Мне очень повезло, я тоже выходец из простой семьи. Кроме профессиональных кругов есть друзья и среди музыкантов, и профи спортсменов, писателей, врачей, юристов... Я узнал, какой интересной может быть жизнь, сколько всего можно попробовать и как работу, и как развлечение.
*️⃣У меня очень много интересов: шахматы, баскетбол, бильярд, фортепиано, бальные танцы, графический дизайн, стрит и астрофото, преподавание, люблю выступать на публику, печь тортики, сочинять стихи, кататься на скейте, смотреть аниме, изучать английский и японский, играть в комп. игры... список пополняется. Это скорее плохо, но сам по себе интерес не вредит)
*️⃣Я делал очень много ошибок, очень много мучился от десятков параллельных мыслей, слишком быстро взрослел, совсем не по годам и не от хорошей жизни (но жаловаться не на что). Завалил ЕГЭ, но устроился на работу мечты. Потерял друзей, но обрел новых, невероятных. Часто "тушил пожары", ничего не успевал как следует. Но тяжелые времена рождают сильных котиков!
*️⃣Начал кодить в 12 лет, я классический вкатун, у меня не было знакомых инженеров, математиков и т.д. В основном я и люди вокруг были творческими личностями.
*️⃣Последний год делаю стартап @Audio2MIDIBot, мы набрали более 15 тыс. юзеров и проверили много гипотез, сейчас учим новые нейронки.
*️⃣Весь мой коммерческий опыт в ML связан с обработкой аудио. Я обучал нейронки для генерации музыки, извлечения музыкальной информации, синтеза речи, классификации звуков и т.д.
*️⃣Люблю делиться знаниями, я потомственный преподаватель) Вы могли видеть мои выступления на множестве ML конференций, в вузах, в школах, на ютуб стримах и т.д. Получалось плохо, но становится только лучше.

Вот такой водопад слов! Теперь поделюсь примерами постов на разные темы:
1) Мое выступление с прошлого года и с этого года на DataFest.
2) Разбор в формате карточек секции ML in Music на датафесте (когда настроение хорошее, могу дизайнить, хы).
3) Немного о личной жизни.
4) О посещении конференции AIConf
5) Про мой ресерч VQ-VAE моделей: раз и два

Всем хорошего дня! Пора в путь.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2819🏆135💩3
❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."
▪️Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."
▪️Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."
▪️Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
16❤‍🔥8👍32🔥2
🔍 Кстати, если вы давно искали структурированное руководство по аудио-кодекам — то вот оно!

🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки

Исследователи создали:

🔥 Таксономию токенайзеров: обзор подходов по архитектуре, способам квантизации, типам обучения и применению (речь, музыка, аудио вообще)

🔥 Анализ токенов: EnCodec, DAC, WavTokenizer и др. — что и как работает

🔥 Бенчмаркинг на разных задачах: от реконструкции аудио до задач понимания и генерации с LLM

Есть, что поизучать на выходных 💃
Please open Telegram to view this post
VIEW IN TELEGRAM
75👍3
This media is not supported in your browser
VIEW IN TELEGRAM
15❤‍🔥8
VF | Science
Video message
Кто любит джаз?) 🎶
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥183🗿31🍾1
Media is too big
VIEW IN TELEGRAM
👀 Небольшая демонстрация результата работы новой модели в @Audio2MIDIBot

Звучать стало несколько лучше на семплах, где модель повторялась и была неточной. Совсем скоро будет ещё лучше 💯

Далее хочется ускорить инференс и сделать модель компактнее.

#audio #startup
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥219👏44
This media is not supported in your browser
VIEW IN TELEGRAM
Пов: как Захар проходил собесы в Яндекс, Сбер, Звук, Т-Банк и другие чудесные места

P. S. завтра сессия и 3 собеса в 1 день, как это произошло не знаю 😢
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣26😁6🔥3💘21