VF | Science

👀

Union Club Meetup (тык)

В дополнение к датафесту советую еще одну активность.

Пару месяцев назад узнал про сообщество Union от своих друзей (уже 4 из них состоят в клубе). Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов :)

Union Club — сообщество Tech-предпринимателей, которые развивают IT-продукты.
Сайт клуба: https://unionclub.pro

Скоро будет митап для участников сообщества, на который мне выпала честь прийти. Приходите тоже. Именно в юнионе можно найти человека, с которым вы за пару недель замутите темку и заработаете миллионы. Прямо перед моим носом, прямо несколько недель назад случилась такая история. К слову, я тоже делаю бизнес: недавно мы включили монетизацию для @Audio2MIDIBot .

Думаю, на митапах с акцентом на предпринимателей нужно максимально нетворкаться. С каждым индивидуально, понимая потребности и свои сильные стороны (хард скилы, связи в обществе, навыки руководства и тд). Нужно сделать так, чтобы когда вы или другой человек решит делать интересное дело, с бОльшей вероятностью его/ваше лицо вспомнилось первым.

Если вы готовы, все подробности по митапу здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8❤‍🔥6⚡4🥴1🤝1

1.3K viewsedited 11:00

VF | Science

ДААААААА
Я сделал это на 1 курсе бакалавра
Выполнена еще одна цель, поставленная на год

❤42👍13💋6🔥4🏆2

1.43K viewsedited 19:30

VF | Science

👀 Сегодня большой день: закрыть датафест, побыть ведущим, побыть спикером, пообщаться с сотней человек, а потом поехать на день рождения младшего брата! (точнее на то, что останется от вечеринки)

Секция про ML в музыке стартует в 17:20, мой доклад в 18:40. До встречи в прямом эфире! Все ссылки здесь.

Please open Telegram to view this post

VIEW IN TELEGRAM

ODS Events

В 12:05 мы стартуем эфир с офлайн-площадки Data Fest 2025 в гостях у X5 Tech!

В программе доклады из секций:

🛒 Data и ML в Retail от хоста площадки X5 Tech
🧠 NLP, AI4SE, Advanced LLM и целый блок докладов ML in Music 🎶 — от сообщества ODS🦜
📺 Ссылка на трансляцию…

❤9👍6🔥5🌚1

1K viewsedited 10:12

VF | Science

This media is not supported in your browser

VIEW IN TELEGRAM

0:12

1.01K views10:13

❤12🌚1

VF | Science

👀 Список аудио моделей, который регулярно обновляется

Периодически я возвращаюсь к репозиторию, где удобно разделены аудио модельки, чтобы быстро подобрать актуальную под свою задачу.

В репозитории рассматриваются три ключевые области: (1) модели для репрезентаций, (2) аудиокодеки и (3) языковые модели, которые способствуют развитию больших языковых моделей для речи/аудио.

*️⃣Модели для репрезентаций: Эти модели сосредоточены на обучении структурных представлений речи, которые затем могут быть квантованы в дискретные речевые токены, часто называемые семантическими токенами.

*️⃣Аудиокодеки: Эти модели предназначены для обучения дискретных токенов речи и аудио, часто называемых акустическими токенами, при сохранении способности к реконструкции и низкой битовой скорости.

*️⃣LLM для речи: Эти модели обучаются на основе речевых и акустических токенов с использованием подхода языкового моделирования. Они демонстрируют высокую эффективность в задачах понимания речи и генерации речи.

GitHub: https://github.com/ga642381/speech-trident

#audio #papers

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - ga642381/speech-trident: Awesome speech/audio LLMs, representation learning, and codec models

Awesome speech/audio LLMs, representation learning, and codec models - ga642381/speech-trident

❤8👍6🔥5✍21

1.08K viewsedited 17:30

VF | Science

👀 Тот самый приветственный пост спустя 19 месяцев

Меня зовут Захар Варфоломеев @varfolomeefff. Обучать нейронки это моя работа, я ML Engineer, объединяю музыку и технологии, а также немножко ученый и предприниматель + организатор и спикер на конференциях. Тяжело выделить конкретные факты, их много. Сначала начну со своей личности, потом расскажу про факты о карьере. Пора бы записать новый подкаст вообще)) А старые я, конечно, не дам 😆

Самое актуальное:
*️⃣Вокруг меня просто невероятные люди! Я общался со всеми слоями населения, знаю их истории и разделяю их взгляды. Мое окружение состоит из айтишников с опытом работы больше, чем мне лет, руководителей крупных департаментов, долларовых миллионеров, ученых с мировым именем, преподавателей... Есть лучшие из лучших, а в то же время я знаю, как живут и чего хотят обычные люди. Мне очень повезло, я тоже выходец из простой семьи. Кроме профессиональных кругов есть друзья и среди музыкантов, и профи спортсменов, писателей, врачей, юристов... Я узнал, какой интересной может быть жизнь, сколько всего можно попробовать и как работу, и как развлечение.
*️⃣У меня очень много интересов: шахматы, баскетбол, бильярд, фортепиано, бальные танцы, графический дизайн, стрит и астрофото, преподавание, люблю выступать на публику, печь тортики, сочинять стихи, кататься на скейте, смотреть аниме, изучать английский и японский, играть в комп. игры... список пополняется. Это скорее плохо, но сам по себе интерес не вредит)
*️⃣Я делал очень много ошибок, очень много мучился от десятков параллельных мыслей, слишком быстро взрослел, совсем не по годам и не от хорошей жизни (но жаловаться не на что). Завалил ЕГЭ, но устроился на работу мечты. Потерял друзей, но обрел новых, невероятных. Часто "тушил пожары", ничего не успевал как следует. Но тяжелые времена рождают сильных котиков!
*️⃣Начал кодить в 12 лет, я классический вкатун, у меня не было знакомых инженеров, математиков и т.д. В основном я и люди вокруг были творческими личностями.
*️⃣Последний год делаю стартап @Audio2MIDIBot, мы набрали более 15 тыс. юзеров и проверили много гипотез, сейчас учим новые нейронки.
*️⃣Весь мой коммерческий опыт в ML связан с обработкой аудио. Я обучал нейронки для генерации музыки, извлечения музыкальной информации, синтеза речи, классификации звуков и т.д.
*️⃣Люблю делиться знаниями, я потомственный преподаватель) Вы могли видеть мои выступления на множестве ML конференций, в вузах, в школах, на ютуб стримах и т.д. Получалось плохо, но становится только лучше.

Вот такой водопад слов! Теперь поделюсь примерами постов на разные темы:
1) Мое выступление с прошлого года и с этого года на DataFest.
2) Разбор в формате карточек секции ML in Music на датафесте (когда настроение хорошее, могу дизайнить, хы).
3) Немного о личной жизни.
4) О посещении конференции AIConf
5) Про мой ресерч VQ-VAE моделей: раз и два

Всем хорошего дня! Пора в путь.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥28❤19🏆135💩3

1.46K viewsedited 13:04

VF | Science

❤️ Секция про ML в музыке на DataFest 2025!

Посмотреть запись секции: https://vkvideo.ru/video-164555658_456241380?t=5h35m33s
Отдельно доклады будут выложены на ютубе позже.

Впервые за время существования датафеста (10 лет!) мною была собрана секция про ML в музыке и сразу 5 спикеров на 1 площадке:
▪️Максим Смоляков: "AI-Generated Music: методологии оценки качества и оптимизация генерации."

▪️

Алексей Попов: "Генерация пения с помощью диффузионных трансформеров."
▪️Иван Разворотнев: "Foundation Audio Models For Music."

▪️

Николай Глазырин: "Трейлеры в Яндекс Музыке с точки зрения ML инженера."

▪️

Захар Варфоломеев (я): "Автоматическая транскрипция музыки в ноты фортепиано. Часть 2. "

На докладах мы послушали музычку и узнали множество инсайдов при работе с авторегрессией и диффузией для генерации музыки, а также обсудили задачи music information retrieval (MIR), где поговорили о foundation моделях в музыке, существующих подходах (актуальных и не очень), выделении трейлеров в музыке, исследованиях по аудио кодекам... список длинный, поэтому предлагаю почитать резюме в формате карточек!

🔤

🔤На карточки про себя места не хватило, интересную мысль с моего доклада расскажу в следующем посте. Идеи применимы не только к моей задаче транскрипции музыки, а в целом к TTS/ASR моделям и не только 😬

#music #audio #perfomances

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16❤‍🔥8👍3✍2🔥2

7.78K views15:53

VF | Science

Forwarded from Ученый без степени | AI-блог Ани

🔍 Кстати, если вы давно искали структурированное руководство по аудио-кодекам — то вот оно!

🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки

Исследователи создали:

🔥

Таксономию токенайзеров: обзор подходов по архитектуре, способам квантизации, типам обучения и применению (речь, музыка, аудио вообще)

🔥

Анализ токенов: EnCodec, DAC, WavTokenizer и др. — что и как работает

🔥

Бенчмаркинг на разных задачах: от реконструкции аудио до задач понимания и генерации с LLM

Есть, что поизучать на выходных 💃

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7✍5👍3

1.24K views16:10

VF | Science

This media is not supported in your browser

VIEW IN TELEGRAM

0:34

1.2K views17:18

❤15❤‍🔥8

VF | Science

Video message

Кто любит джаз?) 🎶

Please open Telegram to view this post

VIEW IN TELEGRAM

❤‍🔥18☃3🗿3❤1🍾1

1.13K views17:18

👀 Небольшая демонстрация результата работы новой модели в @Audio2MIDIBot

Звучать стало несколько лучше на семплах, где модель повторялась и была неточной. Совсем скоро будет ещё лучше 💯

Далее хочется ускорить инференс и сделать модель компактнее.

#audio #startup

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥21❤9👏44

1.21K viewsedited 18:32

VF | Science

0:12

This media is not supported in your browser

VIEW IN TELEGRAM

Пов: как Захар проходил собесы в Яндекс, Сбер, Звук, Т-Банк и другие чудесные места

P. S. завтра сессия и 3 собеса в 1 день, как это произошло не знаю 😢

Please open Telegram to view this post

VIEW IN TELEGRAM

🤣26😁6🔥3💘2⚡1

1.21K viewsedited 20:07

About

Blog

Apps

Platform