Forwarded from Ученый без степени | AI-блог Ани
🔗 «Discrete Audio Tokens: More Than a Survey!»
🔗 Бенчмарки
Исследователи создали:
Есть, что поизучать на выходных
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7✍5👍3
VF | Science
Video message
Кто любит джаз?) 🎶
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥18☃3🗿3❤1🍾1
Media is too big
VIEW IN TELEGRAM
Звучать стало несколько лучше на семплах, где модель повторялась и была неточной. Совсем скоро будет ещё лучше
Далее хочется ускорить инференс и сделать модель компактнее.
#audio #startup
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21❤9👏4 4
This media is not supported in your browser
VIEW IN TELEGRAM
Пов: как Захар проходил собесы в Яндекс, Сбер, Звук, Т-Банк и другие чудесные места
P. S. завтра сессия и 3 собеса в 1 день, как это произошло не знаю😢
P. S. завтра сессия и 3 собеса в 1 день, как это произошло не знаю
Please open Telegram to view this post
VIEW IN TELEGRAM
🤣26😁6🔥3💘2⚡1
В октябре я впервые встретился с Иваном Валерьевичем Оселедцем, генеральным директором AIRI. Полчаса я крутился и не мог решиться подойти, но подошёл. Оказалось совсем не страшно и не сложно говорить с уважаемым ученым, преподавателем, директором... Разговор пошел очень легко и плодотворно. Это было на конференции Fall into ML и тогда я решил, что напишу А* статью, а также поеду на лето с аири. Как нам сказали, это событие федерального масштаба и теперь ясно почему.
После того дня я много раз пересекался с сотрудниками аири, начал ходить на открытые семинары, научные конференции. Начал более углубленно изучать все, что казалось, я уже знал. Нашел тему для исследования, собрал множество мнений, навязывался к очень серьезным ученым и это было не зря! Поэтому сегодня я здесь.
Сейчас атмосфера и окружение способствует познанию нового. Конечно, мне очень захочется поделиться своим пониманием и выводами. До скорого.
#airi #carieer
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥21👍11 7🗿2⚡1
Forwarded from Den4ik Research
AIRI Poster.pdf
2.7 MB
Наш проект на Лето с AIRI 👾
Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.
Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):
1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов
@den4ikresearch
Мы с Захаром @vf_science решили выложить постер с нашим методом, по которому, вероятно, будет наш финальный проект.
Но есть несколько дополнений, ибо места в постере мало (проговорим вживую на постерной сессии):
1. Перплексия считается по кодбуку, а не по языковой модели (И да, чем больше тем лучше)
2. MOS низкий, поскольку у нас небыло времени обучить на достаточном количестве данных, а рисерч пропозал делать надо :)
3. Планируем сэмплировть новые коды в менее плотных местах распределения + имеет смысл проводить революцию среди насэмплированных кодов
@den4ikresearch
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤4 2👍1
Den4ik Research
AIRI Poster.pdf
Нифига, я выбрал делать выделение экшнов из видео для обучения VLA (Vision Language Action) моделей, которые интегируются в роботов. Хотя там тоже есть VQ-VAE и играет критическую роль. Это позволит сделать фаундешн модель для роботов, однажды, кому-то, как пойдет, или не пойдет) Удачи мне... :)
⚡12❤🔥5❤2👍1🤯1
VF | Science
Video message
1,5 часа прошли как по щелчку... Атмосфера была супер! Давно мечтал поучаствовать в мероприятии такого формата. Локация выбрана прекрасно, длинный коридор напротив актового зала ТГУ, портреты уважаемых отечественных ученых над постерами, стены, возведённые в 1870х годах, товарищи неравнодушные к современной науке и моей работе!
Через полчаса второй акт, где слушать уже буду я. Интересных работ предостаточно.
Через полчаса второй акт, где слушать уже буду я. Интересных работ предостаточно.
👍9❤4🍌1
Forwarded from ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot
🎯 Channel:
🔥 Roast Analysis:
Ну что, Захар «я-в-18-лет-уже-кандидат-наук» Варфоломеев, пришло время для разбора полетов. Читаю твой канал и складывается ощущение, что ты решил в одиночку закрыть все вакансии в IT-индустрии: и ML-инженер, и ресерчер, и стартапер, и спикер, и организатор, и даже пекарь тортиков. Ты когда спишь вообще? А, точно, не спишь, ты же в 4 утра доделываешь презентацию, потому что через 4 часа лететь в Уфу «поражать людей своей харизмой и умом». Скромность — это точно не про тебя.
Ты так часто пишешь про VQ-VAE, что у меня скоро начнется «коллапс кодбука» в голове. «Братишка, я тебе покушать принес» — и вываливает список из 13 статей. Спасибо, братишка, я лучше голодным останусь. Уже все поняли, что ты нашел свою главную любовь. Ждем пост «Как прошла наша свадьба с VQ-VAE. На медовый месяц обучаем новую модельку». А потом, конечно же, «Полный отказ от VQ-VAE, это была ошибка молодости». Классика.
Твои цели на год длиннее, чем «Война и мир». Написать статью на NIPS, вырасти до синьора, выучить японский, помочь сотням студентов, и, видимо, колонизировать Марс. Ты там случайно не перепутал список дел со списком желаний для Деда Мороза? Особенно доставляет пункт «Понять какие цели и пути мне реально важны». То есть сначала ты записался во все кружки мира, а потом сел думать, а зачем тебе это все надо. Гениальный план, Захар, надежный, как швейцарские часы.
Отдельная тема — твой нетворкинг. «Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов». Ты уже, я смотрю, мысленно переехал в Сколково и выбираешь цвет для своего «круглого тензора». Скоро, чтобы с тобой пива выпить, надо будет регистрироваться на митап, проходить три этапа собеседования и приносить с собой постерную сессию.
И, конечно, венец твоей карьеры — «завалил ЕГЭ, но устроился на работу мечты, которую увы не удержал в кошачьих лапках». Это самый эпичный путь от «ууу, развелось нынче малолеток» до «я снова буду более зрелым спецом». Ладно, малой, расти большой, не будь лапшой. Но только умоляю, прекрати так часто использовать слово «бьютифул» и смущенный смайлик. А то выглядит, будто ты сам в шоке от того, что натворил.
🎯 Channel:
@vf_science🔥 Roast Analysis:
Ну что, Захар «я-в-18-лет-уже-кандидат-наук» Варфоломеев, пришло время для разбора полетов. Читаю твой канал и складывается ощущение, что ты решил в одиночку закрыть все вакансии в IT-индустрии: и ML-инженер, и ресерчер, и стартапер, и спикер, и организатор, и даже пекарь тортиков. Ты когда спишь вообще? А, точно, не спишь, ты же в 4 утра доделываешь презентацию, потому что через 4 часа лететь в Уфу «поражать людей своей харизмой и умом». Скромность — это точно не про тебя.
Ты так часто пишешь про VQ-VAE, что у меня скоро начнется «коллапс кодбука» в голове. «Братишка, я тебе покушать принес» — и вываливает список из 13 статей. Спасибо, братишка, я лучше голодным останусь. Уже все поняли, что ты нашел свою главную любовь. Ждем пост «Как прошла наша свадьба с VQ-VAE. На медовый месяц обучаем новую модельку». А потом, конечно же, «Полный отказ от VQ-VAE, это была ошибка молодости». Классика.
Твои цели на год длиннее, чем «Война и мир». Написать статью на NIPS, вырасти до синьора, выучить японский, помочь сотням студентов, и, видимо, колонизировать Марс. Ты там случайно не перепутал список дел со списком желаний для Деда Мороза? Особенно доставляет пункт «Понять какие цели и пути мне реально важны». То есть сначала ты записался во все кружки мира, а потом сел думать, а зачем тебе это все надо. Гениальный план, Захар, надежный, как швейцарские часы.
Отдельная тема — твой нетворкинг. «Место для будущих или уже гениев, плейбоев, миллиардеров и филантропов». Ты уже, я смотрю, мысленно переехал в Сколково и выбираешь цвет для своего «круглого тензора». Скоро, чтобы с тобой пива выпить, надо будет регистрироваться на митап, проходить три этапа собеседования и приносить с собой постерную сессию.
И, конечно, венец твоей карьеры — «завалил ЕГЭ, но устроился на работу мечты, которую увы не удержал в кошачьих лапках». Это самый эпичный путь от «ууу, развелось нынче малолеток» до «я снова буду более зрелым спецом». Ладно, малой, расти большой, не будь лапшой. Но только умоляю, прекрати так часто использовать слово «бьютифул» и смущенный смайлик. А то выглядит, будто ты сам в шоке от того, что натворил.
🤣24🔥9🌭6🌚2😁1
Forwarded from Zahar
ScratchAuthorEgo
📊 Channel Analysis Results by @ScratchAuthorEgoBot 🎯 Channel: @vf_science 🔥 Roast Analysis: Ну что, Захар «я-в-18-лет-уже-кандидат-наук» Варфоломеев, пришло время для разбора полетов. Читаю твой канал и складывается ощущение, что ты решил в одиночку закрыть…
АХАХАХАХ ноу коментс
❤9🍌2
Последнее время часто замечаю некоторую мысль, вижу ее в статьях, в решениях моих товарищей и также активно применяю ее в нашем проекте @Audio2MIDIBot. Сталкивались ли вы с задачей, которая кажется неподъёмной для одной нейросети? Когда данные настолько сложны, что даже самая глубокая архитектура не справляется? Сегодня я хочу поговорить о мощном принципе, который помогает решать такие проблемы — о декомпозиции.
Идея особенно актуальна, когда мы пытаемся решить сложную генеративную или дискриминативную задачу в один этап: подали на вход сырые данные — на выходе получили финальный результат. Такой подход часто ведет к нестабильному обучению и посредственному качеству.
Ключевая мысль: сложную проблему нужно разбить на последовательность более простых.
Каждый следующий этап нашего решения (будь то слой в сети или отдельная модель) должен работать с уже упрощенным, более "чистым" представлением данных. Мы последовательно снижаем неопределенность, пока финальная задача не станет почти тривиальной. Как говорил методолог Георгий Щедровицкий: «Решение задачи состоит в том, что мы находим язык, в котором решение очевидно».
В мире DL этот поиск "языка" — это, по сути, архитектурный feature engineering. Мы не просто надеемся, что сеть сама всё выучит. Мы сознательно проектируем пайплайн так, чтобы помочь ей это сделать и определяем данные на вход.
А теперь вопрос: как максимально упростить задачу? Под упростить я понимаю уменьшить неопределнность модели в отношении желаемого результата. Получить такой преобразование распределния, чтобы модель быстро и точно научилась решать целевую задачу. Мы снова делаем feature engineering. Хотя почти все думают, что в нейросетях фичи выделяются автоматически - с одной стороны это верно. С другой - именно мы контролируем, как эти фичи будут выделяться и что подавать на вход.
Самое время увидеть примеры, где мы обощаем мысль за пределы преобразований между слоями нейросети.
Пример 1: Музыка в ноты (@Audio2MIDIBot)
Мы хотим создать нейросеть, которая переводит ЛЮБУЮ музыку в ноты для фортепиано. Пространство всех аудиозаписей в мире невероятно сложное и зашумленное. Обучить одну модель "аудио -> детализированное MIDI" — гигантская и нестабильная задача, в частности из за аудиокодеков.
Решение через декомпозицию: разбиываем процесс на два этапа:
Этот двухэтапный подход стал прорывом в нашем проекте, кардинально улучшив качество (подробнее о недостатках я рассказывал на Data Fest).
Пример 2: Стилизация портретов (от Алексея Попова)
Команда Леши делала диффузионную модель для стилизации портрета (например, добавить мультяшные эффекты). Полностью генерировать стилизованный портрет с нуля, сохраняя черты лица конкретного человека, очень сложно. Модель легко может "забыть" исходные детали.
Решение через декомпозицию: Вместо генерации с нуля, процесс можно разбить:
Так модель лучше сохраняет индивидуальные черты лица, а стилизация получается более качественной и предсказуемой.
#research #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3✍2 2👍1
Пример 3: Иерархическая генерация изображений (NeurIPS Best Paper)
Третий пример довольно абстрактный. Теперь мы хотим генерировать детализированное изображение 512x512 за один проход — вычислительно и концептуально сложная задача. Модель должна одновременно думать и о композиции, и о мелких текстурах. Решение через декомпозицию: Иерархический подход.
▪️ Этап 1: Генерируется изображение очень низкого разрешения (например, 64x64), которое определяет общую композицию и цвета.
▪️ Этап 2, 3...: Последовательные модели (или шаги) повышают разрешение, каждый раз добавляя детали поверх уже существующей структуры.
Получается более стабильная генерация и высокий уровень детализации, которого сложно достичь за один шаг.
Постарался описать большими мазками данную в начале мысль. В следующий раз, столкнувшись с задачей, которая кажется нерешаемой, спросите себя: "А можно ли ее разбить на несколько подзадач попроще?" Возможно, именно в этом и кроется ключ к успеху) Вот такая абстрактная мысль очень часто встречается в моей работе за последний год.
#research #papers
Третий пример довольно абстрактный. Теперь мы хотим генерировать детализированное изображение 512x512 за один проход — вычислительно и концептуально сложная задача. Модель должна одновременно думать и о композиции, и о мелких текстурах. Решение через декомпозицию: Иерархический подход.
Получается более стабильная генерация и высокий уровень детализации, которого сложно достичь за один шаг.
Постарался описать большими мазками данную в начале мысль. В следующий раз, столкнувшись с задачей, которая кажется нерешаемой, спросите себя: "А можно ли ее разбить на несколько подзадач попроще?" Возможно, именно в этом и кроется ключ к успеху) Вот такая абстрактная мысль очень часто встречается в моей работе за последний год.
#research #papers
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10❤🔥3🍓3🫡1 1
Forwarded from Ученый без степени | AI-блог Ани
Видео про диффузионные модели и как они связаны с физикой, CLIP, как происходит процесс трансформации шума в реалистичное видео, что используют для ускорения и улучшения качества генерации, ну и много другого интересного
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Please open Telegram to view this post
VIEW IN TELEGRAM
😁18🤣8👍2🌚2🔥1
Forwarded from Den4ik Research
Наш русскоязычный датасет для TTS опубликован!
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1
Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам:
Многоголосые:
ESpeech-podcasts - 3200 часов
ESpeech-webinars - 850 часов
Одноголосые:
ESpeech-igm - 220 часов
ESpeech-buldjat - 54 часа
ESpeech-upvote - 296 часов
ESpeech-tuchniyzhab - 306 часов
Данные лежат вот тут: https://huggingface.co/ESpeech
Также, мы решили провести некоторые эксперименты с TTS. Получилось обучить F5-TTS на 10000 часов речи и сделать одну из лучших по нашим замерам моделей в опенсурсе для русского языка.
Какие модели доступны?
ESpeech-TTS-1 [RL] V1 - Первая версия модели с RL
ESpeech-TTS-1 [RL] V2 - Вторая версия модели с RL
ESpeech-TTS-1 PODCASTER [SFT] - Модель обученная только на подкастах, лучше генерирует спонтанную речь
ESpeech-TTS-1 [SFT] 95K - чекпоинт с 95000 шагов (на нем основана RL V1)
ESpeech-TTS-1 [SFT] 265K - чекпоинт с 265000 шагов (на нем основана RL V2)
Лайкайте модель которая больше понравится чтобы мы понимали есть ли смысл запускать RL.
Послушать модели без скачивания можно вот здесь:
https://huggingface.co/spaces/Den4ikAI/ESpeech-TTS
Совместно с @speech_recognition_ru ещё сделали лидерборд русского ТТС, где можно глянуть метрики:
https://huggingface.co/spaces/ESpeech/open_tts_leaderboard_ru
Задать вопросы по поводу данных и модели можно в наших телеграм каналах:
https://t.me/den4ikresearch
https://t.me/voice_stuff_chat
Вы можете мне задонатить, чтобы у меня были ресурсы делать более крутые модели и датасеты:
USDT (Tether): 0xdCd6ebb3eA69A7D667F2aB22B7ac1E3616D1C4A5
BTC: bc1qw5lq7fc455e47hggax6zp8txw4ru7yvsxvawv3
https://www.tbank.ru/cf/7WKnNMqWtOx
❤14⚡4❤🔥4🍌1
Den4ik Research
Наш русскоязычный датасет для TTS опубликован! Сегодня выкладываем открытые корпуса на 4000+ часов речи, а еще синтезатор речи ESpeech-TTS-1 Наш датасет содержит больше 4000 часов русской речи. Статистика по корпусам: Многоголосые: ESpeech-podcasts - 3200…
А я видел как он не спал сутками и сходил с ума, чтобы успеть релизнуть в августе. Все это будучи школьником в 16 лет.
СКИДЫВАЕМ 1000 НА ШТОРЫ ДЕНИСУ:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
https://www.tbank.ru/cf/7WKnNMqWtOx
СКИДЫВАЕМ 1000 НА ШТОРЫ ДЕНИСУ:
USDT (TRC20): TEpEM4VVmGmqKHn4Xz1FxM7qZiXjWtUEUB
https://www.tbank.ru/cf/7WKnNMqWtOx
Т‑Банк
Сбор на другое
Деньги собирает Денис П..
🤯14⚡3👍3🔥2😢1