Господи какая телега убогая стала, ебанный рот, они блять дизайнеров тоже после литкода набирают? Нахуй я тут блог завёл... Пиздец просто пиздец....
👍81🤣46🤡32👎13✍3🤮3❤2😐1
#чтивонаночь по быстрому
CODEFUSION: A Pre-trained Diffusion Model for Code Generation
и это прям умно - авторы берут претрен T5 еncoder, кидают его стейты в Denoiser(10 блоков трансформера - неизвестных) а в качестве декодера - 6 блоков декодера.
По метрика лучше чем соседи по классу, местами бьет 100кратно лучшие модели
а еще слили размер chatgpt, оказывается она всего то 20B.
Имаджинируете лица людей которые разгоняли что у open ai в проде 175b?
paper
CODEFUSION: A Pre-trained Diffusion Model for Code Generation
и это прям умно - авторы берут претрен T5 еncoder, кидают его стейты в Denoiser(10 блоков трансформера - неизвестных) а в качестве декодера - 6 блоков декодера.
По метрика лучше чем соседи по классу, местами бьет 100кратно лучшие модели
а еще слили размер chatgpt, оказывается она всего то 20B.
Имаджинируете лица людей которые разгоняли что у open ai в проде 175b?
если тут будет очень много реакций я напишу нормальный обзор
paper
❤🔥72🦄15👾9🍾5👍2🤔2🤪2☃1
Бауманцы выдали базу. Горжусь!
❤156🔥40😁33🤡10❤🔥5🗿4👎2🆒1
Love. Death. Transformers.
Бауманцы выдали базу. Горжусь!
Верю в силу канала(знаю что подписано некоторое количество профессоров и руководителей разного уровня)
Пожалуйста - объяьсните коллегам в МГТУ что они очень сильно не правы, очевидно что угрозы не реализуются, но они сами ставят себя в заранее слабую позицию.
Пожалуйста - объяьсните коллегам в МГТУ что они очень сильно не правы, очевидно что угрозы не реализуются, но они сами ставят себя в заранее слабую позицию.
👍135🤡41🤣7🍓2❤1🎉1
Короче, я тут обнаружил что очень мало людей знают о сущестовании longread_ов в этом канале, а значит я напомню что уже вышли:
Учим CLIP правильно - Sigmoid loss for TI pretrain
Cамагонная LM - phi1
RLAIF - lm учит Lm
ALIBI
(в teletype еще есть)
Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для русских карт: 5280417710524519
Для иностранных карт:5269880013404165
Учим CLIP правильно - Sigmoid loss for TI pretrain
Cамагонная LM - phi1
RLAIF - lm учит Lm
ALIBI
(в teletype еще есть)
Если вам нравиться такой формат, то можно поддержать сюда, я перестал брать рекламу, а кофе и круасан сам себя не оплатит:
Для иностранных карт:
Teletype
учим clip правильно - Sigmoid Loss for Language Image PT
Классические CLIP учиться по очень простой схеме - берем картиночную бошку(VIT,RN) не очень важно, инитим LM и учим все это...
✍39❤15👍4❤🔥2🖕2🏆1
#чтивонаночь - LLAVA 1.5
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!
teletype
paper
github
Вероятно лучшая открытая мультимодалка этой осени, которая по каким то причинам никому не интересна, а зря!
teletype
paper
github
❤48👍8🤡6🤣4✍3👎3🗿3
Forwarded from Пресидский залив (Nadia ズエバ)
подборка классных сеток из мира audio processing 😎
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла😉
1. speech-speech MT от меты. Работает хорошо, не онлайн, не переносит исходную интонацию. Зато доступно очень много языков и опенсорс
2. HeyGen video-video машинный перевод с voice cloning и lip sync. Интонация хороша, но по моему опыту голос не всегда получается похож и доступно очень немного языков, доступен только веб-интерфейс. Переводить свои видео с русского на английский вполне себе может
3. Podcaster сетка из 2022, которая заметно повышает качество исходной записи, убирает шумы и нежелательные артефакты записи. Жаль, что только веб интерфейс
4. Riffusion-2 генерирует "рифы", то есть короткие видео со сгенерированным голосом по промпту в заданном стиле. Доступна первая версия в опенсорсе, которая генерирует звуки. Однако, на мой взгляд, новая версия принципиально отличается по архитектуре (слова произносятся четко, скорее всего это генерация мелодии и вокала отдельно. Как, например, в suno)
5. Suno bark и chirp text-prompt speech generation (AudioLM + nanoGPT). Любопытная вещь, в которой в промпте можно указывать особенности голоса на выходе. Например сетка будет имитировать британский акцент или пытаться петь. Скорее фан, качество на выходе так себе. Правда, коммерческая версия sono поинтереснее и поет хорошо
6. RVC для one-shot singing voice synthesis по 3м минутам пения. Генерирует круто, играться с webui интересно. Но если вам нужно это встроить, придется повозиться. Спасибо, что хотя бы английский мануал добавили..
7. Distill Whisper speech-to-text (coming soon!) обещают более быструю и легкую версию выложить в ближайшее время. Кстати если вы искали whisper и разбивкой по словам по таймстепмам или диаризацию, то вам сюда
8. stable-audio-tools опенсорс от stability-ai с удобным интерфейсом для файнтюна генерации аудио
9. audiocraft от меты text-to-melody, text-to-sound - аудиолмки с хорошим качеством генерации. Однако иногда в musicgen сбивается ритм, в остальном очень годно
10. llark music understanding, captioning and reasoning от спотифая. Похоже, самая крупная lm в звуке на момент написания поста. Может давать фидбек и советы музыкантам и описывать что происходит на музыкальной дорожке. Код выложили, демо выложили, надеюсь претрейн или хотя бы доступ по апи дадут
пишите в комментах, что забыла
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29🔥8☃2❤🔥2❤2👀1
Forwarded from Жёлтый AI
Между тем, @kefirski в своем докладе спойлерил, что у нас скоро состоится TLab event, – так вот этот момент настал!
9 ноября в 19:00 студенты нашей Лаборатории расскажут, над чем они работали и что у них получилось:
- Соня про ранний выход из текстовых диффузий
- Кирилл про Deepfake Detection
- А Нурлан расскажет про то, как распознавать речь, состоящую из смеси языков
Приходите на ивент, на нем можно будет со всеми нами пообщаться, и может даже найти себе топовую позицию в Лабораторию 🎩
9 ноября в 19:00 студенты нашей Лаборатории расскажут, над чем они работали и что у них получилось:
- Соня про ранний выход из текстовых диффузий
- Кирилл про Deepfake Detection
- А Нурлан расскажет про то, как распознавать речь, состоящую из смеси языков
Приходите на ивент, на нем можно будет со всеми нами пообщаться, и может даже найти себе топовую позицию в Лабораторию 🎩
❤17👍4👎1🔥1🍓1
Love. Death. Transformers.
Жена знакомого работает в Кембридже. Сегодня срочно вызвали на совещание. Вернулась поздно и ничего не объяснила. Сказала лишь собирать вещи и бежать на амазон за GPU на два девбокса. Сейчас едем кукухой. Не знаю что происходит, но мне кажется началось...
cпасибо чату
🫡98❤11🤮6💯5😭3👎1😐1
Forwarded from что-то на DL-ском
Занятная альтернатива prompt-tuning, апгрейд на бенчмарках GLUE и Super-GLUE. Понравилась работа из-за оценки схожести в эмбединговом пространстве множеств задач относительно друг друга
Теперь по-порядку: у prompt-tuning идея в том, что можно поставить виртуальные токены в начало и обучить только эту часть представлений.
Идея SPoT, а давайте не просто обучим, а сделаем некоторый codebook (как в vq-vae, но это условно, просто уж идея очень похожа). Как составить этот словарик? На ранних стадиях виртуальные токены берем, как значения эмбедингов задачи, а на лучшем чекпоинте (уже поучили), как source prompt (получаем словарь ключ – значение). При обучении, ищем самый близкий эмбединг задачи и настраиваем дальше его source prompt.
Смысл в том, что можно миксовать задачи и дообучать одну из другой, что судя по бенчам хорошо работает, а сам heatmap на третьем скрине
В общем-то еще один способ для мультитаска, а вот сам
🖥 код
Теперь по-порядку: у prompt-tuning идея в том, что можно поставить виртуальные токены в начало и обучить только эту часть представлений.
Идея SPoT, а давайте не просто обучим, а сделаем некоторый codebook (как в vq-vae, но это условно, просто уж идея очень похожа). Как составить этот словарик? На ранних стадиях виртуальные токены берем, как значения эмбедингов задачи, а на лучшем чекпоинте (уже поучили), как source prompt (получаем словарь ключ – значение). При обучении, ищем самый близкий эмбединг задачи и настраиваем дальше его source prompt.
Смысл в том, что можно миксовать задачи и дообучать одну из другой, что судя по бенчам хорошо работает, а сам heatmap на третьем скрине
В общем-то еще один способ для мультитаска, а вот сам
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥13👎6👍2❤1🤔1
Forwarded from Научно-Технический Рэп
- ой, простите, а это ваша языковая модель?
- моя.
- а она код пишет?
- пишет.
- но он же не работает?
- не работает.
- моя.
- а она код пишет?
- пишет.
- но он же не работает?
- не работает.
❤81😁24👍9🤣3😢2🐳2🥴1🙈1