Love. Death. Transformers.
22.5K subscribers
4.23K photos
498 videos
76 files
2.77K links
❤️☠️🤗

Указанные действия не являются ресерчем, поскольку:
а) Мы не ученые;
б) Оно работает.
@transformerslovedeatch по всем вопросам
Все ситуации вымышлены, любые совпадения с реальности плот вашей фантазии.
Download Telegram
Исследуем рынок ML с ребятами из VK, которые опросили более 300 ML-специалистов и вынесли результаты в карточки

Исследование провели вместе с социологами и научными коммуникаторами Университета ИТМО
🤡7630👍14🤮6😁322🔥1💯1
Forwarded from Den4ik Research
День рождения RUAccent

Сегодня день, когда была релизнута первая версия расстановщика ударений RUAccent, поэтому сегодня будет сравнимый по важности релиз.

1. RUAccent-encoders

RUAccent-encoder это специальная модель, для использования там, где другие модели не могут работать из-за BPE токенизации. Модель разработана для задач связанных с TTS и ударениями. Она интегрируется в качестве текстового энкодера в TTS моделях (например vits), при этом, штатный энкодер текстов удаляется из модели, в отличии от BERT-VITS, где используются два энкодера, поскольку duration predictor в VITS работает с отдельными символами. Также модель используется для расстановщиков ударений, фонемизаторов (а такой вероятно будет от меня) и т.д.

Модель обучалась в три этапа:

1. Претрейн модели на задачах AMLM (Autoregressive Masked Language Modelling, очень похожа на Fill In The Middle) и NSP (Next Sentence Prediction).
2. Дистилляция CDLM (старшей сестры RUAccent-encoder, обученной на бОльшем количестве данных) в модель
3. Обучение расстановке ударений в формате Token Classification. 

На этом закончилось обучение RUAccent-encoder. Теперь надо обучить модель понимать ударения на входе. Поэтому модель доучена в режиме AMLM + NSP на текстах с размеченными ударениями и появился RUAccent-stressed-encoder.

2. RUAccent-turbo3 и RUAccent-tiny2

За лето появилась идея как сделать разметчик, который сможет бесконечно снабжать относительно высококачественными данными. Это аудио, в котором почти всегда говорят ударения правильно (как оказалось нет). В итоге, где-то за месяц создана такая модель и за +- две недели размечено 500ГБ аудио (из 6ТБ). На отфильтрованных данных обучен tiny2 и turbo3. Благодаря разметчику создан более качественный тест сет, в котором нет утечек. 

На этом датасете замерены метрики предыдущих моделей и получены следующие метрики:

- big_poetry: 88.86%
- tiny: 90.63%
- turbo: 90.89%
- turbo2: 91.18%
- sber_proprietary: 91.91%
- tiny2 (NEW): 95.80%
- turbo3 (NEW): 96.37%

Отдельная благодарность @Sterling239 за помощь при замере метрик сберовской системы.


Также получены метрики систем расстановки ударений для обычных слов:

- StressRNN (Russtress): 0.673
- Ru Word Stress Deberta (Ilya Gusev): 0.931
- Silero: 0.952
- RUAccent: 0.972

При этом, модель RUAccent вторая по размеру после StressRNN (260KB) и весит всего 803 килобайта. Модель Silero весит ~2 мегабайта (информация отсюда), а Ru Word Stress Deberta 12.8 мегабайт

3. Планы на будущее

1. Поэкспериментировать с аттеншном в моделях и поправить случаи, когда модель в предложении одинаковыми омографами выдает одно предсказание для всех.
2. Улучшить Ёфикатор для краевых случаев.
3. Сделать фонемизатор с возможностью учитывания ударений, эфикацией.


RUAccent encoders: link
RUAccent 1.5.8: link
Донат: link

@den4ikresearch
25👍9🤡3❤‍🔥1
1🤓99😍2215😁9💯6👍51🍓1
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
5113😁4👍2
все новости, апдейты и прочее теперь будут жить в отдельной группе чтобы я не писал в этот канал, а еще чтобы разные отделы вихря могли рассказывать про то что сделали.

Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!

Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата

Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
51🎉43👍84
https://huggingface.co/AlexBefest/WoonaV1.2-9b ищу этого гения

Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
🤪30👍10🤡33🥴2🤔1
И тут про open Ai уже...
🦄6
жениться очень страшно.
а что, если мы будем стоять у прилавка с ягодами в супермаркете и я скажу ей «надеюсь, у тебя нет аллергии на клубнику», а она даже не поймет
😁55🤡19🤪4👎1🔥1🥴1
Мы все виноваты в этом пиздеце
👍7152😁24😍8👏5👎1
Все любят играть в бинго, так что кидайте в коменты - сколько очков набрали.
💊65😁284🎄4👍2🔥1🦄1
😁21420🐳12🌚8
Forwarded from Модель для сборки
⚡️ 10 правил, позволяющих Павлу Дурову сохранять свою молодость

— Избегайте алкоголя. Редкие исключения возможны, но в целом алкоголь ослабляет здоровье и делает людей визуально старше;
— Хранение и распространение порно с несовершеннолетними;
— Приобретение, перевозка, хранение или передача наркотиков;
— Организованное мошенничество;
— Предоставление оборудования/программы/данных для неких атак;
— Администрирование онлайн-платформы, через которую ОПГ осуществляли незаконные транзакции.
— Создание ОПГ с целью совершить преступление или правонарушение;
— Отказ предоставить органам информацию и документы для прослушки, разрешённой законом;
— Предоставление криптографических услуг для обеспечения конфиденциальности без соответствующего декларирования;
— Предоставление и импорт средств криптологии (шифрования) без предварительного заявления.
2😁145🥴63💅1396🤪6👍2👎2💯1🍌1
Forwarded from addmeto (Grigory Bakunov)
А вот это потенциальная бомба: Амазон судя по всему построил новую Алексу. В этот раз на базе Claude от Anthropic. Я очень надеюсь, что в этой Алексе будет такая же поддержка языков, как в Claude. Я вполне готов платить дополнительно 5-10 долларов в месяц за колонку, умеющую говорить на удобных мне языках https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
🔥55👍13🤮10🤡5💩3😍21👎1
🔥89🥴401313😁6😢32👍1🤮1