Исследуем рынок ML с ребятами из VK, которые опросили более 300 ML-специалистов и вынесли результаты в карточки
Исследование провели вместе с социологами и научными коммуникаторами Университета ИТМО
Исследование провели вместе с социологами и научными коммуникаторами Университета ИТМО
🤡76 30👍14🤮6😁3✍2 2🔥1💯1
Forwarded from Den4ik Research
День рождения RUAccent
Сегодня день, когда была релизнута первая версия расстановщика ударений RUAccent, поэтому сегодня будет сравнимый по важности релиз.
1. RUAccent-encoders
RUAccent-encoder это специальная модель, для использования там, где другие модели не могут работать из-за BPE токенизации. Модель разработана для задач связанных с TTS и ударениями. Она интегрируется в качестве текстового энкодера в TTS моделях (например vits), при этом, штатный энкодер текстов удаляется из модели, в отличии от BERT-VITS, где используются два энкодера, поскольку duration predictor в VITS работает с отдельными символами. Также модель используется для расстановщиков ударений, фонемизаторов (а такой вероятно будет от меня) и т.д.
Модель обучалась в три этапа:
1. Претрейн модели на задачах AMLM (Autoregressive Masked Language Modelling, очень похожа на Fill In The Middle) и NSP (Next Sentence Prediction).
2. Дистилляция CDLM (старшей сестры RUAccent-encoder, обученной на бОльшем количестве данных) в модель
3. Обучение расстановке ударений в формате Token Classification.
На этом закончилось обучение RUAccent-encoder. Теперь надо обучить модель понимать ударения на входе. Поэтому модель доучена в режиме AMLM + NSP на текстах с размеченными ударениями и появился RUAccent-stressed-encoder.
2. RUAccent-turbo3 и RUAccent-tiny2
За лето появилась идея как сделать разметчик, который сможет бесконечно снабжать относительно высококачественными данными. Это аудио, в котором почти всегда говорят ударения правильно (как оказалось нет). В итоге, где-то за месяц создана такая модель и за +- две недели размечено 500ГБ аудио (из 6ТБ). На отфильтрованных данных обучен tiny2 и turbo3. Благодаря разметчику создан более качественный тест сет, в котором нет утечек.
На этом датасете замерены метрики предыдущих моделей и получены следующие метрики:
- big_poetry: 88.86%
- tiny: 90.63%
- turbo: 90.89%
- turbo2: 91.18%
- sber_proprietary: 91.91%
- tiny2 (NEW): 95.80%
- turbo3 (NEW): 96.37%
Отдельная благодарность @Sterling239 за помощь при замере метрик сберовской системы.
Также получены метрики систем расстановки ударений для обычных слов:
- StressRNN (Russtress): 0.673
- Ru Word Stress Deberta (Ilya Gusev): 0.931
- Silero: 0.952
- RUAccent: 0.972
При этом, модель RUAccent вторая по размеру после StressRNN (260KB) и весит всего 803 килобайта. Модель Silero весит ~2 мегабайта (информация отсюда), а Ru Word Stress Deberta 12.8 мегабайт
3. Планы на будущее
1. Поэкспериментировать с аттеншном в моделях и поправить случаи, когда модель в предложении одинаковыми омографами выдает одно предсказание для всех.
2. Улучшить Ёфикатор для краевых случаев.
3. Сделать фонемизатор с возможностью учитывания ударений, эфикацией.
RUAccent encoders: link
RUAccent 1.5.8: link
Донат: link
@den4ikresearch
Сегодня день, когда была релизнута первая версия расстановщика ударений RUAccent, поэтому сегодня будет сравнимый по важности релиз.
1. RUAccent-encoders
RUAccent-encoder это специальная модель, для использования там, где другие модели не могут работать из-за BPE токенизации. Модель разработана для задач связанных с TTS и ударениями. Она интегрируется в качестве текстового энкодера в TTS моделях (например vits), при этом, штатный энкодер текстов удаляется из модели, в отличии от BERT-VITS, где используются два энкодера, поскольку duration predictor в VITS работает с отдельными символами. Также модель используется для расстановщиков ударений, фонемизаторов (а такой вероятно будет от меня) и т.д.
Модель обучалась в три этапа:
1. Претрейн модели на задачах AMLM (Autoregressive Masked Language Modelling, очень похожа на Fill In The Middle) и NSP (Next Sentence Prediction).
2. Дистилляция CDLM (старшей сестры RUAccent-encoder, обученной на бОльшем количестве данных) в модель
3. Обучение расстановке ударений в формате Token Classification.
На этом закончилось обучение RUAccent-encoder. Теперь надо обучить модель понимать ударения на входе. Поэтому модель доучена в режиме AMLM + NSP на текстах с размеченными ударениями и появился RUAccent-stressed-encoder.
2. RUAccent-turbo3 и RUAccent-tiny2
За лето появилась идея как сделать разметчик, который сможет бесконечно снабжать относительно высококачественными данными. Это аудио, в котором почти всегда говорят ударения правильно (как оказалось нет). В итоге, где-то за месяц создана такая модель и за +- две недели размечено 500ГБ аудио (из 6ТБ). На отфильтрованных данных обучен tiny2 и turbo3. Благодаря разметчику создан более качественный тест сет, в котором нет утечек.
На этом датасете замерены метрики предыдущих моделей и получены следующие метрики:
- big_poetry: 88.86%
- tiny: 90.63%
- turbo: 90.89%
- turbo2: 91.18%
- sber_proprietary: 91.91%
- tiny2 (NEW): 95.80%
- turbo3 (NEW): 96.37%
Отдельная благодарность @Sterling239 за помощь при замере метрик сберовской системы.
Также получены метрики систем расстановки ударений для обычных слов:
- StressRNN (Russtress): 0.673
- Ru Word Stress Deberta (Ilya Gusev): 0.931
- Silero: 0.952
- RUAccent: 0.972
При этом, модель RUAccent вторая по размеру после StressRNN (260KB) и весит всего 803 килобайта. Модель Silero весит ~2 мегабайта (информация отсюда), а Ru Word Stress Deberta 12.8 мегабайт
3. Планы на будущее
1. Поэкспериментировать с аттеншном в моделях и поправить случаи, когда модель в предложении одинаковыми омографами выдает одно предсказание для всех.
2. Улучшить Ёфикатор для краевых случаев.
3. Сделать фонемизатор с возможностью учитывания ударений, эфикацией.
RUAccent encoders: link
RUAccent 1.5.8: link
Донат: link
@den4ikresearch
❤25👍9🤡3❤🔥1
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!
C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b
RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.
На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.
Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
huggingface.co
Russian LLM Leaderboard - a Hugging Face Space by Vikhrmodels
Submit your language model for evaluation and track its performance against others. Provide model details and upload evaluation files to see results.
51❤13😁4👍2
все новости, апдейты и прочее теперь будут жить в отдельной группе чтобы я не писал в этот канал, а еще чтобы разные отделы вихря могли рассказывать про то что сделали.
Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!
Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата
Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
Огромная благодарность @ai_newz @denissexy @rybolos_channel @boris_again @senior_augur за поддержку релиза!
Его для вас делали
@nlpwanderer
@mlunderground
@suro4ekgg
а я рядом стоял и пинал всю эту махину до результата
Вроде никого не забыл. Так же огромное спасибо Михаилу, Илье за то что тестировали ранние версии и указывали на проблемы!
51🎉43👍8❤4
https://huggingface.co/AlexBefest/WoonaV1.2-9b ищу этого гения
Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
Гемма доученная на MLP RP релизнулась, я поигрался и она прям хорошая!
huggingface.co
SlerpE/WoonaV1.2-9b · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🤪30👍10🤡3 3🥴2🤔1
Forwarded from ливлайкгэнгста в мире животных
жениться очень страшно.
а что, если мы будем стоять у прилавка с ягодами в супермаркете и я скажу ей «надеюсь, у тебя нет аллергии на клубнику», а она даже не поймет
а что, если мы будем стоять у прилавка с ягодами в супермаркете и я скажу ей «надеюсь, у тебя нет аллергии на клубнику», а она даже не поймет
😁55🤡19🤪4👎1🔥1🥴1
Forwarded from Метаверсошная
Все любят играть в бинго, так что кидайте в коменты - сколько очков набрали.
💊65😁28❤4🎄4👍2🔥1🦄1
Forwarded from Модель для сборки
⚡️ 10 правил, позволяющих Павлу Дурову сохранять свою молодость
— Избегайте алкоголя. Редкие исключения возможны, но в целом алкоголь ослабляет здоровье и делает людей визуально старше;
— Хранение и распространение порно с несовершеннолетними;
— Приобретение, перевозка, хранение или передача наркотиков;
— Организованное мошенничество;
— Предоставление оборудования/программы/данных для неких атак;
— Администрирование онлайн-платформы, через которую ОПГ осуществляли незаконные транзакции.
— Создание ОПГ с целью совершить преступление или правонарушение;
— Отказ предоставить органам информацию и документы для прослушки, разрешённой законом;
— Предоставление криптографических услуг для обеспечения конфиденциальности без соответствующего декларирования;
— Предоставление и импорт средств криптологии (шифрования) без предварительного заявления.
— Избегайте алкоголя. Редкие исключения возможны, но в целом алкоголь ослабляет здоровье и делает людей визуально старше;
— Хранение и распространение порно с несовершеннолетними;
— Приобретение, перевозка, хранение или передача наркотиков;
— Организованное мошенничество;
— Предоставление оборудования/программы/данных для неких атак;
— Администрирование онлайн-платформы, через которую ОПГ осуществляли незаконные транзакции.
— Создание ОПГ с целью совершить преступление или правонарушение;
— Отказ предоставить органам информацию и документы для прослушки, разрешённой законом;
— Предоставление криптографических услуг для обеспечения конфиденциальности без соответствующего декларирования;
— Предоставление и импорт средств криптологии (шифрования) без предварительного заявления.
2😁145🥴63💅13 9❤6🤪6👍2👎2💯1🍌1
Forwarded from addmeto (Grigory Bakunov)
А вот это потенциальная бомба: Амазон судя по всему построил новую Алексу. В этот раз на базе Claude от Anthropic. Я очень надеюсь, что в этой Алексе будет такая же поддержка языков, как в Claude. Я вполне готов платить дополнительно 5-10 долларов в месяц за колонку, умеющую говорить на удобных мне языках https://www.reuters.com/technology/artificial-intelligence/amazon-turns-anthropics-claude-alexa-ai-revamp-2024-08-30/
🔥55👍13🤮10🤡5💩3😍2❤1👎1
Love. Death. Transformers.
@simplyobot подняли бота от мужского одиночества. Бесплатно. Мощно. Надолго.
@simplyobot Перевалил отметку в 100м токенов и 1200 пользователей, из которых 400 пользуется каждый день!
Так же мы добавили Flux теперь веселее.
Планируем добавить еще поддержку груповых чатов
Так же мы добавили Flux теперь веселее.
Планируем добавить еще поддержку груповых чатов
🔥28🤡15🤮5💩4👍2
Forwarded from Vikhr models
LLM Arena для русскоязычных моделей получила ускоренный подсчет интервалов от коллег из JetBrains Research
Ребята из JB интегрировали Evalic_y в наш бенчмарк, благодаря этому все считается на 60% быстрее!
А обновление уже в репозитории!
посмотреть подробнее Evalica
Ребята из JB интегрировали Evalic_y в наш бенчмарк, благодаря этому все считается на 60% быстрее!
А обновление уже в репозитории!
посмотреть подробнее Evalica
GitHub
GitHub - dustalov/evalica: Evalica, your favourite evaluation toolkit
Evalica, your favourite evaluation toolkit. Contribute to dustalov/evalica development by creating an account on GitHub.
54❤36👎5👍1