Vikhr models
2.48K subscribers
53 photos
5 videos
68 links
Vikhr models news feed
Задонатить можно:
- Тинькофф сбп:
- - https://www.tbank.ru/cf/3W1Ko1rj8ah

Наш сайт: https://vikhr.org
Чат сообщества: @vikhrmodels
Download Telegram
LLM Arena для русскоязычных моделей

Мои знакомые из Vikhrmodels, которые занимаются русскоязычным open-source проектом, создают свои модели и проводят дообучение на основе мультиязычных моделей, недавно выпустили свой набор бенчмарков!

C рускоязычными открытыми LLM очень все сложно - их очень мало. В лучшем случае это дообученные LLam_ы. Но в целом топ LLM с поддержкой русского языка выглядит так:
- Gpt4o
- Gpt4o mini
- LLaMa 3.1 405b
- LLaMa 3.1 70b
- Gemma 27b
- LLaMa 3 70b

RuArenaGeneral — бенчмарк на основе lmsys arenahard . Это единственный полностью открытый современный бенчмарк на русском языке.
В отличие от классической арены, здесь в качестве судьи выступает GPT-4o, благодаря чему арена оценивается очень быстро (новые модели добавляются всего за час), и её можно воспроизводить локально! Кроме того, благодаря использованию LLM в качестве судьи и известности запросов заранее, арена хорошо коррелирует с оригинальной ареной lmsys.org.

На арене каждую неделю появляются новые модели с поддержкой русского языка или русифицированные.

Шлёпа lb — это маленький бенчмарк с множественным выбором (как в ЕГЭ, где выбираются варианты ответа), включающий задачи на знание мира, а также перевод mmlupro. В отличие от Mera, сабмиты полностью оцениваются локально, и можно сразу получить результат на локальной машине, например, во время обучения!
👍5
LLM Arena для русскоязычных моделей получила ускоренный подсчет интервалов от коллег из JetBrains Research

Ребята из JB интегрировали Evalic_y в наш бенчмарк, благодаря этому все считается на 60% быстрее!

А обновление уже в репозитории!

посмотреть подробнее Evalica
🔥9🦄31
Хабр релиз статьи про Шлепа - большой русский бенчмарк

Рассказали про то как оно работает наш бенчмарк + пиаримся на хабре))


Авторы: Cергей, Константин , Артем, Илья, Коля, Саша следил чтобы все не развалилось


habr
❤‍🔥20🤮1🐳1
Выложили audio версию Infinity Instruct + GrandMaster в speech версии!

Tts

huggingface

авторы: Костя, саша
🔥14🤮3👍2💩2🤡2
Forwarded from NLP Wanderer
🔥 Новые модели Vikhr: Приближаемся к локальной gpt-4o-mini, собственный метод алайнмента и Grounded RAG

Мы выпускаем в релиз свои лучшие модели и тулкит алайнмента. который использовался для их тренировки.

Итак, наш флагман - Vikhr-Nemo-12B-Instruct-R-21-09-24 (карточка на HF)

12B модель на основе Mistral-Nemo, с качеством на русском языке в некоторых задачах не хуже gpt-4o-mini и имеет 128к токенов контекста, была специально заалайнена под решение широкого спектра задач на реальных и синтетических вопросах пользователей, включая код, математику, суммаризацию, ризонинг, ответы в специальном формате (JSON/HTML и тд) и многие другие.

Модель получила винрейт 79.8 (относительно gpt-3.5-turbo) на оффлайн бенчмарке Ru-General-Arena, что лучше любой текущей опенсорс модели до 30В для русского языка.

Для достижения такого качества мы собрали большой инструктивный датасет со втроенным CoT, что позволило сильно прочкать ризонинг модели, далее обучили Reward модель, сделали Rejection Sampling и применили собственный метод SMPO (вариация DPO) для выполнения преференс-тюнинга.

Вторая модель - Vikhrmodels/Vikhr-Llama3.1-8B-Instruct-R-21-09-24 (карточка на HF)

Так же обучена Llama-3,1-8B и имеет аналогичный размер контекста в 128k токенов. Винрейт на Ru-Arena-General - 63.9, что делает ее одной из лучших 8B моделей дла русского языка.

Модели обучены работать с RAG

Обе модели имеют уникальную особенность - они заалайнены для работы с RAG, т.е. используя системный промпт и спец. роль documents, вы сможете подавать ей документы в стандартизированной форме (JSON). При этом сам текст каждого документа может быть грязным чанком HTML, Markdown или Plain text формата до 4к символов каждый.

Модели умеют выделять информацию из предоставленных документов самостоятельно, реализуя таким образом "реранкер" на уровне LLM. Это сделано за счет двух-этапного ответа. Первый ответ модели представляет из себя JSON со списокм релевантных идентификаторов документов, а второй, если юзер его запросит, будет уже текстовым ответом модели на вопрос пользователя.

Благодаря такому обучению, на нашем бенчмарке для RAG (судья gpt-4o) Vikhr-Nemo показала качество в RAG задачах даже лучше, чем gpt-4o-mini (цифры в карточках моделей)

SMPO - Simple Margin Preference Optimization

Наш собственный метод выравнивания, разработанный для стабилизации прцоесса PO. Этот метод во многом заимствует идеи IPO, SimPO, C-RLFT, а также содержит собственную функцию потерь для разделения выбранных и отклоненных пар, отказываясь от классической сигмойды.

Основная идея метода заключается в стремлении плавно достичь желаемого уровня margin, не заставляя модель переобучаться, в том числе с помощью добавления балансирующего SFT лосса для выбранных и отклоненных вариантов одновременно.

Тулкит на Github - effective_llm_alignment

Репозиторий содержит скрипты и конфиги которые использовались для всех этапов обучения моделей. он позволяет удобно работать с основными методами алайнмента для LLM, включая наш SMPO.

Больше подробностей о моделях, как с ними работать, бенчмарках, процедуре обучения, вы можете найти в их карточках на HF.

Поиграться с Vikhr-Nemo-12B можно в tg bot_e (@vikhrbot), Gradio инференс
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍6🤡5🔥3
Mcts-lib

Мы релизнули либу для улучшения генераций за счет MCTS(+10 пунктов по ru General Arena)!


Как это работает?

1. (Инициализация): Представьте, что вы начинаете с первой версии ответа, который модель предлагает. Чтобы не попасть в ловушку одного-единственного мнения с самого начала, модель также добавляет запасной вариант вроде “Я не знаю”. Это как стартовая точка, которая позволяет не зацикливаться на первой попытке.

2. (Selection): Из всех возможных вариантов ответа мы ищем тот, который выглядит самым перспективным, но при этом ещё не был полностью изучен. Это похоже на то, как вы бы выбирали, на какой вопрос или задачу потратить своё время дальше, полагаясь на интуицию и текущие знания.

3. (Self-Refine): Теперь, когда выбрали ответ, мы пытаемся его улучшить. Представьте, что вы показываете свой ответ опытному другу, и он говорит вам, что можно улучшить. Модель делает что-то похожее – она сама генерирует советы и, следуя этим подсказкам, старается улучшить ответ.

4. (Self-Evaluation): После того как ответ был доработан, модель оценивает его. Это как если бы вы сами посмотрели на свой улучшенный ответ и подумали: “Насколько это хорошо? Честно ли я оцениваю свой труд?” Чтобы оценка была объективной, модель специально избегает ставить идеальные баллы, чтобы не обманывать себя.

5. (Backpropagation): Если улучшенный ответ оказался хорош, эта информация передаётся обратно к родительскому узлу и другим связанным ответам. Это как если бы вы поделились своим новым знанием с друзьями, чтобы все в группе тоже стали умнее.

6.Актуализация планов (UCT Update): Когда все оценки обновлены, модель пересматривает свои планы и решает, какие варианты стоит изучить дальше. Здесь работает формула, которая помогает ей оценить, куда лучше направить внимание в следующий раз, чтобы стать ещё более эффективной.


Работает с openapi like apiшками, можно и llamacpp подключить и gpt4o!



github
оригинальный папир
14👍6👨‍💻1
🤗 Пост для сбора фидбека о новых моделях

Прошло уже некоторое время с релиза и я надеюсь, что вы успели попробовать наши модели (в Gradio, в ботах, в LM Studio или, быть может, в уже в реальных проектах).

Нам хотелось бы лучше понимать, какую пользу (или наоборот) мы приносим пользователям своими релизами и что работает хорошо, а что не очень и можно было бы добавить/доработать в следующих версиях. А также перформанс относительно других моделей.

Поделитесь, пожалуйста, юзкейсами, где вобще применяете LLM, в каких задачах (не только наши, любые). Присылайте хорошие/плохие/интересные примеры в комментарии, постараюсь помочь с проблемами с использованием.

Кстати, если вам понравились модели не забывайте ставить лайки в карточках моделей на HF (Vikhr-Nemo, Vikhr-Llama), а так же звездочки в Github - это поможет нам в продвижении и просто будет приятно.
🔥10🖕83👏2🤡1
Forwarded from LakoMoor
🌪️ Vikhr выпустили переведенный датасет под обучения LLM

За основу взят SkunkworksAI/reasoning-0.01, который был переведен с помощью нейросети.

Синтетический набор данных цепочек рассуждений для широкого спектра задач. Мы используем такие данные в различных экспериментах/проектах по рассуждениям. Следите за моделями рассуждений и другими данными.

обнимающеелицо 🤗
🌪️ Vikhr
❤‍🔥7👍3🔥3🤡1
🔥 Новое пополнение в семействе вихрей!

⚡️ Vikhr-Llama-3.2-1B-Instruct — компактная и мощная языковая модель, созданная на базе Llama-3.2-1B, специально обученная на русскоязычном датасете GrandMaster-PRO-MAX. Её эффективность в 5 раз выше по сравнению с базовой моделью, и она идеально подходит для мобильных и слабых устройств, занимая всего до 3GB.

💡 Что нового?
- Инструктивная дообученная модель: разработана для русскоязычных задач
- Компактный размер: всего 1B параметров
- Мощь в компактности: работает на уровне более крупных моделей

🔗 Подробнее о наших моделях: Vikhrmodels/Vikhr-Llama-3.2-1B-Instruct
🔗 GGUF: Vikhrmodels/Vikhr-Llama-3.2-1B-instruct-GGUF
🔗 Ollama: Ollama

Коллектив авторов: @LakoMoorDev @nlpwanderer
🔥305👍4🤡2🍓1
Стоит ли строить web для вихрей?
Anonymous Poll
49%
Да, хочу апи
25%
Да, хочу веб чат/тг чат
26%
Нет
🤔3
Натурализация выходов llm

С помощью
DPO можно учить LLM генерировать LLM более натуральные тексты, для этого берем текст, нарезаем на куски, суммаризируем, затем генерируем "любой сеткой" кандидатов. Учим DPO где хороший текст это оригинал, а плохой это то что сетка родила.

Собственно у нас в Vikhr Models есть трек с Roleplay+Interpretability поэтому мы сгенерировали такой датасет на основе habr+picabuu+ficbook.

Ну и забыли заанонсить🫠

А вчера увидел пост у Ильи что ребята в комьюнити проделали аналогичную работу над книжками!


На основе книжек
Наш датасет на основе более разнообразного датамикса
👍15🔥4
Vikhr paper едет на Workshop emnlp!

А из-за того что все авторы очень русские никому не выдали визу)))
😢31😁10👍1🤡1
📟 Вихрь теперь можно запустить даже на пейджерах !?

⚡️ Vikhr-Qwen-2.5-0.5B-Instruct - инструктивная модель на основе Qwen-2.5-0.5B-Instruct, обученная на русскоязычном датасете GrandMaster-PRO-MAX. В 4 раза эффективнее базовой модели, и идеально подходит для запуска на слабых мобильных устройствах.

💡 Что нового?
- Небольшой размер: Всего 0.5B параметров, идеально подходящая для применения на простых устройствах.
- Эффективность: Достигает результатов, сопоставимых с более крупными моделями.

🔗 HF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct
🔗 GGUF: Vikhrmodels/Vikhr-Qwen-2.5-0.5b-Instruct-GGUF

Инструкция по запуску на телефоне

Коллектив авторов: @LakoMoorDev @nlpwanderer
🔥26🍓7🤡3
Ну что, сработала техника, получается. А нужен был всего лишь простой советский перевод Агаты Кристи.

Сайга пока догоняет, поэтому в качестве основы я взял Вихрь-Немо.

Аналогично оригинальному Ataraxy, дообучил модель через ORPO на датасете, описанном выше, и слил получившийся тюн с оригиналом. Внезапно получил +0.1 на ПингПонге. На арене стало чуть хуже, 77 у новой модели vs 80 у оригинала.

Сама модель: vikhr_nemo_orpo_dostoevsky_12b_slerp
В боте она тоже есть.
🔥26🤡3👍2👏1
Привет!

Спасибо Илье за репорт, мы обновили карточку модели и выкинули дубликаты из GrandMasterProMax

На днях обновим публичную арену

Когда мы готовили датасеты и арену мы старались дизайнить их устойчивыми к взломам, но в итоги вышли сами на себя 😅

Мы почти уверены что даже доливка всей арены не повлият очень значимо на перфоманс. В будущем будем помимо ngramной дедупликации использовать еще и exact match.
🔥17👍7😁7🤡43
Паблик арена слегка страдает от обновления, поэтому пока так

Ygpt v4 lite где то на уровне llama 8b, но с точки зрения русского очевидно будет лучше

Ygptv4 pro где то на уровне mistral nemo 12b

Qwen2.5 14b на уровне тюненной gemma/mistral Nemo
😁9