Forwarded from Старший Авгур
Ура, релиз Сайги Немо!
Модель: https://huggingface.co/IlyaGusev/saiga_nemo_12b
Уже доступна в боте.
GGUF завтра подвезу.
По метрикам: 85 на РуАрене, что чуть хуже 87 у Вихря. И 3 место на ПингПонге.
Пайплайн абсолютно классический: SFT + SimPO. Датасеты, конфиги обучения, W&B логи лежат в карточке модели.
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучал я её поверх abliterated версии Немо, и из и SFT, и SimPO датасетов агрессивно вычищал отказы. В оба датасета доливал role-play промпты, но не с теми персонажами, которые есть в ПингПонге.
Я поштырил и в RP диалоги, и в ответы на арене, и увидел несколько проблем:
1) Модель не умеет рисовать ASCII.
2) В 2 примерах я наблюдал повторы. Это было там, где нужно было написать пример кода, а в нём был какой-нибудь токен. И вот этот токен генерировался бесконечно. Эта проблема специфична для нулевой температуры.
3) Длина. Хоть я и пытался бороться с слишком длинными ответами, по бенчам видно, что ответы всё равно длиннее среднего.
4) Очень изредка попадются выдуманные слова. Причём они вполне разумны, просто их не существует.
Модель: https://huggingface.co/IlyaGusev/saiga_nemo_12b
Уже доступна в боте.
GGUF завтра подвезу.
По метрикам: 85 на РуАрене, что чуть хуже 87 у Вихря. И 3 место на ПингПонге.
Пайплайн абсолютно классический: SFT + SimPO. Датасеты, конфиги обучения, W&B логи лежат в карточке модели.
Уникальная фича модели — расцензурированность и ориентация на role-play. Обучал я её поверх abliterated версии Немо, и из и SFT, и SimPO датасетов агрессивно вычищал отказы. В оба датасета доливал role-play промпты, но не с теми персонажами, которые есть в ПингПонге.
Я поштырил и в RP диалоги, и в ответы на арене, и увидел несколько проблем:
1) Модель не умеет рисовать ASCII.
2) В 2 примерах я наблюдал повторы. Это было там, где нужно было написать пример кода, а в нём был какой-нибудь токен. И вот этот токен генерировался бесконечно. Эта проблема специфична для нулевой температуры.
3) Длина. Хоть я и пытался бороться с слишком длинными ответами, по бенчам видно, что ответы всё равно длиннее среднего.
4) Очень изредка попадются выдуманные слова. Причём они вполне разумны, просто их не существует.
🔥35 15👍10🥴8 3🗿2
Статья от ребят из DIT Moscow RESEARCH - присядь на штраф если не регаешь канал в РКН!
👍20💊9
Love. Death. Transformers.
Красивая кривая? Мне тоже нравится, а ещё она нравится менеджерам инвесторам и прочим. Но она неверная, правильная кривая - та что я нарисовал красным. а100 - 640tflops bf16 h100 - 1500tflops bf16 B100 - 3600tflops bf16 Не, фактически она верна, прирост…
https://epochai.org/blog/data-movement-bottlenecks-scaling-past-1e28-flop
Блин опять логарифм подсунули что ли?
Ладно если серьезно:
- компьют не скейлится бесконечно из-за скорости сети
- multi datacenter обучение головные(скоро будет обзор как учить multi DC и НЕ умирать)
- железки Nvidia не предназначены для такого
Блин опять логарифм подсунули что ли?
Ладно если серьезно:
- компьют не скейлится бесконечно из-за скорости сети
- multi datacenter обучение головные(скоро будет обзор как учить multi DC и НЕ умирать)
- железки Nvidia не предназначены для такого
Epoch AI
Data Movement Bottlenecks to Large-Scale Model Training: Scaling Past 1e28 FLOP
Data movement bottlenecks limit LLM scaling beyond 2e28 FLOP, with a “latency wall” at 2e31 FLOP. We may hit these in ~3 years. Aggressive batch size scaling could potentially overcome these limits.
🍓13👍4🔥3🤷♂2
Резерчеры из z банка заменили relu на gelu в трансформере, тем самым ускорив обучение на 4%!!
Респект и уважуха нашим ребятам, удачи им на А конференции Диалог 2025!!
Респект и уважуха нашим ребятам, удачи им на А конференции Диалог 2025!!
👎87🥴71🤡40🔥27💩15 12😁11👍5🗿3😐1
Forwarded from Vikhr models
💨👁 Vikhr-2-VL-2b-Instruct-experimental
это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).
Ждем вашего фидбека от использования модели)
HuggingFace
Colab
Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
это компактная VLM модель, обученная на переведенном датасете LLAVA-150K, специально доученная для обработки на русском языке. Дообученная модель является эксперементальной и не всегда будет работать ожидаемо (особенно OCR).
Ждем вашего фидбека от использования модели)
HuggingFace
Colab
Коллектив авторов: @LakoMoorDev @mlunderground @nlpwanderer
1👍37 16💩7 4🔥2😁1
Forwarded from Русский research
Критическое мышление для начинающих и для профессионалов
✍104 25🔥10😁6🍓6👍5💯3🥴1🐳1
АЛЛО МЫ ИЩЕМ ГОЛОСА3
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
https://llmarena.ru/ заходите в анонимно и бежим размечать голосами свежее поколение ллм, я с утра разметил несколько десятков сэмплов и вам советую!
Интервалы.
должны.
Сойтись.
1🤡44 21👍7🤮5😡2👎1💩1
Forwarded from whargarbl
Ура. Наконец зарелизил:
recoilme-sdxl
файнтюн, над которым я работал последние три месяца.
За это время правда вышло 100500 новых архитектур моделей, но не бросать же..
telegram bot (20/day free): @charsaibot
hf: https://huggingface.co/recoilme/recoilme-sdxl-v11
civit: https://civitai.com/models/920626?modelVersionId=1030470
reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/
recoilme-sdxl
файнтюн, над которым я работал последние три месяца.
За это время правда вышло 100500 новых архитектур моделей, но не бросать же..
telegram bot (20/day free): @charsaibot
hf: https://huggingface.co/recoilme/recoilme-sdxl-v11
civit: https://civitai.com/models/920626?modelVersionId=1030470
reddit: https://www.reddit.com/r/StableDiffusion/comments/1gk8cbw/recoilmesdxl/
🌭101 32👍8🔥3🍌3🤡1
OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training
Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной
собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации
Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что
- скорость интернета не однородна
- на больших расстояниях могут копится ошибки
- пропускная способность сети может быть недостаточной
собственно большой папир и репа про то как учить в ОЧЕНЬ распределенном сетапе
блогпост от авторов имплементации
👍32🔥14🐳5😁3
Love. Death. Transformers.
OpenDiLoCo: An Open-Source Framework for Globally Distributed Low-Communication Training Обучение multidatacenter сеток все еще большая и сложная штука, для начала стоит понимать что - скорость интернета не однородна - на больших расстояниях могут копится…
бонус: эта штука поддерживает разные железки!
🔥34👍2
А у вас тоже твитер забит такой хуйней:
Какой accelerate, кто данные ковырять будет...
Какой accelerate, кто данные ковырять будет...
🍓36😁9🤡5💯3🗿1
Forwarded from GigaDev — разработка GigaChat
Релиз GigaChat MAX! (ссылка на Хабр)
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
Салют! Мы открываем доступ к модели GigaChat MAX. Модель доступна в @gigachat_bot, в веб-версии и через публичное API (в режиме раннего доступа).
- GigaChat MAX занимает 3 место в бенчмарке MERA. Сразу за gpt-4o и Llama-405B.
- GigaChat-Max достигает 92% правильных ответов на GSM-8k, 80% на MMLU и 75% на MMLU-RU.
- По результатам SBS, где учитывается красота ответов, мы выигрываем в 61% случаев у GPT-4 turbo и в 67% случаев у YaGPT-4 Pro.
- В Arena-Hard мы достигаем 51% скора против GPT-4-0314
- В Vkhr Arena-General-RU мы достигаем 90%, в то время как YaGPT-4 Pro достигает 59%.
Чтобы узнать про то, как мы делали модель, переходите на статью в хабре.
Предыдущие посты:
— GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
— GigaChat обогнал по качеству ChatGPT и расширил контекст до 32 тысяч токенов
giga.chat
ГигаЧат — русскоязычная нейросеть от Сбера
ГигаЧат — диалоговая AI-модель, которая отвечает на вопросы, сочиняет тексты, пишет код и рисует картинки. Говорит на русском и понимает английский
🤡38🔥15🤔8👍7🎉5🍓4🍌1🗿1