NLP Core Team

⚡️ Замерили LLaMA и Сайгу на русском MMLU

Saiga это семейство моделей, обученных в режиме LLaMA + LoRA (основная модель заморожена, тюнится только адаптеры) на нескольких чатбот и инструктивных сетах:
https://github.com/IlyaGusev/rulm

MMLU это мульти-таск (57 разнообразных тематик/тасок, тестовых семплов ~14к) бенчмарк, где нужно для вопроса выбрать один из четырёх ответов (рандом даёт 0.25 качество), вопросы сложные, часто требуют доменных знаний (качество неэкспертных ответов людей 0.35):
https://arxiv.org/abs/2009.03300

Мы перевели MMLU с помощью Yandex.Translate API с английского языка на русский, и замерили на исходном и переведённом сете модели Сайги доступные на HF. В сетапе few-shot k-5, выбирая ответ по вероятностям логитов вариантов A, B, C, D. Для Сайги готовили промпты в инструктивном формате.

LLaMA и Сайга показали хорошие результаты на русском MMLU. Хотя LLaMA видела очень мало русского на претрейне (меньше 1%), что удивляет.

🔥34👍8👏6

7.3K viewsAndrei Kalmykov, 19:23

NLP Core Team

⚡️ Датасет и код для замеров на русском MMLU

Переведённый на русский датасет тут.

Код для замеров тут.

Из коробки запускается для моделей семейства huggyllama-LLaMA и IlyaGusev-Saiga. В ридми как приспособить и под другие модели.

Позволяет замерить на 57 темах, суммарно на ~14к тестовых сэмплов, в режиме 0<=k_shot<=5, на RU и EN.

С опубликованной ранее табличкой замеров есть изменения. В частности переводы категорий и промпта, постарались сделать ближе к оригиналу. Да и в целом, если сравнивать итоговые скоры с другими публичными замерами, часто есть различия в деталях реализаций. При этом если сравнивать не абсолютные числа, а модели между собой, то замеры на MMLU стабильные на наш взгляд. Позволяет отслеживать прогресс.

Кроме итогового скора может быть полезно смотреть с разбивкой по крупным категориям (STEM, humanities, social sciences, other).

Ссылка на пост с замерами, которые делали ранее.

🔥22👍7👏4⚡2❤1🙏1

5.09K viewsAndrei Kalmykov, 15:56

NLP Core Team

⚡️ Замеры LLaMA 2 на MMLU

Вчера вышла LLaMA 2, нам было интересно качество претрейн-моделей в русском.

Качество на MMLU выросло в среднем на 7 пунктов, как в английском, так и в русском, у всей линейки претрейн-моделей. Семь пунктов на MMLU впечатляет!

При этом русского языка на претрейне LLaMA 2 было всего 0.13%.

Замеряли кодом который выкладывали ранее. Контекст оставляли 2048 чтобы влезало тоже число few-shot примеров (токенайзер в LLaMA 2 такой же как и был в LLaMA 1).

До чат-моделей пока не добрались, и до 34B пока нет к ней доступа.

🔥40⚡6👍6🎉3

6.09K viewsAndrei Kalmykov, 19:35

NLP Core Team

⚡️Большой результат большой команды. ruGPT3.5 13B доступна на HuggingFace.

Еще два с половиной года назад началась история этой модели усилиями нашей команды. Тогда модель обучали на наших знаменитых 300GB + немного кода и английского. В архитектуре модели мы по пейперу GPT3 впилили спарс слои. Обучалась модель около 1,5 месяца на 512 V100. Работая над ГигаЧатом уже большой командой из SberDevices, Sber AI и AIRI пришли к выводу, что спарс нужно выкинуть и дообучить на улучшеном датасете. Дообучали еще на 200 А100 около 3-х недель. Вообщем подробности на странице модели на HuggingFace и в статье на Хабре.

👉 Хабр
👉 Hugging Face

Хабр

Сбер открывает доступ к нейросетевой модели ruGPT-3.5

? Upd. Добавили пример запуска в Colab'е. Друзья, свершилось. Сегодня мы рады сообщить вам о релизе в открытый доступ нейросетевой модели, которая лежит в основе сервиса GigaChat. Про то, что такое...

🔥74🎉12👍9🥰5

6.17K viewsDmitry Zmitrovich, edited 08:12

NLP Core Team

⚡️Датасет и замеры генерации кода по запросу на русском

Мы перевели популярный датасет HumanEval с задачами по генерации кода по текстовому запросу на русский. Ссылка на датасет HumanEval_ru.

Для замеров используем наш форк BigCode Evaluation Harness. Ccылка на код замеров.

Замерили на нем модели StarCoder и опубликованные на прошлой неделе Codellama. Метрики этих моделей на русском ниже, чем на английском, но незначительно. Это несколько удивительно, учитывая, что эти модели видели очень мало русского. StarCoder обучался на The Stack, в котором русский встречается только в малой доле (менее 1%) комментариев к коду.

🔥24👍8👏3

5.54K viewsDenis Kokosinskiy, 12:34

NLP Core Team

Нас рассекретили!😊
https://habr.com/ru/news/758302/
Сейчас идет закрытое тестирование. Доступ получить пока нельзя, но скоро такая возможность будет.
PS: Не ругайте за кричащее название. Маркетинг.🙂

Хабр

«Сбер» зарегистрировал в реестре Роспатента аналог Copilot

«Сбер» зарегистрировал в Роспатенте инструмент разработки и автодополнения кода GigaCode. Подобный сервис может создать и «Яндекс». Новый инструмент GigaCode / JARVIS позволяет генерировать код...

🔥31👏10👍3❤1😁1

4.56K viewsDmitry Zmitrovich, 10:18

NLP Core Team

CodeLlama в MMLU неплохо умеет!

Дообучение LLaMA 2 на коде не сильно то ударила по ее знаниям на MMLU. Казалось бы, дообучение на коде в 0.5T токенов, где всего 7% из сета Llama 2, должно было сильно сместить в знаниях в естественных языках.

CodeLlama 7B показывает выше скор чем Llama 1 7B.

Для модели 13B метрики упали больше чем для модели 7B. Хотя у модели большей емкости, как думается, должно быть больше шансов сохранить знания, которые были получены на основном претрейне.

Для русского падение метрики меньше чем для английского. Для 7B для русского упала на 2.22% а для английского — на 7.34%.

🔥25❤‍🔥4

4.42K viewsDmitry Zmitrovich, 10:02

NLP Core Team

⚡️Textbooks are all you need?

Несколько месяцев назад вышла статья "textbooks are all you need" про модель phi-1. Она состоит из 1.3 миллиарда параметров и обучалась на 7 миллиардах токенов "textbook quality" кода на питоне. Датасет по большей части состоит из отфильтрованной с помощью GPT-4 части the Stack, а также из "учебников", написанных GPT-3.5. Несмотря на маленькую емкость, модель превзошла, например, CodeLlama-34b, на бенчмарке по генерации кода HumanEval. Недавно авторы также выпустили статью phi-1.5, где расширили свой подход на естественный язык.

HumanEval состоит из задач типа LeetCode, нам же было интересно померять возможности моделей по генерации кода в реальных проектах. Мы собрали датасет из 220 функций (и методов) из реальных python проектов с гитхаба. Все функции содержат докстринги и покрыты тестами, репозитории опубликованы после июня 2023. Задача модели состоит в генерации такого тела функции, чтобы число пройденных тестов в репозитории не снизилось по сравнению с настоящим телом функции.

Видим, что phi-1 на реальном коде чуть уступает аналогичному по емкости многоязычному starcoderbase и значительно уступает многоязычным 7b моделям.

P.S. через некоторое время выложим бенчмарк RealCode в открытый доступ

🔥30👍6

5.31K viewsDenis Kokosinskiy, edited 14:36

NLP Core Team

⚡️Улучшение качества модели в задаче Code Completion за счёт простого подхода подачи похожего кода (сниппета)

В качестве инструмента для поиска схожего кода, был использован Elasticsearch, в основе которого лежит всем известный BM25!

Поиск проводился по открытым данным из GitHub.

📍Данные
Данные представляют собой проиндексированные файлы python, нарезанные по 10 строк, с шагом в 5 строк. Данные взяты из the stack.

📍Идея подхода с подачей сниппетов
Сниппет - фрагмент кода, размером 10-15 строк, наиболее похожий на последние 10 строк кода, поданного в модель для генерации следующей строки, с точки зрения BM25.

Мы строим индекс ретривера по python коду с открытых репозиториев гитхаба. Для каждого экзамепляра кода ретривер выдает коллекцию сниппетов на основе алгоритма BM25. Далее берём любую декодерную модель, без дообучения на умение смотреть на сниппеты, с простой подстановки сниппетов, повышаем ее качество.

⚡️Наши замеры

📍Задача
Задача code completion представляет собой генерацию следующей строки, на основании введённого контекста. Данная задача представляет собой частный случай FIM-задачи в режиме, когда есть только prefix.

📍Метрика
В code completion существует и активно используется метрика exact match, которая отражает, в процентном соотношении, количество в точности правильно сгенерированных строк по предсказаниям модели, с точностью до пробелов и спецсиволов. Затем результаты усредняются на весь тестовый сет.

Придуманная нами метрика - click score. Это метрика, которая отражает в себе количество сохраненных пользователем нажатий на клавиатуру при выдаче подсказки возможного продолжения кода.

👍19🔥9❤4👏3🤔1

4.56K viewsnina kamkia, 18:46

NLP Core Team

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 GigaChat обновился

Друзья, хорошие новости!

Очень много работаем с коллегами над улучшением наших моделей и приходим потихоньку к новой линейке. Сегодня вышел релиз первой из этих моделей и GigaChat уже начал работать на ней.

На MMLU модель показала 50+ и по всем задачам стала почти в два раза лучше предыдущей на SBS (сравнительный тест). Контекст также увеличен в два раза — 4k токенов.

Написал небольшой обзор вместе с популярной частью про машинное обучение и языковые модели. Прошу поддержать статью и попробовать модель в действии.

Можно через tg-бота, vk-бота или web-интерфейс (там теперь можно сохранять запросы в избранное).

👉 Хабр

🔥19👍8💯2⚡1

3.61K viewsDmitry Zmitrovich, 10:06

NLP Core Team

⚡️Deepseek Coder. Новые открытые SOTA модели для кода.

Deepseek Coder 1B на равных с CodeLlama 7B, а Deepseek Coder 7B сильнее CodeLlama 34B.
Instruct версия модели 7B на Human Eval сильнее GPT 3.5-turbo.

Размеры моделей 1.3B, 5.7B, 6.7B и 33B.
Доступны для коммерческого использования.

- Архитектура как у Llama, судя по конфигу на HF.
- Сет обучения состоял из кода 87% и 13% английского и китайского языка.
- Умеет в 80+ языков программирования.
- Обучали 2T токенов. К примеру StarCoder обучали 1T токенов.
- 16k контекст.

Ждем технический отчет. Больше метрик тут deepseekcoder.github.io

👉 Github
👉 🤗Huggingface

🔥43👍8❤2

5.02K viewsDmitry Zmitrovich, edited 11:05

NLP Core Team

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 Yi. Новая китайская LLM #ml_news

Китайские товарищи выкатили очередную открытую модель, за что им уважение. В этот раз стартап 01.ai под девизом "Human + AI" (буковка Y в названии символизирует иероглиф 人) обучил на 3T токенах текстов 2 модели — 6B и 34B. Технический репорт обещают показать в следующем месяце.

Контекст у выложенных на HF моделей 34k токенов. И сегодня же разработчики должны выложить модели с контекстом в 200k токенов. Качество этих моделей нужно будет ещё замерить на соответствующих long-range метриках, но звучит внушительно.

По традиционным метрикам также заявляют рост — 76.3 MMLU у 34B и 63.2 у 6B. Скрипты по дообучению также выложили на GitHub. Посмотрим, как у неё с русским.

HF | GitHub

👍21🔥12⚡5❤2

4.07K viewsDmitry Zmitrovich, 12:37

NLP Core Team

📊 Опубликовали бенчмарк RealCode_eval

https://github.com/NLP-Core-Team/RealCode_eval

RealCode_eval - наш новый бенчмарк по оценке возможностей генерации кода языковыми моделями. Задача для модели состоит в генерации тела для функции (или метода) в реальных репозиториях с гитхаба. Популярные существующие бенчмарки по генерации кода, такие как HumanEval, MBPP или AlphaCode, состоят из задач соревновательного программирования, таких как на LeetCode или CodeForces. RealCode же проверяет модели в условиях реальной разработки. Функции взяты из репозиториев на питоне, опубликованных летом 2023 года. Это означает, что популярные открытые модели Codellama и Starcoder этих репозиториев не видели.

Для оценки сгенерированных функций используем execution-based подход: подставляем сгенерированное тело функции в файл, запускаем тесты репозитория и сравниваем количество пройденных тестов между сгенерированным и настоящим телом функции.

GitHub

GitHub - NLP-Core-Team/RealCode_eval

Contribute to NLP-Core-Team/RealCode_eval development by creating an account on GitHub.

👍26🔥19👏3

6.48K viewsDenis Kokosinskiy, 14:37

NLP Core Team

Forwarded from Градиент обреченный (Sergei Averkiev)

🔺 GigaChat Pro. Технические детали

Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.

https://habr.com/ru/companies/sberdevices/articles/780334/

Хабр

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....

🔥20🎉8👏4❤3

2.92K viewsDmitry Zmitrovich, 11:31

NLP Core Team

📊Замеры открытых моделей на RealCode [Github]
В первой таблице сравнение моделей на RealCode и HumanEval. В ней и на графике для генерации тела функции в RealCode используем только текущий файл, длина контекста 1024 токенов (для infill режима 512 токенов в левом контексте и 512 в правом). Для второй таблицы в контекст подавали и другие файлы текущего проекта (чтобы файлы поместились контекст увеличен до 15к токенов), такая возможность есть только у deepseek-coder.

🔸Pass@1 на RealCode прежде всего зависит от емкости модели
Разница между моделями близкой емкости в одинаковом режиме генерации незначительная. На HumanEval же, например,
Starcoder-base-7b Pass@1=28.4,
CodeLlama-7b Pass@1=31.7,
deepseek-coder-6.7b Pass@1=49.4.
Однако, на RealCode рост метрики в LM режиме после 7b параметров незначителен.

🔸Возможность учета правого контекста при генерации важна
Мы это связываем с тем, что большинство функций в RealCode это, на самом деле, методы в классах. А в классах можно использовать методы, описанные ниже по тексту. Также при учете правого контекста у модели чаще есть возможность смотреть на использование генерируемой функции.

🔸Потолка качества генерации по 1024 токенам модели не достигают
Если взять максимальный Pass@1 для каждой функции по всем замерам на графике (и в LM, и в Infill режимах) и усреднить по всем функциям, то получится Pass@1=0.70. То есть разные модели и разные режимы генерации позволяют правильно генерировать разные функции.

🔸Возможность учитывать весь проект важна
Deepseek-coder-1.3b на проектах обыгрывает даже 33b модели.

❗️Модели верно генерируют до 60% функций в реальных репозиториях
Конечно стоит учитывать, что в RealCode у моделей при генерации есть заголовок функции и ее докстринг, но показатели все равно кажутся высокими.

👍12🔥8❤4👏2💯1

5.67K viewsDenis Kokosinskiy, 14:34

NLP Core Team

🚀🚀🚀 GigaCode! 🚀🚀🚀

3 года мы шли к этому. Мы начинали еще до появления CoPilot и пейпера Codex. Проделали огромное число экспериментов и обучили много разных моделей. Многое еще предстоит сделать.

Распирает гордость за команду!

Регистрируйтесь на gigacode.ru и получите доступ первыми. Доступы даем пока дозировано, увеличивая нагрузку.

Про наши модели и как работает GigaCode будем рассказывать в будущих постах.

🔥45🎉17👍13⚡3❤3👎2

7.68K viewsDmitry Zmitrovich, 14:14

NLP Core Team

На код нужно обучать с нуля?

DeepSeek AI опубликовал новую версию модели DeepSeek Coder 7B v1.5 и инструктивный вариант на ней. Это результат дообучения на код модели DeepSeek LLM 7B, которая была обучена на 2T токенов на английский, китайский и немного кода. Дообучали 2T токенов на датасете кода, вероятно, на таком же, как и для других версий моделей для кода. Там было 87% кода и 13% английского и китайского Деталей про модель мало, кроме таблички с замерами в сравнении со старой моделью.

Сама модель по метрикам не очень примечательна. Да, у финальной модели метрики по NLP таскам высокие и дообучение на коде их не уронило. Интересно другое, что метрики на код оказались чуть ниже чем у модели, которая видела 2T кода с нуля. Эта модель видела код на первой стадии претрейна, где его было немного и она показывала 26 на humaneval, и потом еще 2T дообучения в основном на коде. Итого 4T токенов и метрики по коду чуть хуже чем у модели, которая 2T обучалась с нуля.

👉 🤗Huggingface

👍11🔥7❤3🤔3

3.07K viewsDmitry Zmitrovich, edited 10:14

About

Blog

Apps

Platform