🚀🚀🚀 GigaCode! 🚀🚀🚀
3 года мы шли к этому. Мы начинали еще до появления CoPilot и пейпера Codex. Проделали огромное число экспериментов и обучили много разных моделей. Многое еще предстоит сделать.
Распирает гордость за команду!
Регистрируйтесь на gigacode.ru и получите доступ первыми. Доступы даем пока дозировано, увеличивая нагрузку.
Про наши модели и как работает GigaCode будем рассказывать в будущих постах.
3 года мы шли к этому. Мы начинали еще до появления CoPilot и пейпера Codex. Проделали огромное число экспериментов и обучили много разных моделей. Многое еще предстоит сделать.
Распирает гордость за команду!
Регистрируйтесь на gigacode.ru и получите доступ первыми. Доступы даем пока дозировано, увеличивая нагрузку.
Про наши модели и как работает GigaCode будем рассказывать в будущих постах.
На код нужно обучать с нуля?
DeepSeek AI опубликовал новую версию модели DeepSeek Coder 7B v1.5 и инструктивный вариант на ней. Это результат дообучения на код модели DeepSeek LLM 7B, которая была обучена на 2T токенов на английский, китайский и немного кода. Дообучали 2T токенов на датасете кода, вероятно, на таком же, как и для других версий моделей для кода. Там было 87% кода и 13% английского и китайского Деталей про модель мало, кроме таблички с замерами в сравнении со старой моделью.
Сама модель по метрикам не очень примечательна. Да, у финальной модели метрики по NLP таскам высокие и дообучение на коде их не уронило. Интересно другое, что метрики на код оказались чуть ниже чем у модели, которая видела 2T кода с нуля. Эта модель видела код на первой стадии претрейна, где его было немного и она показывала 26 на humaneval, и потом еще 2T дообучения в основном на коде. Итого 4T токенов и метрики по коду чуть хуже чем у модели, которая 2T обучалась с нуля.
👉 🤗Huggingface
DeepSeek AI опубликовал новую версию модели DeepSeek Coder 7B v1.5 и инструктивный вариант на ней. Это результат дообучения на код модели DeepSeek LLM 7B, которая была обучена на 2T токенов на английский, китайский и немного кода. Дообучали 2T токенов на датасете кода, вероятно, на таком же, как и для других версий моделей для кода. Там было 87% кода и 13% английского и китайского Деталей про модель мало, кроме таблички с замерами в сравнении со старой моделью.
Сама модель по метрикам не очень примечательна. Да, у финальной модели метрики по NLP таскам высокие и дообучение на коде их не уронило. Интересно другое, что метрики на код оказались чуть ниже чем у модели, которая видела 2T кода с нуля. Эта модель видела код на первой стадии претрейна, где его было немного и она показывала 26 на humaneval, и потом еще 2T дообучения в основном на коде. Итого 4T токенов и метрики по коду чуть хуже чем у модели, которая 2T обучалась с нуля.
👉 🤗Huggingface
Amber + CrystalCoder.
Попались на глаза две модели от LLM360. Модели открытые и есть много сохраненных промежуточных чекпойнтов. Также опубликовали код, которым учили модели. Есть куча метрик над всеми чекпойнтами по мере обучения.
Amber 7B основана на Llama архитектуре и обучалась 1.26Т токенов на сете английского (RefinedWeb 665B, часть C4 198B и другие) + датасет StarCoder (291B).
Для CrystalCoder 7B датасет брали SlimPajama (690B) и StarCoder. CrystalCoder 7B имеет ряд архитектурных изменений: LayerNorm вместо RMSNorm, 25% hidden dimensions только для rotary применяют, разный lr для разных групп параметров и другие. В пейпере не очень то поясняют логику почему они пришли к выводу так менять. Обучали CrystalCoder в 3 этапа каждый отличался сетом обучения и стартовыми гиперпараметрами обучения. Сначала учили на половине SlimPajama, потом на второй половине SlimPajama + 2 эпохи на датасете StarCoder, и последний 100B Python и web-related data (HTML, JavaScript, CSS) взяты из StarCoder + 10B английского взятого из SlimPajama. Всего CrystalCoder увидела 1.4T.
Amber на MMLU показала 30.76 а CrystalCoder 48.78. Хотя казалось бы, Amber обучалась в большей степени на английском и должна больше эту метрику показать. У Llama 2 7B MMLU 45.3. На картинках графики как менялась метрика MMLU для каждой из моделей на протяжении обучения выше. На втором этапе обучения CrystalCoder в датасете было 63% данный кода. Как видно на графике, код никак не мешал росту метрики и уверенный рост начался на втором этапе. На третьем этапе был в основном код и метрика MMLU не упала а даже немного выросла.
Huggingface | Github | метрики: 📈 [Amber] 📈 [CrystalCoder] | paper
Попались на глаза две модели от LLM360. Модели открытые и есть много сохраненных промежуточных чекпойнтов. Также опубликовали код, которым учили модели. Есть куча метрик над всеми чекпойнтами по мере обучения.
Amber 7B основана на Llama архитектуре и обучалась 1.26Т токенов на сете английского (RefinedWeb 665B, часть C4 198B и другие) + датасет StarCoder (291B).
Для CrystalCoder 7B датасет брали SlimPajama (690B) и StarCoder. CrystalCoder 7B имеет ряд архитектурных изменений: LayerNorm вместо RMSNorm, 25% hidden dimensions только для rotary применяют, разный lr для разных групп параметров и другие. В пейпере не очень то поясняют логику почему они пришли к выводу так менять. Обучали CrystalCoder в 3 этапа каждый отличался сетом обучения и стартовыми гиперпараметрами обучения. Сначала учили на половине SlimPajama, потом на второй половине SlimPajama + 2 эпохи на датасете StarCoder, и последний 100B Python и web-related data (HTML, JavaScript, CSS) взяты из StarCoder + 10B английского взятого из SlimPajama. Всего CrystalCoder увидела 1.4T.
Amber на MMLU показала 30.76 а CrystalCoder 48.78. Хотя казалось бы, Amber обучалась в большей степени на английском и должна больше эту метрику показать. У Llama 2 7B MMLU 45.3. На картинках графики как менялась метрика MMLU для каждой из моделей на протяжении обучения выше. На втором этапе обучения CrystalCoder в датасете было 63% данный кода. Как видно на графике, код никак не мешал росту метрики и уверенный рост начался на втором этапе. На третьем этапе был в основном код и метрика MMLU не упала а даже немного выросла.
Huggingface | Github | метрики: 📈 [Amber] 📈 [CrystalCoder] | paper
Интересно, DeepSeek Coder Base 6.7B умеет в MMLU на 36.6%. Это на уровне Llama 1 7B, которая показала 36.18. В пейпере написано, что модель видела только код, английский связанный с кодом (10%) и 3% китайского. Оба языка она видела всего 260B токенов (2T*13%). Английский состоял из GitHub’s Markdown и StackExchange. А Llama 1 7B видела 1T в основном английский. Код явно помогает в MMLU? В StackExchange много про MMLU ответы? 3% китайского было достаточно? Очень хочется понять в чем причина.)🤔
NLP Core Team
Интересно, DeepSeek Coder Base 6.7B умеет в MMLU на 36.6%. Это на уровне Llama 1 7B, которая показала 36.18. В пейпере написано, что модель видела только код, английский связанный с кодом (10%) и 3% китайского. Оба языка она видела всего 260B токенов (2T*13%).…
Замерили своим кодом. 33B тоже предиктит норм на 41.02.
💫 The-stack-v2 и Starcoder2
На прошлой неделе научная коллаборация BigCode выпустила новую серию CodeLLM Starcoder2 и новый датасет кода the-stack-v2
Paper , HuggingFace
The-stack-v2 создан в коллаборации с архивом ПО Software Heritage. Датасет сильно вырос в объеме по сравнению с the-stack-v1 за счет добавления источников помимо гитхаба, расширения фильтра по языкам программирования (есть даже 1С !) и включения файлов с отсутствующей лицензией. Также в the-stack-v2, в отличии от первой версии, есть возможность сгруппировать файлы по репозиториям. Правда пользоваться датасетом стало менее удобно, вместо скачивания непосредственно с HF приходится скачивать с S3 Software Heritage.
Модели обучали трех размеров: 3b, 7b и 15b. Помимо the-stack-v2 в трейн сет входили сайты с документацией, вопросы-ответы со StackExchange, Kaggle ноутбуки, github issues, код в промежуточном представлении LLVM и несколько СФТ сетов. Датасеты дополнительно отфильтровывали в зависимости от размера модели. Обучали модели с 0.5 FIM rate на 4 триллионах токенов, по 5 эпох. Контекст увеличивали с 4к до 16к по ходу обучения. Инструктивных версий пока нет
В статье много замеров на различных бенчмарках. По ним в целом кажется, что модели получились хуже deepseek-coder. Возможно помешало разнообразие источников? Статья про deepseek-coder не слишком подробно останавливается на датасете, но пишут про "quality model" для фильтрации гитхаба.
На прошлой неделе научная коллаборация BigCode выпустила новую серию CodeLLM Starcoder2 и новый датасет кода the-stack-v2
Paper , HuggingFace
The-stack-v2 создан в коллаборации с архивом ПО Software Heritage. Датасет сильно вырос в объеме по сравнению с the-stack-v1 за счет добавления источников помимо гитхаба, расширения фильтра по языкам программирования (есть даже 1С !) и включения файлов с отсутствующей лицензией. Также в the-stack-v2, в отличии от первой версии, есть возможность сгруппировать файлы по репозиториям. Правда пользоваться датасетом стало менее удобно, вместо скачивания непосредственно с HF приходится скачивать с S3 Software Heritage.
Модели обучали трех размеров: 3b, 7b и 15b. Помимо the-stack-v2 в трейн сет входили сайты с документацией, вопросы-ответы со StackExchange, Kaggle ноутбуки, github issues, код в промежуточном представлении LLVM и несколько СФТ сетов. Датасеты дополнительно отфильтровывали в зависимости от размера модели. Обучали модели с 0.5 FIM rate на 4 триллионах токенов, по 5 эпох. Контекст увеличивали с 4к до 16к по ходу обучения. Инструктивных версий пока нет
В статье много замеров на различных бенчмарках. По ним в целом кажется, что модели получились хуже deepseek-coder. Возможно помешало разнообразие источников? Статья про deepseek-coder не слишком подробно останавливается на датасете, но пишут про "quality model" для фильтрации гитхаба.
⚡️ruIFEval: подход к оценке alignment для LLM на русском языке
Мы сделали перевод датасета и адаптацию кода на русский язык для нового подхода к оценке качества LLM от Google. Подход ruIFEval оценивает способности модели следовать инструкциям на естественном языке. Он фокусируется на наборе «проверяемых инструкций», которые определяются как инструкции, поддающиеся объективной проверке соответствия, таких как «Напишите от 200 до 250 слов» и «весь ваш вывод должен быть в формате json». В силу того, что оценки асессорами являются дорогостоящими, медленными и объективно не воспроизводимыми, и в свою очередь автоматическая оценка на основе LLM ограничена способностями оценщика LLM, то чтобы преодолеть эти проблемы, вводится подход к оценке ruIFEval, который стремится повысить быстроту, ясность и объективность автоматической оценки.
GitHub | Paper
Мы сделали перевод датасета и адаптацию кода на русский язык для нового подхода к оценке качества LLM от Google. Подход ruIFEval оценивает способности модели следовать инструкциям на естественном языке. Он фокусируется на наборе «проверяемых инструкций», которые определяются как инструкции, поддающиеся объективной проверке соответствия, таких как «Напишите от 200 до 250 слов» и «весь ваш вывод должен быть в формате json». В силу того, что оценки асессорами являются дорогостоящими, медленными и объективно не воспроизводимыми, и в свою очередь автоматическая оценка на основе LLM ограничена способностями оценщика LLM, то чтобы преодолеть эти проблемы, вводится подход к оценке ruIFEval, который стремится повысить быстроту, ясность и объективность автоматической оценки.
GitHub | Paper
Компания Recursal AI выпустила промежуточный отчёт об обучении EagleX (RWKV-v5) модели, в котором она обошла LLaMA 2 7b на некоторых бенчмарках.
Модель продолжают учить, но уже сейчас по мультиязычной перплексии модель обходит почти все остальные модели, и имеет очень хороший скор на winogrande и wnli. Это значит, что модель скорее всего будет неплохо работать на мультиязычном RAG. В glue у модели тоже подозрительно высокий счёт, авторы пишут, что проверили датасет на контаминированность и ничего не нашли.
Из забавного: авторы забыли добавить датасет с математикой в обучающую выборку, так что скоры там очень плохие. Добавили обратно, так что к выходу модели с ней станет получше.
Обещают к апрелю закончить обучение, прогнав через неё 2Т токенов и выпустить под пермиссивной лицензией Apache 2.0. В июле в планах обучить MoE модель, которая будет по качеству как GPT 3.5.
Как здорово, что кто-то развивает архитектуры, отличные от трансформеров!
👉 Пост с анонсом
👉 Huggingface
Модель продолжают учить, но уже сейчас по мультиязычной перплексии модель обходит почти все остальные модели, и имеет очень хороший скор на winogrande и wnli. Это значит, что модель скорее всего будет неплохо работать на мультиязычном RAG. В glue у модели тоже подозрительно высокий счёт, авторы пишут, что проверили датасет на контаминированность и ничего не нашли.
Из забавного: авторы забыли добавить датасет с математикой в обучающую выборку, так что скоры там очень плохие. Добавили обратно, так что к выходу модели с ней станет получше.
Обещают к апрелю закончить обучение, прогнав через неё 2Т токенов и выпустить под пермиссивной лицензией Apache 2.0. В июле в планах обучить MoE модель, которая будет по качеству как GPT 3.5.
Как здорово, что кто-то развивает архитектуры, отличные от трансформеров!
👉 Пост с анонсом
👉 Huggingface
Forwarded from GigaChat
This media is not supported in your browser
VIEW IN TELEGRAM
GigaChat отвечает за свои слова — на вопросы об исторических событиях и личностях сервис предоставляет информацию со ссылками на источники. Перейти по ним и прочитать подробнее можно прямо из ответа. Функция работает благодаря системе генерации на основе качественной поисковой выдачи GigaSearch.
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ruMT-Bench: генеративный подход к оценке alignment для LLM на русском языке
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
Несколько месяцев назад мы реализовали генеративный подход к оценке чат версий моделей основанный на MT-Bench. Выкладываем также бенчмарк в открытый доступ. Несмотря на то, что MT-Bench адаптированный под русский язык уже выкладывали , мы делимся своей версией с тщательным переводом асессорами на русский язык, и демонстрируем возможности подхода для моделей доступных на русском языке.
ruMT-Bench содержит инструктивные multi-turn вопросы, разбитые по 8 различным областям знаний. GPT-4 оценивает ответы моделей по шкале от 1 до 10. Окончательная оценка определяется средним значением по всем репликам. Для некоторых сложных задач, требующих точного ответа (например, математика и код), в промт судьи (GPT-4) включается эталонный ответ, который помогает оценить ответы от модели. Замеры на корреляцию с оценками асессоров на lm-sys чат-бот арене показали [ссылка1,ссылка2], из которого следует вывод, что MT-Bench сильнее других бенчмарков на английском языке коррелирует с оценками людей.
GitHub | 🤗Huggingface
Вот про наше детище рассказывает популярный блогер. Приятно. Спасибо!😊
Forwarded from Владилен Минин
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный Copilot
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
👩💻 - да давай
👩💻 - и на этом спасибо, сами разберемся
Ловите небольшой подгон. Потому что, кто не знал, есть такой инструмент как GigaCode
И он позволяет встроить бесплатный ассистент по коду. В целом - удобно
Надо более расширенный материал или гайд как лучше пользоваться им?
Please open Telegram to view this post
VIEW IN TELEGRAM