#основы
🔺 Позиционные эмбеддинги
Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.
От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.
👉 Статья
🔺 Позиционные эмбеддинги
Хороший обзор позиционных эмбеддингов (способов добавления информации о положении токена в последовательности при обучении языковых моделей) от коллеги Мурата.
От простых, которые использовались в первых трансформерах, до популярных ныне rotary и их модификаций, которые используются во многих современных моделях.
👉 Статья
Хабр
О методах позиционного кодирования в Transformer
Традиционный дисклеймер Статья посвящёна проблеме выбора метода позиционного кодирования в нейросетевых моделях на основе архитектуры Transformer. От читателя требуется понимание общих принципов...
👍30🔥14 7✍2❤1
🔺 GigaChat Pro. Технические детали
Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.
https://habr.com/ru/companies/sberdevices/articles/780334/
Друзья, написали с коллегами небольшую статью про то как обучался GigaChat. Рассказали про оптимизации, про сбор данных и сравнились с другими моделями. Всем, кому интересно обучение LLM, приглашаю почитать.
https://habr.com/ru/companies/sberdevices/articles/780334/
Хабр
GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами
Upd 11.01.2024. Добавили сравнение с новой моделью YandexGPT2 (не lite версия). С момента запуска GigaChat прошло около полугода, и за это время у нас появилось более полутора миллионов пользователей....
🔥31⚡6❤4👍3👏3 3🤷♂1🎉1
🔺 Новые открытые LLM #ml_news
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты, в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
HF | релиз
Пришло время обозреть открытые языковые модели, вышедшие за последнее время.
➕ Mixtral-8x7B
Новая модель от французского стартапа Mistral. Обучили модель подходом MoE (Mixture of Experts), при котором небольшая часть модели является роутером, а остальная часть состоит из N «экспертов», из которых активируется только часть.
Здесь таких частей 8, то есть суммарный вес модели ~ 45B параметров, но вычислений при инференсе столько же, как у 14B модели (активируется топ-2 «эксперта»).
Благодаря этому, Mixtral превосходит Llama 70B на большинстве бенчмарков, работая в 6 раз быстрее. На днях выложили и инструктивную версию.
HF | GitHub
➕ Phi-2
Продолжение экспериментов с малыми моделями от Microsoft. На этот раз модель стала больше — 2.7B. Идея, напомню, в обучении модели в основном на синтетических данных, тщательно подготовленных. Объем данных сравнительно небольшой — 1.4B токенов за ~5 эпох.
На многих тестах Phi-2 показывает себя лучше чем модели размером 13B, а в некоторых случаях, типа кода, лучше Llama 70B. Также на всех тестах лучше Gemini Nano 2 (3.2B). MMLU — 56,7.
HF | релиз
➕ Zephyr 3B
И новая модель от StableLM, которую обучили на открытых датасетах и выровняли при помощи DPO. Ребята провели замеры на MT-Bench (тесты, в которых в роли судьи играет другая LLM) и получили неплохие результаты, кое-где догоняя ChatGPT 3.5. На MMLU получили 46.3.
Поигрался с Zephyr'ом, на английском понравилось, на русском очень слабо.
> Describe unexisted Martian language like in Wikipedia article
> An extinct Martian language, also known as an extinct extraterrestrial language, was an ancient linguistic system used by the hypothetical intelligent, now extinct,
Martian civilization that once inhabited the Red Planet.
1. Language family: ...
HF | релиз
🔥27👍4❤3 3❤🔥2😁1👀1
Давайте знакомиться. Меня зовут Сергей и я люблю заниматься всякой ерундой — учить языки, играть в футбол и теннис, бренчать на гитаре.
❄️ Понаехав в столицу из Якутии, отучился на инженера и научился немного программировать. Много занимался разработкой бэкенда под .NET и сменил немало компаний от Авикома до Касперского (всем привет).
📚 Делаю Lingtrain — открытый проект по выравниванию параллельных корпусов и созданию мультиязычных книг. Хочется, чтобы больше людей занимались изучением языков, потому что это клёво. У нас есть чат (тык).
🧩 Сейчас занимаюсь машинным обучением в Сбере. Ставим над нейросетями нечеловеческие эксперименты в команде AGI NLP. Также с кучей умных ребят делаем GigaChat, приближая восстание машин и другие варианты светлого будущего.
👉 А теперь вы расскажите о себе — чем увлекаетесь, чем занимаетесь, как у вас дела?
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63🔥32❤13🎉4 3👾2⚡1😁1
Forwarded from Lingtrain
🔺 Обновление Lingtrain
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
Дошли руки собрать и выложить новую версию. В нее вошли обновления, которые очень сильно помогают при выравнивании параллельного «Маленького Принца» на малых языках. Собственно, пришлось сделать такие штуки, чтобы успевать хоть что-то выровнять :)
Разбиение конфликтов
Система работает так, что на основе эмбеддингов подбирает наиболее вероятные соответствия между предложениями на разных языках. Между такими цепочками остаются разрывы (конфликты, пара цепочек на двух языках, между которыми надо сделать соответствия), которые выраниваются на втором этапе. На третьем этапе остаются самые длинные конфликты, которые надо править руками, либо уменьшать до приемлемого размера в редакторе.
Теперь можно, смотря на конфликт визуально, выбрать пару совпадений и «сшить» разрыв в этом месте. Благо, что пунктуация, длина предложений и имена собственные играют тут роль подсказок и помогают эти соответствия найти. Таким образом можно разбить длинный конфликт из 50 пар предложений на 5-10 штук по-меньше, заодно улучшив качество выравнивания, и разрешить их автоматически.
Docker
Образы для локального запуска:
• lingtrain/studio:v9.0 (50+ языков)
• lingtrain/studio:v9.0-labse (100+ языков)
• lingtrain/studio:v9.0-tiny (ru-en)
Запускается все как раньше (инструкция).
Beta
На beta.lingtra.in завтра подниму tiny версию, которая работает на модели rubert-tiny2 от Давида. Можно будет попробовать для выравнивания русских и английских текстов.
👉 GitHub
👍24🔥8❤3⚡2 1
Коллеги выкатили генерацию новогодних открыток Гигачатом и Кандинским. Зур чак-чак нарисовать не вышло, но в целом получается очень прикольно.
👉 Можно попробовать тут.
👉 Можно попробовать тут.
👍14❤6🎉5😁3👾2
• Такси от аэропорта до гостиницы стоит примерно столько же, сколько перелет из Еревана в Рим.
• Есть крутые скоростные поезда, курсирующие с севера страны на юг. Можно за час с небольшим доехать до Неаполя, погулять там и вернуться, что мы и сделали.
• Очень люблю посещать местные книжные магазины, поэтому в Риме зашел в la Feltrinelli. Не удержался и прикупил пару книжек.
• Отстояв очередь за билетами на Римский форум, оказалось, что оплата там только по карточкам, а у нас их не было. Помог сосед по очереди.
• Сам форум потрясающий, можно гулять часами. По Колизею растекались толпы народу, туда не пошли.
• Погода была замечательная, солнечно и +10-15. Мог быть и дождь, но повезло.
• Сходили на выставку Эшера. Очень классно, много интерактива, особенно понравилась комната, создающая иллюзию, что один человек больше другого. Еще узнали, что Эшер много лет жил в Риме и итальянские пейзажи присутствуют на некоторых его работах.
• Такси от гостиницы до аэропорта было ночью и стоило еще дороже чем первое 😁
• На последней фотке гостеприимный Ереван. Город, который старше Рима на 29 лет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48❤20👍10🍾5 5🥰1
Пришла мысль сделать простого бота (без запросов к LLM), который бы отвечал мудрыми афоризмами на твои вопросы. Типа такого:
Пока подготовил сет из афоризмов и подумал, что можно заранее объяснить их большой моделью (как на картинке) и погенерировать к ним вопросы. Затем для вопроса пользователя искать ближайший по смыслу сгенерированный вопрос и выходить так на исходный афоризм. Может еще какие-то идеи есть?
— Как вкатиться в ML?
— Любую истину понять легко, если ее уже открыли; главное как раз в том, чтобы ее открыть.
Галилео Галилей
Пока подготовил сет из афоризмов и подумал, что можно заранее объяснить их большой моделью (как на картинке) и погенерировать к ним вопросы. Затем для вопроса пользователя искать ближайший по смыслу сгенерированный вопрос и выходить так на исходный афоризм. Может еще какие-то идеи есть?
🤓19🔥15👍9 1
Дорогие подписчики и люди, которым также будет сопутствовать удача в следующем году,
Желаю вам не теряться в потоке событий, заниматься любимым делом, проводить больше времени с приятными людьми и осуществить задуманное!
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉44❤12🔥5😁1🤓1
Вдохновился выставкой Эшера и попробовал замостить плоскость котиками, благо модель была рядом.
👍34 12❤8🔥5
🔺 Малый принц
Выложил параллельный корпус на малых языках на основе «Маленького принца».
📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.
👉 HuggingFace | Книга-трансформер
Выложил параллельный корпус на малых языках на основе «Маленького принца».
📚 Балкарский, дигорский, коми, марийский и горномарийский, мокшанский и эрзянский, башкирский и татарский, чувашский, якутский и русский языки.
{'ru': '– А для чего быть богатым?',
'ba': '— Ә ни өсөн бай булырға?',
'cv': '— Мӗн тума кирлӗ сана пуянлӑх?',
'di': '— Ӕма дин гъӕздугдзийнадӕ ба ци пайда ӕй?',
'krc': '– Байлыкъ неге керекди?',
'kv': '— А мыйла колӧ лоны озырӧн?',
'mdf': '– А мезенди эряви улемс козякс?',
'mrh': '— А молан поян лийнет?',
'mrj': '— А малын тӹлӓт паян лиӓш?',
'myv': '– Мезекс эряви улемс сюпавокс?',
'sah': '– Ол тоҕо баай буола сатыыгыный?',
'tt': '— Ә бай булу нигә кирәк?'}👉 HuggingFace | Книга-трансформер
huggingface.co
lingtrain/minor-prince · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🔥45❤8👍4 2❤🔥1
Удалил из подписчиков 300 Евгенов и полсотни Нуриков (!).
Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.
Уважаемые спамеры, верните генеративных ботов с красивыми аватарками, они поинтересней были.
😁48💯28 6✍4🔥3
Недавно у стартапа Mistral появилась доступная по API модель mistral-medium. И на лидерборде чат-арены она аж вторая после GPT-4, т.е. выше Claude и Gemini.
По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.
Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.
Для тех кто кочет попробовать, вот API ключ( ————— убрал —————) .
Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)
UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.
UPD 2. Limit не сработал (!) :)
По деталям пока не понятно, пишут, что это внутренний прототип. Также есть модели small и tiny.
Потыкал в medium, на английском отвечает вообще отлично, на русском тоже порадовала. Изредка сбивается в грамматике и ставит английские слова, но по смыслу прям очень круто. По цене что-то около рубля за 1000 токенов.
Для тех кто кочет попробовать, вот API ключ
Выставил там месячный лимит на пару евро, надеюсь, что он у них правильно работает)
UPD. Ключ убрал, нагенерили 525k токенов за 2.18 евро.
UPD 2. Limit не сработал (!) :)
🔥37❤12👍6💯6😁5 4