🔺 GigaChat MAX
Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.
🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.
Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.
🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.
🔸 API скоро появится, а сейчас можно работать через UI.
Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!
Все ваши отзывы команда читает и старается улучшить Гигу.
👉 giga.chat | Замеры и описание | @gigachat_bot
Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.
🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.
Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.
🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.
🔸 API скоро появится, а сейчас можно работать через UI.
Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!
Все ваши отзывы команда читает и старается улучшить Гигу.
👉 giga.chat | Замеры и описание | @gigachat_bot
👍28🔥10❤4🍾1
По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.
P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?
👉 HFday.ru
P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?
👉 HFday.ru
50🔥19👍8❤2⚡2🎉1
Forwarded from Lingtrain (Sergei Averkiev)
🔺 SONAR в lingtrain-aligner
Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.
🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).
🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.
🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.
В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.
🔸 В веб-приложении модель тоже можно использовать, надо в конфиге .env указать MODEL="sonar".
👉 lingtrain-aligner | UI | Хабр | SONAR
Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.
🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).
🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.
🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.
В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.
aligner.align_db(...
model_name="sonar",
...,
lang_emb_from="bak_Cyrl", #башкирский
lang_emb_to="rus_Cyrl"
)
🔸 В веб-приложении модель тоже можно использовать, надо в конфиге .env указать MODEL="sonar".
👉 lingtrain-aligner | UI | Хабр | SONAR
❤13🔥7👍3 2
Forwarded from Galqiwi's boredom
Наконец-то закончил работу над большим пет-проектом.
Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.
Можно потестить демо здесь
видео
Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.
Можно потестить демо здесь
видео
YouTube
AQLM.rs demo
You can try this demo at https://galqiwi.github.io/aqlm-rs/about.html
00:00 Loading
04:40 Actual demo
This was run on Macbook Pro M1. Any other laptop or phone with sufficient RAM should work too.
00:00 Loading
04:40 Actual demo
This was run on Macbook Pro M1. Any other laptop or phone with sufficient RAM should work too.
👍25🔥14⚡2❤1🏆1
Audio
Вечерний выпуск подкаста Радио-D
Рецепт:Инструкция от холодильника Бирюса, Claude, ElevenLabs, "унца" из Радио-Т
Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.
Рецепт:
Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.
🔥16😁12 3❤1
Меня зовут Сергей. Работаю программистом, хотя мог бы, наверное, стать переводчиком, музыкантом или спортсменом, если бы был поумнее и посильнее.
Часто трудно выбрать какое-то одно увлечение и это отражается в хобби, которые никакой конкретной цели не преследуют. Это и языки с музыкой, и спорт (благодаря работе подсел последние полтора года на теннис) с книжками, и другие бесполезные вещи.
На работе в Сбере занимаемся с коллегами исследованиями языковых моделей и обучаем GigaChat. Только что дописали статью на Хабр про версию MAX, в которой я тоже поучаствовал, сделав токенизатор.
На канале мы с вами общаемся в основном на темы, связанные с ИИ, машинным обучением и проектами типа Lingtrain'а. Статей выходит огромное количество, поэтому я делаю инструмент с автообзорами (тг тоже будет), а в канале буду писать больше про практические вещи и изредка про личные. Можете его бустануть.
👉 А чем занимаешься ты? О чем мечтаешь? Полететь к звёздам или выспаться?
Please open Telegram to view this post
VIEW IN TELEGRAM
42❤63🎉50👍12🔥5 1
✍️ a sqlinj➡️🐍😈 tool for me
Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.
Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.
Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.
Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.
👍14😱5👀3✍1
🔺 Grok API и $25
API от x.ai запустили в публичную бету.
🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).
🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.
🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.
🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.
🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.
👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.
👉 console.x.ai
API от x.ai запустили в публичную бету.
🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).
🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.
🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.
🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.
🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.
👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.
from openai import OpenAI
XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
api_key=XAI_API_KEY,
base_url="https://api.x.ai/v1",
)
completion = client.chat.completions.create(
model="grok-beta",
messages=[
{"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
{"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
],
)
print(completion.choices[0].message.content)
#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...
👉 console.x.ai
🔥16👍5💯1 1
Forwarded from Kali Novskaya
🌸Больше языков для LLM🌸
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
🟣 Сколько языков сейчас представлены в практике моделирования языка?
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
🟣 Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
🟣 Инициатива HuggingFace
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣 Мини-гайд
🟣 Блог HF
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
Кстати, пока я пост писала, там HuggingFace треснул и упал:
HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…
HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…
❤10👍5 2💅1
🔺 HFday.ru
Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).
🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.
🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.
🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.
👉 Сайт | GitHub
Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).
🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.
🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.
🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.
👉 Сайт | GitHub
226🔥26👍9 3
Forwarded from Lingtrain (Sergei Averkiev)
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.
Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».
«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»
Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».
«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»
❤59🎉12👍9❤🔥3🔥2⚡1🤷♂1
🔺 GigaChat MAX в API
Друзья, последняя версия модели стала доступна по API. Можно тестировать.
🔸 Для удобства накидал простенький клиент (закинул на pypi):
🔸 Чтобы поиграться, вот вам мой ключик, там осталось 800k токенов, можно потратить. Можно попробовать свои систем-промпты, чего через UI не сделать. Если заметите что-то интересное, то пишите.
Ключ:########################################
👉 Официальный клиент можно найти тут.
Upd. Ключик убрал
Друзья, последняя версия модели стала доступна по API. Можно тестировать.
🔸 Для удобства накидал простенький клиент (закинул на pypi):
#pip install gigadoom
import gigadoom as gd
SECRET_KEY = "secret"
acc_token, token_exp = gd.chat.get_access_token(SECRET_KEY)
#models
models = gd.chat.get_models(acc_token)
print(models)
#chat
system = "Ты отвечаешь в стиле Николая Гоголя, с юмором и глубоким смыслом."
query = "В чем смысл жизни?"
history = [{"content": system, "role": "system"}]
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history, model="GigaChat-Max")
#Ах, батенька! Смысл жизни...
#use previous history
query = "А теперь расскажи про квантовую механику в общих чертах."
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history)
print(history)
print(answer)
🔸 Чтобы поиграться, вот вам мой ключик, там осталось 800k токенов, можно потратить. Можно попробовать свои систем-промпты, чего через UI не сделать. Если заметите что-то интересное, то пишите.
Ключ:
👉 Официальный клиент можно найти тут.
Upd. Ключик убрал
🔥24❤7🎄6🆒2👍1😱1
Тут коллеги намекают, что есть же официальный клиент, а вы про него не знаете. Давайте исправлять.
У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.
👉 GitHub (код и докуменатция)
Upd. Друзья, ключ я не забыл удалить, это мой. Пользуйтесь, пока там есть баланс.
Upd2. Ключик убрал
У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.
#pip install gigachat
from gigachat import GigaChat
key = "###################################"
with GigaChat(credentials=key, verify_ssl_certs=False) as giga:
response = giga.chat("Почему у кошек мокрый нос?")
print(response.choices[0].message.content)
👉 GitHub (код и докуменатция)
Upd. Друзья, ключ я не забыл удалить, это мой. Пользуйтесь, пока там есть баланс.
Upd2. Ключик убрал
GitHub
GitHub - ai-forever/gigachat: Библиотека для доступа к GigaChat
Библиотека для доступа к GigaChat. Contribute to ai-forever/gigachat development by creating an account on GitHub.
👍15❤12⚡6🔥5
🔺 GlotLID. Классификатор языков на 2000+ классов
Вышла новая модель для детекции языков с большим упором на малоресурсные.
🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.
🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).
🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.
В общем штука полезная, берём.
👉 Paper | GitHub | Демо на HF
Вышла новая модель для детекции языков с большим упором на малоресурсные.
🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.
🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).
🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.
В общем штука полезная, берём.
👉 Paper | GitHub | Демо на HF
🔥25👍7✍3❤1 1