Градиент обреченный – Telegram

Градиент обреченный

7.97K subscribers

835 photos

20 videos

8 files

454 links

- hfday.ru
- https://habr.com/ru/users/averkij/
- lingtra.in
- prince.lingtrain.ru

Download Telegram

About

Blog

Apps

Platform

Градиент обреченный

7.97K subscribers

Градиент обреченный

🔺 GigaChat MAX

Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.

🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.

Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.

🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.

🔸 API скоро появится, а сейчас можно работать через UI.

Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!

Все ваши отзывы команда читает и старается улучшить Гигу.

👉 giga.chat | Замеры и описание | @gigachat_bot

👍28🔥10❤4🍾1

4.45K viewsSergei Averkiev, 09:02

Градиент обреченный

По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.

P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?

👉 HFday.ru

50🔥19👍8❤2⚡2🎉1

3.67K viewsSergei Averkiev, edited 14:07

Градиент обреченный

Forwarded from Lingtrain (Sergei Averkiev)

🔺 SONAR в lingtrain-aligner

Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.

🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).

🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.

🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.

В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.

aligner.align_db(...
                 model_name="sonar",
                 ...,
                 lang_emb_from="bak_Cyrl", #башкирский
                 lang_emb_to="rus_Cyrl"
)

🔸 В веб-приложении модель тоже можно использовать, надо в конфиге .env указать MODEL="sonar".

👉 lingtrain-aligner | UI | Хабр | SONAR

❤13🔥7👍32

3.71K viewsSergei Averkiev, 11:52

Градиент обреченный

Forwarded from Galqiwi's boredom

Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

You can try this demo at https://galqiwi.github.io/aqlm-rs/about.html

00:00 Loading
04:40 Actual demo

This was run on Macbook Pro M1. Any other laptop or phone with sufficient RAM should work too.

👍25🔥14⚡2❤1🏆1

3.15K viewsSergei Averkiev, 07:45

Градиент обреченный

Написал для прикола скриптик, который генерит вот такие подкасты по статьям.

Такой NotebookLM на коленке.

Обсуждают CLEAR: Character Unlearning in Textual and Visual Modalities, тык.

❤‍🔥14🔥12😁6❤4👀2🆒2👍1

4.09K viewsSergei Averkiev, 11:40

Градиент обреченный

Вечерний выпуск подкаста Радио-D

Рецепт: Инструкция от холодильника Бирюса, Claude, ElevenLabs, "унца" из Радио-Т

Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.

🔥16😁123❤1

4.01K viewsSergei Averkiev, 14:58

Градиент обреченный

🎉 Друзья, у меня в очередной раз случился день рождения. Последний раз такое происходило примерно с год назад, поэтому давайте познакомимся.

Меня зовут Сергей. Работаю программистом, хотя мог бы, наверное, стать переводчиком, музыкантом или спортсменом, если бы был поумнее и посильнее.

Часто трудно выбрать какое-то одно увлечение и это отражается в хобби, которые никакой конкретной цели не преследуют. Это и языки с музыкой, и спорт (благодаря работе подсел последние полтора года на теннис) с книжками, и другие бесполезные вещи.

На работе в Сбере занимаемся с коллегами исследованиями языковых моделей и обучаем GigaChat. Только что дописали статью на Хабр про версию MAX, в которой я тоже поучаствовал, сделав токенизатор.

На канале мы с вами общаемся в основном на темы, связанные с ИИ, машинным обучением и проектами типа Lingtrain'а. Статей выходит огромное количество, поэтому я делаю инструмент с автообзорами (тг тоже будет), а в канале буду писать больше про практические вещи и изредка про личные. Можете его бустануть.

👉 А чем занимаешься ты? О чем мечтаешь? Полететь к звёздам или выспаться?

Please open Telegram to view this post

VIEW IN TELEGRAM

42❤63🎉50👍12🔥51

4.83K viewsSergei Averkiev, edited 10:28

Градиент обреченный

✍️ a sqlinj➡️🐍😈 tool for me

Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.

Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.

👍14😱5👀3✍1

3.59K viewsSergei Averkiev, edited 10:39

Градиент обреченный

Посчитал, все верно

Её сестра

😁60💅14🔥2🤯11

3.79K viewsSergei Averkiev, edited 07:40

Градиент обреченный

🔺 Grok API и $25

API от x.ai запустили в публичную бету.

🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).

🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.

🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.

🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.

🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.

👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.

from openai import OpenAI

XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
    api_key=XAI_API_KEY,
    base_url="https://api.x.ai/v1",
)

completion = client.chat.completions.create(
    model="grok-beta",
    messages=[
        {"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
        {"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
    ],
)

print(completion.choices[0].message.content)

#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...

👉 console.x.ai

🔥16👍5💯11

3.43K viewsSergei Averkiev, edited 07:25

Градиент обреченный

Forwarded from Kali Novskaya

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣

Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣

Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣

Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.

Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне

🟣

Мини-гайд

🟣

Please open Telegram to view this post

VIEW IN TELEGRAM

Кстати, пока я пост писала, там HuggingFace треснул и упал:

HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…

❤10👍52💅1

3K viewsSergei Averkiev, 17:57

Градиент обреченный

🔺 HFday.ru

Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).

🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.

🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.

🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.

👉 Сайт | GitHub

226🔥26👍93

4.51K viewsSergei Averkiev, 09:47

Градиент обреченный

А вторая в принципе ничего

😁40👍338🆒4🔥2🎄2❤1🥰1🎉1

3.98K viewsSergei Averkiev, 08:09

Градиент обреченный

Forwarded from Lingtrain (Sergei Averkiev)

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.

Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».

«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»

❤59🎉12👍9❤‍🔥3🔥2⚡1🤷‍♂1

2.5K viewsSergei Averkiev, 07:35

Градиент обреченный

🔺 GigaChat MAX в API

Друзья, последняя версия модели стала доступна по API. Можно тестировать.

🔸 Для удобства накидал простенький клиент (закинул на pypi):

#pip install gigadoom

import gigadoom as gd


SECRET_KEY = "secret"
acc_token, token_exp = gd.chat.get_access_token(SECRET_KEY)

#models
models = gd.chat.get_models(acc_token)

print(models)

#chat
system = "Ты отвечаешь в стиле Николая Гоголя, с юмором и глубоким смыслом."

query = "В чем смысл жизни?"
history = [{"content": system, "role": "system"}]

answer, history, usage = gd.chat.get_completion(query, acc_token, history=history, model="GigaChat-Max")

#Ах, батенька! Смысл жизни...

#use previous history
query = "А теперь расскажи про квантовую механику в общих чертах."
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history)

print(history)
print(answer)

🔸 Чтобы поиграться, вот вам мой ключик, там осталось 800k токенов, можно потратить. Можно попробовать свои систем-промпты, чего через UI не сделать. Если заметите что-то интересное, то пишите.

Ключ: ########################################

👉 Официальный клиент можно найти тут.

Upd. Ключик убрал

🔥24❤7🎄6🆒2👍1😱1

3.43K viewsSergei Averkiev, edited 10:46

Градиент обреченный

Тут коллеги намекают, что есть же официальный клиент, а вы про него не знаете. Давайте исправлять.

У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.

#pip install gigachat

from gigachat import GigaChat

key = "###################################"

with GigaChat(credentials=key, verify_ssl_certs=False) as giga:
    response = giga.chat("Почему у кошек мокрый нос?")

print(response.choices[0].message.content)

👉 GitHub (код и докуменатция)

Upd. Друзья, ключ я не забыл удалить, это мой. Пользуйтесь, пока там есть баланс.

Upd2. Ключик убрал

GitHub - ai-forever/gigachat: Библиотека для доступа к GigaChat

Библиотека для доступа к GigaChat. Contribute to ai-forever/gigachat development by creating an account on GitHub.

👍15❤12⚡6🔥5

3.28K viewsSergei Averkiev, edited 14:07

Градиент обреченный

🔺 GlotLID. Классификатор языков на 2000+ классов

Вышла новая модель для детекции языков с большим упором на малоресурсные.

🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.

🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).

🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.

В общем штука полезная, берём.

👉 Paper | GitHub | Демо на HF

🔥25👍7✍3❤11

3.33K viewsSergei Averkiev, edited 11:24

Градиент обреченный

Градиент обреченный pinned a photo

12:28

Градиент обреченный

Вот это я понимаю спам, а не эти ваши "заберите nft, заберите nft".

//пойду за картофаном, пока не улетел

😁60🔥20❤7✍4👍3💋1

3.49K viewsSergei Averkiev, edited 12:28