Градиент обреченный – Telegram

Градиент обреченный

7.98K subscribers

836 photos

20 videos

8 files

455 links

- hfday.ru
- https://habr.com/ru/users/averkij/
- lingtra.in
- prince.lingtrain.ru

Download Telegram

About

Blog

Apps

Platform

Градиент обреченный

7.98K subscribers

Градиент обреченный

🔺 Grok API и $25

API от x.ai запустили в публичную бету.

🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).

🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.

🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.

🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.

🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.

👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.

from openai import OpenAI

XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
    api_key=XAI_API_KEY,
    base_url="https://api.x.ai/v1",
)

completion = client.chat.completions.create(
    model="grok-beta",
    messages=[
        {"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
        {"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
    ],
)

print(completion.choices[0].message.content)

#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...

👉 console.x.ai

🔥16👍5💯11

3.43K viewsSergei Averkiev, edited 07:25

Градиент обреченный

Forwarded from Kali Novskaya

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣

Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣

Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣

Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.

Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне

🟣

Мини-гайд

🟣

Please open Telegram to view this post

VIEW IN TELEGRAM

Кстати, пока я пост писала, там HuggingFace треснул и упал:

HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…

❤10👍52💅1

3K viewsSergei Averkiev, 17:57

Градиент обреченный

🔺 HFday.ru

Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).

🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.

🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.

🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.

👉 Сайт | GitHub

226🔥26👍93

4.51K viewsSergei Averkiev, 09:47

Градиент обреченный

А вторая в принципе ничего

😁40👍338🆒4🔥2🎄2❤1🥰1🎉1

3.98K viewsSergei Averkiev, 08:09

Градиент обреченный

Forwarded from Lingtrain (Sergei Averkiev)

This media is not supported in your browser

VIEW IN TELEGRAM

Сегодня день рождения Юрия Кнорозова, человека, который в 1950-х годах дешифровал письменность майя.

Археолог и майянист Майкл Ко в книге «Разгадка кода майя» пишет, что Кнорозов, работая несколько десятилетий в институте Этнографии, занимал «весьма уютный уголок у окна, в ужасающе тесной комнатушке в конце коридора».

«Для меня работа Кнорозова знаменует триумф человеческого духа: упорный и целеустремленный одиночка-ученый смог исключительно силой своего ума проникнуть во внутренний мир чужого народа, который жил тысячу лет назад, да еще в джунглях на другой стороне земного шара»

❤59🎉12👍9❤‍🔥3🔥2⚡1🤷‍♂1

2.5K viewsSergei Averkiev, 07:35

Градиент обреченный

🔺 GigaChat MAX в API

Друзья, последняя версия модели стала доступна по API. Можно тестировать.

🔸 Для удобства накидал простенький клиент (закинул на pypi):

#pip install gigadoom

import gigadoom as gd


SECRET_KEY = "secret"
acc_token, token_exp = gd.chat.get_access_token(SECRET_KEY)

#models
models = gd.chat.get_models(acc_token)

print(models)

#chat
system = "Ты отвечаешь в стиле Николая Гоголя, с юмором и глубоким смыслом."

query = "В чем смысл жизни?"
history = [{"content": system, "role": "system"}]

answer, history, usage = gd.chat.get_completion(query, acc_token, history=history, model="GigaChat-Max")

#Ах, батенька! Смысл жизни...

#use previous history
query = "А теперь расскажи про квантовую механику в общих чертах."
answer, history, usage = gd.chat.get_completion(query, acc_token, history=history)

print(history)
print(answer)

🔸 Чтобы поиграться, вот вам мой ключик, там осталось 800k токенов, можно потратить. Можно попробовать свои систем-промпты, чего через UI не сделать. Если заметите что-то интересное, то пишите.

Ключ: ########################################

👉 Официальный клиент можно найти тут.

Upd. Ключик убрал

🔥24❤7🎄6🆒2👍1😱1

3.43K viewsSergei Averkiev, edited 10:46

Градиент обреченный

Тут коллеги намекают, что есть же официальный клиент, а вы про него не знаете. Давайте исправлять.

У него и функционал побогаче (есть потоковая передача токенов, например, и работа с функциями), и имя погигачатистей.

#pip install gigachat

from gigachat import GigaChat

key = "###################################"

with GigaChat(credentials=key, verify_ssl_certs=False) as giga:
    response = giga.chat("Почему у кошек мокрый нос?")

print(response.choices[0].message.content)

👉 GitHub (код и докуменатция)

Upd. Друзья, ключ я не забыл удалить, это мой. Пользуйтесь, пока там есть баланс.

Upd2. Ключик убрал

GitHub - ai-forever/gigachat: Библиотека для доступа к GigaChat

Библиотека для доступа к GigaChat. Contribute to ai-forever/gigachat development by creating an account on GitHub.

👍15❤12⚡6🔥5

3.28K viewsSergei Averkiev, edited 14:07

Градиент обреченный

🔺 GlotLID. Классификатор языков на 2000+ классов

Вышла новая модель для детекции языков с большим упором на малоресурсные.

🔸 Всего 2102 класса, полный список с кодами в статье, занимает 60% от самой статьи. Модель — fasttext, обучили на своем датасете GlotLID-C.

🔸 Пишут, что на самых редких языках (скорее всего нижние по данным несколько сотен), работает не очень. Попробовал на языках России, которые есть в «Маленьком принце» (башкирский, удмурсткий, эрзянский, якутский и т.д.), все кроме кубачинского и орокского языков определяет без ошибок (а этих языков в модели, судя по всему, нет).

🔸 В репозитории есть полезная кастомная обертка для модели — CustomLID. Через нее можно задать только нужные языки, чтобы классификация шла только по ним.

В общем штука полезная, берём.

👉 Paper | GitHub | Демо на HF

🔥25👍7✍3❤11

3.33K viewsSergei Averkiev, edited 11:24

Градиент обреченный

Градиент обреченный pinned a photo

12:28

Градиент обреченный

Вот это я понимаю спам, а не эти ваши "заберите nft, заберите nft".

//пойду за картофаном, пока не улетел

😁60🔥20❤7✍4👍3💋1

3.49K viewsSergei Averkiev, edited 12:28

Градиент обреченный

Forwarded from Сергей Марков: машинное обучение, искусство и шитпостинг

Завтра в 19:00 презентация моей книги в «Архэ». Приходите, расскажу разное

📍Вход свободный! Регистрация: https://arhe.msk.ru/?p=144635
📹 Также мы организуем прямую трансляцию лекции. Трансляция пройдет здесь: https://www.youtube.com/c/ЦентрАрхэ
📌 По всем вопросам относительно лекции обращайтесь по почте arhe.msk@gmail.com
♦️ Лекция пройдет по адресу: Москва, ст. метро «Павелецкая», ул. Дубининская, д. 20, стр. 1 (Научно-популярная библиотека «Научка»)

🔥14👍6🍾2🎄1

3.12K viewsSergei Averkiev, 16:30

Градиент обреченный

🔺 HFday.ru

Начинаем потихоньку заглядывать в полные тексты статей. Сделал обкачку и парсинг PDF с arxiv'а, занятие очень познавательное. Научился делать с PDF скриншоты и обрезать белые поля (они могут быть разные). Добавил их на карточки статей.

Полные обзоры

Путем долгих экспериментов получилось сделать первые полные обзоры. Делаю GigaChat'ом, пока получается как на картинке (сделано по этой статье). Самое сложное, конечно, с переводом терминов. Все сетки понемногу галлюцинируют.

Поэкспериментирую дальше. Если будет стабильно работать, то для избранных статей можно будет добавить такое на hfday.ru.

Аффилиации

Название конторы или института и имена авторов также научился доставать, пока сохраняются в json'ы. Скоро протащу на странички, можно будет смотреть статьи только от Google или MS.

Ссылки с тегами

Еще прокинул фильтры в параметры. Теперь вот так можно найти, например, все статьи по RAG'ам за ноябрь.

https://hfday.ru/m/2024-11.html?cat=rag

🔸 Напоминаю, что на этой страничке у нас ежедневные обзоры статей с HF Dily Papers, все делается скриптами, которые лежат на гитхабе, там же все развернуто. Контент генерируется разными LLM, можете переделать эту машинерию свои нужды.

👉 GitHub

🔥33👍14❤63

3.41K viewsSergei Averkiev, 14:40

Градиент обреченный

На выходных переделал дизайн странички с обзорами статей. Стало красивей!

➕ добавил разных мелочей типа аффилиаций (скоро добавлю фильтры по ним).

🔥397❤6⚡2👍1

3.13K viewsSergei Averkiev, 09:10

Градиент обреченный

В Claude добавили возможность создания стиля ответа. Можно скормить немного текста, например, отрывок из какого-нибудь писателя, кусок документации или даже просто спам. Получите стиль, который можно затем выбирать при генерации.

Скорее всего текст или его характеристики просто идут в промпт, поэтому такое можно эмулировать с любой другой моделью, но как часть UI выглядит удобно.

✍24👍13😁7❤3

3.27K viewsSergei Averkiev, 07:41

Градиент обреченный

А этот стиль затягивает...

😁48🔥22💯9💅5🤯2🥰1

3.3K viewsSergei Averkiev, 09:15

Градиент обреченный

🔺 Энциклопедия ИИ

Друзья, мой коллега Сергей Марков написал книгу в жанре научпоп про машинное обучение. Называется она «Охота на электроовец: большая книга искусственного интеллекта».

🔸 Писал он её 6 лет (!), переработав несколько тысяч источников.

🔸 Если вам интересно, как область зарождалась и развивалается, какие люди за этим стоят и как это всё работает, то очень рекомендую.

🔸 Книга не дешёвая — формат у нее подарочный, но красивая. А еще её можно скачать бесплатно прямо на сайте автора.

👉 Труд автора можно поддержать плюсиком к статье на Хабре про эту книгу.

👉 Upd. Купить можно на озоне.

🔥43❤7👍4🎄22

3.58K viewsSergei Averkiev, 07:29

Градиент обреченный

Сходили на лекцию Владимира Сурдина и Алексея Семихатова про научные открытия.

Узнал, что условия для жизни есть даже в нашей Солнечной системе на нескольких планетах. И что в 2030 году к спутнику Юпитера прилетит Europa Clipper, чтобы там эту жизнь поискать. Ждём ⏳

В общем лекция отличная, часть Сурдина даже чуть больше понравилась. Такие просветительские лекции происходят довольно часто и не только в Москве, так что сходите при оказии.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤37🔥108❤‍🔥2👍1🆒1

3.5K viewsSergei Averkiev, 08:48