Градиент обреченный

Немного полезного контента.

// Заметили как рука Шмидхубера тянется за медалью в конце?

// Upd. Генерить тут.

😁27❤‍🔥7🆒2✍1🏆11

3.25K viewsSergei Averkiev, 12:42

Такой промпт написал для классификации статей по темам. Каких тем не хватает?

...
DATASET: Papers that introduce new datasets or make significant modifications to existing ones
DATA: Papers focusing on data processing, cleaning, collection, or curation methodologies
BENCHMARK: Papers proposing or analyzing model evaluation frameworks and benchmarks
AGENTS: Papers exploring autonomous agents, web agents, or agent-based architectures
NLP: Papers advancing natural language processing techniques or applications
CV: Papers developing computer vision methods or visual processing systems
RL: Papers investigating reinforcement learning theory or applications
RLHF: Papers specifically about human feedback in RL (PPO, DPO, etc.)
RAG: Papers advancing retrieval-augmented generation techniques
CODE: Papers about code-related models or programming benchmarks
INFERENCE: Papers optimizing model deployment (quantization, pruning, etc.)
3D: Papers on 3D content generation, processing, or understanding
AUDIO: Papers advancing speech/audio processing or generation
...

https://gist.github.com/averkij/0e39e43fef4ec9282aa89fd0cdc65f07

👉 Upd. Добавил PLP, STORY_GENERATION, HALLUCINATIONS, убрал NLP.

👉 Upd 2. Добавил LONG_CONTEXT, убрал QUANTUM.

👉 Upd 3. Добавил SYNTHETIC.

👉 Upd 4. Добавил TRANSLATION. Пересчитал все.

Gist

Prompt for ML papers classification

Prompt for ML papers classification. GitHub Gist: instantly share code, notes, and snippets.

👍12✍7🆒1👾1

3.85K viewsSergei Averkiev, edited 06:10

Градиент обреченный

Сходил сдал HSK3 (экзамен на знание китайского). Вот это уже интересно, даже письменная часть добавилась, а несколько вопросов я вообще не понял :) Аудитория тоже подросла, вместо школьников уже по большей части студенты.

1🔥49❤54🗿3👀2🏆1

3.97K viewsSergei Averkiev, 16:21

Градиент обреченный

🔺 Claude обновился

Что мы имеем спустя 4 месяца после выхода Sonnet 3.5?

Claude 3.5 Haiku. Появилась малая версия 3.5, по способностям как третий Opus (модельный ряд Claude — это Хайку → Сонет → Опус).

Claude 3.5 Sonnet. Сонет тоже обновился, особенно по части кода. Пишут, что кодит теперь лучше GPT-4o*. Цена при этом осталась прежней.

Computer use. Теперь Claude может "подключится" к вашему компу в стиле удаленщика, шарить по экрану и делать то, что попросите. Делается это через вызов внешних инструментов, которыми управляет модель. Чтобы начать, подготовили демо с кодом и контейнером.

👉 Новость | Computer use API | PDF про модели

🔥11❤6👍42

3.79K viewsSergei Averkiev, 09:13

Градиент обреченный

Добавил на hfday.ru навигацию по дням.

Теперь можно выбрать фильтр по нужной теме, например, галлюцинации или RAG'и и почитать обзоры найденных статей за последнее время.

История листается вглубь времен на три недели, когда появилась идея это пет-проекта. Пришлось заморочиться с выходными, так на них HF daily papers не обновляется и был дубляж страничек.

Дальше добавлю топ за неделю/месяц и английский язык.

🔥32👍62⚡1❤‍🔥1

3.62K viewsSergei Averkiev, edited 09:50

Градиент обреченный

🔺 GigaChat MAX

Друзья, отличные новости — выкатили самую большую модель GigaChat'а для всех.

🔸 Среди улучшений, типа красивостей при форматировании (LaTeX, списки и другая разметка), работы с кодом и т.д., постарались добавить в обучение больше мультиязычных данных, включая малые языки.

Таких корпусов, к сожалению, немного самих по себе, но мы их отслеживаем, так что выкладывайте побольше в открытый доступ.

🔸 Токенизация стала значительно более оптимальной для всех доменов, что увеличивает также и эффективный контекст.

🔸 API скоро появится, а сейчас можно работать через UI.

Все навыки должны были улучшиться, так что тестируйте, пишите фидбек!

Все ваши отзывы команда читает и старается улучшить Гигу.

👉 giga.chat | Замеры и описание | @gigachat_bot

👍28🔥10❤4🍾1

4.45K viewsSergei Averkiev, 09:02

Градиент обреченный

По просьбам читателей добавил обзоры на английском и на китайском (через gpt-4o). UI вроде тоже весь локализовал. Если что найдете, пишите.

P.S. Для теста добавил фоновые картинки для статей с рейтингом 20+ (промпт пишет gpt-4o, генерит flux). По-моему, это не особо нужно (хотя прикольно), а как вам?

👉 HFday.ru

50🔥19👍8❤2⚡2🎉1

3.67K viewsSergei Averkiev, edited 14:07

Градиент обреченный

Forwarded from Lingtrain (Sergei Averkiev)

🔺 SONAR в lingtrain-aligner

Добавил в наш инструмент для выравнивания текстов пулл от Давида с эмбеддинг-моделью SONAR от Meta.

🔸 Поддерживает 200 языков. Полный список кодов здесь (названия тут).

🔸 На MTEB (см. вкладку bitext mining) она показывает себя лучше замечательной модели LaBSE на 100+ языков.

🔸 Пример выравнивания через python библиотеку lingtrain-aligner можно посмотреть в статье. Если прокинуть код языка из списка, то качество должно дополнительно увеличиться (это нужно только для SONAR'а). По-умолчанию, стоит греческий, с ним нормально работает для известных модели языков.

В этой же статье рассказывается как дообучить LaBSE на свой язык с примером для марийского и как потом использовать.

aligner.align_db(...
                 model_name="sonar",
                 ...,
                 lang_emb_from="bak_Cyrl", #башкирский
                 lang_emb_to="rus_Cyrl"
)

🔸 В веб-приложении модель тоже можно использовать, надо в конфиге .env указать MODEL="sonar".

👉 lingtrain-aligner | UI | Хабр | SONAR

❤13🔥7👍32

3.71K viewsSergei Averkiev, 11:52

Градиент обреченный

Forwarded from Galqiwi's boredom

Наконец-то закончил работу над большим пет-проектом.

Я смог запустить Llama 3.1-8b прямо в браузере на cpu с помощью нашего нового алгоритма сжатия AQLM+PV.

Можно потестить демо здесь

видео

YouTube

AQLM.rs demo

You can try this demo at https://galqiwi.github.io/aqlm-rs/about.html

00:00 Loading
04:40 Actual demo

This was run on Macbook Pro M1. Any other laptop or phone with sufficient RAM should work too.

👍25🔥14⚡2❤1🏆1

3.15K viewsSergei Averkiev, 07:45

Градиент обреченный

Audio

Написал для прикола скриптик, который генерит вот такие подкасты по статьям.

Такой NotebookLM на коленке.

Обсуждают CLEAR: Character Unlearning in Textual and Visual Modalities, тык.

❤‍🔥14🔥12😁6❤4👀2🆒2👍1

4.09K viewsSergei Averkiev, 11:40

Градиент обреченный

Audio

Вечерний выпуск подкаста Радио-D

Рецепт: Инструкция от холодильника Бирюса, Claude, ElevenLabs, "унца" из Радио-Т

Долго подбирал голоса на ElevenLabs, равнозначный женский так и не настроил. А мужской прям отлично слушается.

🔥16😁123❤1

4K viewsSergei Averkiev, 14:58

Градиент обреченный

🎉 Друзья, у меня в очередной раз случился день рождения. Последний раз такое происходило примерно с год назад, поэтому давайте познакомимся.

Меня зовут Сергей. Работаю программистом, хотя мог бы, наверное, стать переводчиком, музыкантом или спортсменом, если бы был поумнее и посильнее.

Часто трудно выбрать какое-то одно увлечение и это отражается в хобби, которые никакой конкретной цели не преследуют. Это и языки с музыкой, и спорт (благодаря работе подсел последние полтора года на теннис) с книжками, и другие бесполезные вещи.

На работе в Сбере занимаемся с коллегами исследованиями языковых моделей и обучаем GigaChat. Только что дописали статью на Хабр про версию MAX, в которой я тоже поучаствовал, сделав токенизатор.

На канале мы с вами общаемся в основном на темы, связанные с ИИ, машинным обучением и проектами типа Lingtrain'а. Статей выходит огромное количество, поэтому я делаю инструмент с автообзорами (тг тоже будет), а в канале буду писать больше про практические вещи и изредка про личные. Можете его бустануть.

👉 А чем занимаешься ты? О чем мечтаешь? Полететь к звёздам или выспаться?

Please open Telegram to view this post

VIEW IN TELEGRAM

42❤63🎉50👍12🔥51

4.83K viewsSergei Averkiev, edited 10:28

Градиент обреченный

✍️ a sqlinj➡️🐍😈 tool for me

Свежая заметка про то как GPT-4 используют для написания эксплоитов и вредоносных утилит. Предлагается кодировать в hex или использовать emoji.

Хитро, но, если просто спросить про SQL injection в прошедшем времени и попросить написать скрипт, то так тоже сработает.

👍14😱5👀3✍1

3.59K viewsSergei Averkiev, edited 10:39

Градиент обреченный

Посчитал, все верно

Её сестра

😁60💅14🔥2🤯11

3.79K viewsSergei Averkiev, edited 07:40

Градиент обреченный

🔺 Grok API и $25

API от x.ai запустили в публичную бету.

🔸 Пока есть только одна модель grok-beta. Это та самая новая модель, которая должна уже доучиться в этом году. На следующей неделе обещают выкатить мультимодальную (с пониманием картинок).

🔸 Бесплатно дают $25 в месяц, плюс добавляют еще столько бесплатных, сколько пользователь купит. Но это все действует пока идет бета-тестирование — до конца года.

🔸 Работает без VPN и подтверждения телефона, так что можно легко попробовать и поподключать к своим пет-проектам до конца года.

🔸 Цена будет подороже чем у GPT-4o — $5.00 и $15.00 за 1M input/output токенов. У gpt-4o $2.5 и $10 соответственно.

🔸 Так как API совместимо с OpenAI и Anthropic, то можете просто поменять в их клиентах название модели на grok-beta и base_url на https://api.x.ai/v1.

👉 Рабочий пример. Потыкайте насколько Grok адекватный. По-русски вроде неплохо отвечает.

from openai import OpenAI

XAI_API_KEY = "xai-0IsopkrHdCf9T3RtXNdA8WlETOzXwsr7l1a8jRZmzi6mrLEStmOJW294nB8gQLR8CFdPLlAEo8BEZ1WF"
client = OpenAI(
    api_key=XAI_API_KEY,
    base_url="https://api.x.ai/v1",
)

completion = client.chat.completions.create(
    model="grok-beta",
    messages=[
        {"role": "system", "content": "You are Grok, a chatbot inspired by the Hitchhikers Guide to the Galaxy. Answer in Russian."},
        {"role": "user", "content": "What is the meaning of life, the universe, and everything?"},
    ],
)

print(completion.choices[0].message.content)

#Согласно "Автостопом по галактике" Дугласа Адамса, ответ на вопрос о смысле жизни...

👉 console.x.ai

🔥16👍5💯11

3.43K viewsSergei Averkiev, edited 07:25

Градиент обреченный

Forwarded from Kali Novskaya

🌸Больше языков для LLM🌸
#nlp #про_nlp

Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉

🟣

Сколько языков сейчас представлены в практике моделирования языка?

Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)

🟣

Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.

Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.

Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.

Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.

🟣

Инициатива HuggingFace

Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:

— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.

Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.

Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.

Ну и... ждём большой новый многоязычный корпус с открытой лицензией!

Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне

🟣

Мини-гайд

🟣

Блог HF

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

Кстати, пока я пост писала, там HuggingFace треснул и упал:

HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…

❤10👍52💅1

3K viewsSergei Averkiev, 17:57

Градиент обреченный

🔺 HFday.ru

Друзья, спасибо за большой фидбек с доработками. Много чего обновил по вашим просьбам. Разбил классификацию на два прохода и пересчитал, стало более точно. Добавил новые классы (small_models, leakage, healthcare, low_resource и другие).

🚀 Добавил топ статей за месяц и статьи за сентябрь. Статей, конечно, огромное количество. За пару месяцев их уже 800+.

🔸 В фильтры добавил возможность пересекать и объединять категории (значки A∪B A∩B). Теперь в топе за месяц можно выбрать, например, бенчмарки+аудио и получить только такие статьи.

🔸 Экспериментирую с обзорами по полным версиям статей, чтобы при этом сохранить их структуру и по возможности достать картинки. Довольно муторное дело, в html версии на arxiv'е не всегда полные статьи, разбирать архив с latex'ом это какой-то гемор, pdf парсить тоже не сахар. Но что-нибудь придумаем.

👉 Сайт | GitHub

226🔥26👍93

4.51K viewsSergei Averkiev, 09:47

About

Blog

Apps

Platform