Dealer.AI
14.4K subscribers
673 photos
45 videos
16 files
702 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Схема каноничного RAG. Мне оч нравится. Классека уже. Запинтьте для ML system design.
👍15🤔8
Кхм... Спасибо. Но нет..
😁34👍1
Dealer.AI
Кхм... Спасибо. Но нет..
Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇
👍3👎1
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
😁21🤡4👍1🔥1😢1
Пошутили и хватит. Народ любит другой контент.

Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.

А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!

Либа тут: https://github.com/microsoft/autogen
👍12
Я как-то оставил свой зелёный чай, своим коллегам в офисе... 🙈
😁36🤡1
Forwarded from Complete AI (Andrey Kuznetsov)
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai
🔥20😱42🤯1
Ни Giga себе
(тебе)

Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).

UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
🔥11👎1
Sparse Universal Transformer
Когда роутить можно даже чью-то мамку...

Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.

В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.

Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.

В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976

От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer

Приятного погружения.
😁9👍21
Любители мишек ликуют? Вышел Pandas 2.0 с pyarrow обёрткой.

С pyarrow говорят быстрее, чем без.

А что предпочитаешь ты для EDA и DataProcessing?

Голосуем:

🐼 - пандас
🤖- vaex/polars
🙈- чистый python

Пишем в комментариях)

Немного подробностей.

https://telegra.ph/Pandas-200--gejmchejndzher-v-rabote-data-sajentistov-10-19


З. Ы. У меня в целом 🤖🙊🐼 в зависимости от ситуации
👍52🙈2👎1🔥1🤔1
Forwarded from Градиентное погружение (Максим Герасимов)
🔥TensorRT-LLM

👉Ваш любимый нейронный ускоритель получил расширение!

TensorRT - движок, который применяет оптимизации для эффективного использования NVIDIA-GPU в Deep Learning.

Что интересного?

💡Интеграция с NVIDIA Triton Inference Server
💡Поддержка Multiple GPU
💡Python API (очень напоминает API HF)
💡Есть поддержка 17 моделей (с примерами): Blib2, LLaMa 1/2, GPT-like, StarCoder, Bert, etc
💡Поддержка квантизации: FP32, FP16, BF16, FP8, INT8, INT4
💡Beam-search & Greedy-search
... и многое другое!

Multi-head Attention (MHA), Multi-query Attention (MQA), Group-query Attention (GQA), In-flight Batching, Paged KV Cache for the Attention, Tensor Parallelism, Pipeline Parallelism, INT4/INT8 Weight-Only Quantization (W4A16 & W8A16), SmoothQuant, GPTQ, AWQ, RoPE

@gradientdip

Конечно, сейчас проект сыроват, но все впереди

Github
Performance (не нашел сравнения с обычным TensorRT)
Документация
8👍1🔥1
Новый взгляд на log-simoid pair-ranking loss.

Тут ребятки наделали шума простой модификацией, которая даёт весомый буст , ещё и память экономит во всех смыслах. И на батче и в целом моделька меньше, а делает по качеству ту, что больше.

https://t.me/lovedeathtransformers/6477

Я даже немного возбудился.

Вру, очень даже возбудился.


Пойду попробую модификацию от log sigmoid в своём пайпе.

прямая ссылка: https://teletype.in/@alexwortega/sYpRYOfkDYz
8👍3❤‍🔥2🗿1
Не поиском едины.

Вчера вечером посмотрел интересное от Яндекса.

Митап ML в Белграде. Команда поиска рассказывала о своём опыте с LLM.

Мне были интересны первые два доклада. Поэтому мои заметки ниже.

Доклад 1. Про генерацию рекламных предложений в поиске:

Ситуация такая, что ребята делают генерацию шаблонов предложений на GPTlike. Далее при помощи DSSM-BERT + catboost выдают лучший кандидат. Радует, что схема классическая, энкодеры и бустинги всё ещё живут и помогают в выдаче. А не "давайте всё перенесём на генеративные с К бошками, пусть и генерит и реранкит".

От себя. Я бы в кандидаты добавил кроме сгенерированных шаблонов, созданные при помощи людей, преднаписанные или вообще конструктор на аннотаторах (модели такие а-ля NER, topic и тп), где в шаблоны просто филятся кандидаты по полям. Далее это всё вместе уже с генеративной реранкал, чтобы добавить надёжности.

Доклад 2. Сладкий RLHF в LLM для поиска.
(Крч хайп, балдёж и всё такое.)

Очень интересный срез опыта команды alignment LLM в поиске.

Рассказали важное, tldr:

1. Ещё раз напомнили, что PPO не стабильно и делают DPO.
2. Схема CCE => DPO работает хорошо.
3. Best of N или RL для бедных, всё ещё лутает и на батч генерации и на инференсе.
4. DPO требователен к размеру сета.
5. Умный сэмплинг с параметров, ранее полезных для оценки на корзинках, даёт направленное выравнивание.

Теперь подробнее про DPO пункты 2-4:

В общем, ребята не юзают PPO, но берут reward модельку для получения синтетики. А именно, гоняют пассажи и генерации к ним через модель награды и кормят DPO алгоритму эту разметку, получают +5% качества.

Потом идут ещё дальше, и берут
топ2 по скору пары из reward для дообучения в cross entropy (по сути ещё шаг файнтюна) с их LLM. После врубают DPO и модель радостно сходится и даёт ещё +4% win rate.
При этом, CE шаг работает с DPO дословно: ТОЛЬКО в последовательности сначала sft-CE на top2 потом DPO. Отмечают, что ещё DPO требователен к размеру дата сета и нужно порядка 50-100к пар, чтобы завелось.
Ну и такой сэмплинг не только помогает на обучении, но и на генерации ответа, выбор топ1 по награде даёт лучший winrate +7%. Правда зовут они это фильтрацией 😁

В общем, зачем козе баян CE+DPO и почему это работает?
Такие вопросы я задал себе. И подумав, предположил, что дело в направленной сходимости к некоторой области весов сети. Эту область мы достигаем через reward sampling+CE файнтюн (как прям при прогреве ???). Далее уже в этой области мы при помощи DPO доусаживаем веса до оптимального набора и не разлетаемся к хренам. Таким образом ,CE подход напоминает направленную регуляризацию, по аналогии с KLD в PPO? А почему бы не делать для надежности сходимости в PPO также. N шагов с CE, K шагов с PPO и по кругу 🤔

Замечание: тк в центре всего тут reward моделька, то её нужно натренировать максимально качественно и надёжно. Быть уверенным , что она реально хорошо отражает preferences. От себя добавлю, для обучения такой модели нужен сбалансированный сет, без перекосов по стилю и длине текстов. Иначе ваша награда быстро найдёт как разделить такие тексты (по тому же стилю или длине).

На сладкое пункт 5. Что это за такой сэмплинг умный?

Ответ простой. Давайте будем просить размечать генерации не только как хороший/плохой, а ставить доп параметры: безопасный, интересный, информативный и тп.
Далее будем использовать это one-hot кодирования для того, чтобы сэмплить примеры с нужным набором 0/1 по данным осям. Так мы получили на батч генерации направленное выравнивание по нужным нам свойства на оценке метрик! Вот западает у вас безопасность и интересность, берём и семплим где стоят у примеров 1ки по этим параметрам. Но ребята пошли дальше, и разбили такие наборы на группы и раздали веса (экспертно или на прогонах выбрали) для сэмплирования, аля вероятности взять в батч. Ещё +1.5% к качеству. Красиво, молодцы. 😏

Фух, вроде всё. Советую очень посмотреть это 📹 по ссылке во вложении. Я кайфанул, думаю вы тоже оцените.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍185🔥3
Метрики по красоте.

P. S. Фильтрация это ранкинг reward top1