Dealer.AI
14.4K subscribers
673 photos
45 videos
16 files
702 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Spark Attention :)
BlockchainRLHF O.o

UPD. Ссылка для трудящихся
https://www.sciencedirect.com/science/article/pii/S1574013721000769
🔥4👍3
Неделя заканчивается с кофе соревок.

Есть теперь любителям шатать соревнования, чем заняться на выходных.

TG запускает контест по детекции кода на разных языках из тестовых сабжей. Можно юзать паблик датку.

https://t.me/contest/330
👍2
Всем привет, мы строили строили и наконец построили!

Первая супер-библиотека по spelling corruption SAGE.

Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.

UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!

Интересно?
Го читать на хабр!


https://habr.com/ru/companies/sberdevices/articles/763932/

Наша библиотека SAGE:
https://github.com/ai-forever/sage

AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking
🔥395👍4
Закончился LLM Exam сорев на kaggle.

Постановка:
Задача состояла в том,чтобы по запросу провести ранжирование ответов A,B,C,D,E исходя из релевантности. Ничего не напоминает?)

От себя:
Мне так и не удалось на полную в нём поучаствовать, тк загрузка full. Но с удовольствием делился идеями с друзьями по цеху. Вот тут ссылка на топ решение. Мне оно не интересно, тк много "грубой силы". Посмотрите сами.

А вот, чтобы я выделил так это другие решения из топ10 (те что в золоте также). Их можно разделить на два типа, а третий я напишу от себя. Его пока никто не описал из участников.


Итак первый подход - каноничный RAG. Берём обкачиваем вики и в индекс кладём его: в Elastic и/или в FAISS, предварительно заэмбеддив с К энкодеров. Далее уже берём LLM претрен соту которой доверяем и по запросу идём в индексы, собираем с них выдачу и кидаем в контекст промта-запроса для LLM. Делаем генерацию для упорядочения ответов.

Метод два. Reward для бедных на DeBERTa в режиме multiple choice + индекс вики с Эластика, + к примеру ещё метаранкер можно кросс энкодер можно бустинг.

Мой вариант. Reward на LLM. Берём ту большую бабаху LLM которая по-вашему мнению или по MMLU лучшая по претрену. Далее выкачиваем с HF rlhf сеты для webgpt+wiki stem , учим reward поверх стейтов LLM. Далее берём пары промт + abсde варианты выдачи и кормим в эту reward LLM . Она выдаёт ранги, по ним сортируем.
Плохо? Берём вики обкачиваем крупный банк текстов также уже берём эластик или faiss+e5/mini-lm-mmarco и тп, кидаем уже доп подсказку для LLM reward. E2E дообучая, можно даже в LoRa , чтобы стейты заморозить и быстро до усадить.

Как-то так. Интересно, кто-нибудь такое сделал?

Ваши варианты в комментариях.
👍134
Схема каноничного RAG. Мне оч нравится. Классека уже. Запинтьте для ML system design.
👍15🤔8
Кхм... Спасибо. Но нет..
😁34👍1
Dealer.AI
Кхм... Спасибо. Но нет..
Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇
👍3👎1
ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!
😁21🤡4👍1🔥1😢1
Пошутили и хватит. Народ любит другой контент.

Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.

А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!

Либа тут: https://github.com/microsoft/autogen
👍12
Я как-то оставил свой зелёный чай, своим коллегам в офисе... 🙈
😁36🤡1
Forwarded from Complete AI (Andrey Kuznetsov)
🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai
🔥20😱42🤯1
Ни Giga себе
(тебе)

Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).

UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.
🔥11👎1
Sparse Universal Transformer
Когда роутить можно даже чью-то мамку...

Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.

В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.

Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.

В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976

От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer

Приятного погружения.
😁9👍21