Dealer.AI

Spark Attention :)

2.07K views09:07

BlockchainRLHF O.o

UPD. Ссылка для трудящихся
https://www.sciencedirect.com/science/article/pii/S1574013721000769

🔥4👍3

1.99K viewsedited 09:08

Неделя заканчивается с ~~кофе~~ соревок.

Есть теперь любителям шатать соревнования, чем заняться на выходных.

TG запускает контест по детекции кода на разных языках из тестовых сабжей. Можно юзать паблик датку.

https://t.me/contest/330

Telegram Contests

🏆 Telegram ML Competition

Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023

Telegram…

👍2

2.11K viewsedited 15:30

Dealer.AI

Всем привет, мы строили строили и наконец построили!

Первая супер-библиотека по spelling corruption SAGE.

Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.

UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!

Интересно?
Го читать на хабр!

https://habr.com/ru/companies/sberdevices/articles/763932/

Наша библиотека SAGE:
https://github.com/ai-forever/sage

AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking

Dealer.AI

Друзья, сегодня проходит второй день Конференции Диалог2023.

Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.

Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…

🔥39❤5👍4

11.4K viewsedited 08:14

Dealer.AI

Закончился LLM Exam сорев на kaggle.

Постановка:
Задача состояла в том,чтобы по запросу провести ранжирование ответов A,B,C,D,E исходя из релевантности. Ничего не напоминает?)

От себя:
Мне так и не удалось на полную в нём поучаствовать, тк загрузка full. Но с удовольствием делился идеями с друзьями по цеху. Вот тут ссылка на топ решение. Мне оно не интересно, тк много "грубой силы". Посмотрите сами.

А вот, чтобы я выделил так это другие решения из топ10 (те что в золоте также). Их можно разделить на два типа, а третий я напишу от себя. Его пока никто не описал из участников.

Итак первый подход - каноничный RAG. Берём обкачиваем вики и в индекс кладём его: в Elastic и/или в FAISS, предварительно заэмбеддив с К энкодеров. Далее уже берём LLM претрен соту которой доверяем и по запросу идём в индексы, собираем с них выдачу и кидаем в контекст промта-запроса для LLM. Делаем генерацию для упорядочения ответов.

Метод два. Reward для бедных на DeBERTa в режиме multiple choice + индекс вики с Эластика, + к примеру ещё метаранкер можно кросс энкодер можно бустинг.

Мой вариант. Reward на LLM. Берём ту большую ~~бабаху~~ LLM которая по-вашему мнению или по MMLU лучшая по претрену. Далее выкачиваем с HF rlhf сеты для webgpt+wiki stem , учим reward поверх стейтов LLM. Далее берём пары промт + abсde варианты выдачи и кормим в эту reward LLM . Она выдаёт ранги, по ним сортируем.
Плохо? Берём вики обкачиваем крупный банк текстов также уже берём эластик или faiss+e5/mini-lm-mmarco и тп, кидаем уже доп подсказку для LLM reward. E2E дообучая, можно даже в LoRa , чтобы стейты заморозить и быстро до усадить.

Как-то так. Интересно, кто-нибудь такое сделал?

Ваши варианты в комментариях.

Kaggle

Kaggle - LLM Science Exam

Use LLMs to answer difficult science questions

👍13❤4

2.34K viewsedited 11:41

Dealer.AI

Схема каноничного RAG. Мне оч нравится. Классека уже. Запинтьте для ML system design.

👍15🤔8

2.51K views11:42

Dealer.AI

Кхм... Спасибо. Но нет..

😁34👍1

2.01K views13:11

Dealer.AI

Кхм... Спасибо. Но нет..

Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇

👍3👎1

2.09K viewsedited 13:33

Dealer.AI

Forwarded from Love. Death. Transformers.

ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!

😁21🤡4👍1🔥1😢1

1.79K views13:34

Dealer.AI

Love. Death. Transformers.

ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА, Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!

Карта моей мечты...

😁42🔥8🕊4

2.38K viewsedited 14:23

Dealer.AI

Пошутили и хватит. Народ любит другой контент.

Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.

А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!

Либа тут: https://github.com/microsoft/autogen

Dealer.AI

Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.

Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…

👍12

2.9K viewsedited 19:49

Dealer.AI

Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech

https://habr.com/ru/articles/767560/

Поддержим!

Хабр

Проблема омографов в ударениях и как я ее решал

Меня зовут Денис (tg: @chckdskeasfsd ), и это история о том, почему в опенсурсе нет TTS с нормальными ударениями, и как я пытался это исправить. Обзор проблемы Одной из немаловажных задач в синтезе...

👍13🔥3👎2

6.7K viewsedited 14:06

Dealer.AI

Рекомендательный штурвал какой-то.

If you know, what i mean... ;)

UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.

https://t.me/tinkoffai/311

Жёлтый AI

Олег записал два ролика – о том, как обучали модель для предсказания покупок, с которой залетели на ECIR в Ирландию; и о том, как они запихали рекомендации в модели для рекомендаций, чтобы рекомендовать рекомендательные системы 🚌

😁5

2.12K viewsedited 16:27

Dealer.AI

Я как-то оставил свой зелёный чай, своим коллегам в офисе... 🙈

😁36🤡1

1.92K views17:03

Dealer.AI

Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech https://habr.com/ru/articles/767560/ Поддержим!

Кажется, колыхнул нормально.

НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

Roem.ru

Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним

В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное: Пользователь morosowdm (в составе // Роем в вашем Телеграме: https://t.me/roemru

🤬9🤡1

1.99K viewsedited 19:20

Dealer.AI

Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

А я всё ещё напоминаю про https://github.com/natasha/corus , вроде и лицензия MIT. Саше Кукушкину спасибо за подборку.

GitHub

GitHub - natasha/corus: Links to Russian corpora + Python functions for loading and parsing

Links to Russian corpora + Python functions for loading and parsing - natasha/corus

👍12

2.11K viewsedited 19:29

Dealer.AI

Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

💯13🤡1🥴1

1.91K views08:10

Dealer.AI

Forwarded from Complete AI (Andrey Kuznetsov)

🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai

🔥20😱4❤2🤯1

1.98K views07:37

Dealer.AI

Ни Giga себе
(тебе)

Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).

UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.

Хабр

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Коль желаешь, читай статью Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество...

🔥11👎1

2.64K viewsedited 09:09

Dealer.AI

Падаваны турбо!

https://t.me/kaggle_fucker/102

MarksRemarks

Не все еще наверное знают, но я являюсь автором практического задания/соревнования для курса по NLP от HUAWEI 📱. С сегодняшнего дня оно стало доступным на платформе ods 🦜. Оно не очень тяжелое, потому что рассчитано на студентов, но вы можете попробовать…

👍4🦄2

2.4K views17:49

Dealer.AI

Sparse Universal Transformer
Когда роутить можно даже чью-то мамку...

Вышла очередная статья про mixture of experts (MoE) и scalable transformer. В последнее время, очень модно думать, что GPT-4 это MoE над моделями, где MoE один из вариантов ансамбля.

В статье про Sparse universal transformer также рассматривают ещё вариант MoE над multi head attention (MHA). Оч полезное на самом деле приложение, если мы хотим добавить выразительности вниманию, увеличить число весов,но не сильно просесть по инференсу. Мы же помним, что MHA инициализируют специальным образом, чтобы каждая голова сходилась к своим "оттенкам смысла", что-то берёт на себя инфу про пол, род, число и тп, что-то сентимент и тд. Вот теперь давайте у нас будет роутинг M голов, но фиксом всегда берём из них топК экспертов-голов . Прикольно же под нужный контекст извлекаем свои доменные бошки.

Тут конечно идём реально далее, можно и роутить целые малые доменные сетки или например LoRa адаптеры о.О Или даже чью-то мамку... Ох чет я замечтался, пора остановиться.

В общем, классный обзор на ру тут: https://t.me/gonzo_ML/1976

От того же автора тлдр на English : https://gonzoml.substack.com/p/sparse-universal-transformer

Приятного погружения.

X (formerly Twitter)

Soumith Chintala (@soumithchintala) on X

i might have heard the same 😃 -- I guess info like this is passed around but no one wants to say it out loud.
GPT-4: 8 x 220B experts trained with different data/task distributions and 16-iter inference.
Glad that Geohot said it out loud.

Though, at this…

😁9👍2❤1

2.28K viewsedited 09:21

About

Blog

Apps

Platform