Dealer.AI – Telegram

Dealer.AI

14.4K subscribers

673 photos

45 videos

16 files

701 links

Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885

Download Telegram

About

Blog

Apps

Platform

14.4K subscribers

Всем, привет, други.

Сорян за молчание, но весь в работе и делах.. Но как раз таки в чатиках, заметил пост от @seeyouall про "spark attention" (понравилась такая аналогия).

См. Тут https://arxiv.org/abs/2310.01889

И тут я вспомнил , как недавно смотрел RL для RecSys и наткнулся на то, что сегодня бы назвали BlockchainRLHF.

А чего? Хайпово, можно пару Валер-coin'ов на старте набрать.

Скрины ниже.

❤2

2.17K views09:07

Spark Attention :)

2.07K views09:07

BlockchainRLHF O.o

UPD. Ссылка для трудящихся
https://www.sciencedirect.com/science/article/pii/S1574013721000769

🔥4👍3

1.99K viewsedited 09:08

Неделя заканчивается с ~~кофе~~ соревок.

Есть теперь любителям шатать соревнования, чем заняться на выходных.

TG запускает контест по детекции кода на разных языках из тестовых сабжей. Можно юзать паблик датку.

https://t.me/contest/330

Telegram Contests

🏆 Telegram ML Competition

Prize fund: $40,000 – from which the 1st place winner will receive $15,000 if any submissions qualify for 1st place.
Deadline: 23:59 on October 15th (Dubai time)
Who can participate: Everyone
Results: October 29th, 2023

Telegram…

👍2

2.11K viewsedited 15:30

Всем привет, мы строили строили и наконец построили!

Первая супер-библиотека по spelling corruption SAGE.

Работа была не простой, вместе с ребятами из команды AGI NLP- мои герои снова:
@alenusch, @qwertysobaka, @go_bobert,
мы сделали оч крутой инструмент. Он позволяет атаковать тексты при помощи добавления опечаток, перестановок и пр., а также делать обратное - фиксить их.

UPD. Забыл совсем!? Мы выбили SOTA по spellcheking!!!

Интересно?
Го читать на хабр!

https://habr.com/ru/companies/sberdevices/articles/763932/

Наша библиотека SAGE:
https://github.com/ai-forever/sage

AI-service в Клауде:
https://cloud.ru/ru/datahub/generative-spell-checking

Друзья, сегодня проходит второй день Конференции Диалог2023.

Мы рады сообщить, что наша работа по атакам на текст вошла в Сборник статей, тема: Augmentation methods for spelling corruptions.

Авторы мои коллеги, товарищи и подписчики:@alenusch, @qwertysobaka…

🔥39❤5👍4

11.4K viewsedited 08:14

Закончился LLM Exam сорев на kaggle.

Постановка:
Задача состояла в том,чтобы по запросу провести ранжирование ответов A,B,C,D,E исходя из релевантности. Ничего не напоминает?)

От себя:
Мне так и не удалось на полную в нём поучаствовать, тк загрузка full. Но с удовольствием делился идеями с друзьями по цеху. Вот тут ссылка на топ решение. Мне оно не интересно, тк много "грубой силы". Посмотрите сами.

А вот, чтобы я выделил так это другие решения из топ10 (те что в золоте также). Их можно разделить на два типа, а третий я напишу от себя. Его пока никто не описал из участников.

Итак первый подход - каноничный RAG. Берём обкачиваем вики и в индекс кладём его: в Elastic и/или в FAISS, предварительно заэмбеддив с К энкодеров. Далее уже берём LLM претрен соту которой доверяем и по запросу идём в индексы, собираем с них выдачу и кидаем в контекст промта-запроса для LLM. Делаем генерацию для упорядочения ответов.

Метод два. Reward для бедных на DeBERTa в режиме multiple choice + индекс вики с Эластика, + к примеру ещё метаранкер можно кросс энкодер можно бустинг.

Мой вариант. Reward на LLM. Берём ту большую ~~бабаху~~ LLM которая по-вашему мнению или по MMLU лучшая по претрену. Далее выкачиваем с HF rlhf сеты для webgpt+wiki stem , учим reward поверх стейтов LLM. Далее берём пары промт + abсde варианты выдачи и кормим в эту reward LLM . Она выдаёт ранги, по ним сортируем.
Плохо? Берём вики обкачиваем крупный банк текстов также уже берём эластик или faiss+e5/mini-lm-mmarco и тп, кидаем уже доп подсказку для LLM reward. E2E дообучая, можно даже в LoRa , чтобы стейты заморозить и быстро до усадить.

Как-то так. Интересно, кто-нибудь такое сделал?

Ваши варианты в комментариях.

Kaggle - LLM Science Exam

Use LLMs to answer difficult science questions

👍13❤4

2.34K viewsedited 11:41

Схема каноничного RAG. Мне оч нравится. Классека уже. Запинтьте для ML system design.

👍15🤔8

2.51K views11:42

Кхм... Спасибо. Но нет..

😁34👍1

2.01K views13:11

Кхм... Спасибо. Но нет..

Отправлю Сене, а то чую его ждёт судьба того, кто на меме с ним... 👇

👍3👎1

2.09K viewsedited 13:33

Forwarded from Love. Death. Transformers.

ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА,
Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!

😁21🤡4👍1🔥1😢1

1.79K views13:34

Love. Death. Transformers.

ЗДЕСЬ ЛЕЖАТ ТРИ ЭКСПЕРИМЕНТА, Я ПРОСИЛ ВЧЕРА 128 КАРТ, 128 КАРТ И ТРИ SOTA БЫЛИ БЫ ПОЛУЧЕНЫ!!!

Карта моей мечты...

😁42🔥8🕊4

2.38K viewsedited 14:23

Пошутили и хватит. Народ любит другой контент.

Тут мои коллеги скинули либ, где LLM общаются между собой на естественном языке для совместного решения задач.

А я уже рассказывал об дебатах LLM - тык. Наконец-то Microsoft реализовали похожую тему! Хочу уже попробовать!

Либа тут: https://github.com/microsoft/autogen

Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.

Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать…

👍12

2.9K viewsedited 19:49

Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech

https://habr.com/ru/articles/767560/

Поддержим!

Проблема омографов в ударениях и как я ее решал

Меня зовут Денис (tg: @chckdskeasfsd ), и это история о том, почему в опенсурсе нет TTS с нормальными ударениями, и как я пытался это исправить. Обзор проблемы Одной из немаловажных задач в синтезе...

👍13🔥3👎2

6.7K viewsedited 14:06

Рекомендательный штурвал какой-то.

If you know, what i mean... ;)

UPD. Поэтому я порекомендую видео про рекомендации в модели рекомендации... Ну вы поняли.

https://t.me/tinkoffai/311

Жёлтый AI

Олег записал два ролика – о том, как обучали модель для предсказания покупок, с которой залетели на ECIR в Ирландию; и о том, как они запихали рекомендации в модели для рекомендаций, чтобы рекомендовать рекомендательные системы 🚌

😁5

2.12K viewsedited 16:27

Я как-то оставил свой зелёный чай, своим коллегам в офисе... 🙈

😁36🤡1

1.92K views17:03

Мой один из любимых турбо-школьников @chckdskeasfsd написал пост на Хабре про очень интересную задачку из NLP/speech https://habr.com/ru/articles/767560/ Поддержим!

Кажется, колыхнул нормально.

НКРЯ, похоже, совсем не так охотно делится своими данными.
https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

Разрабатываемый «Яндексом» Национальный корпус русского языка запрещается краулить посторонним

В блоге на Хабре о том, как правильно расставлять ударения, который использовал спарсенные данные Национального корпуса русского языка (НКРЯ) выяснилось интересное: Пользователь morosowdm (в составе // Роем в вашем Телеграме: https://t.me/roemru

🤬9🤡1

1.99K viewsedited 19:20

Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

А я всё ещё напоминаю про https://github.com/natasha/corus , вроде и лицензия MIT. Саше Кукушкину спасибо за подборку.

GitHub - natasha/corus: Links to Russian corpora + Python functions for loading and parsing

Links to Russian corpora + Python functions for loading and parsing - natasha/corus

👍12

2.11K viewsedited 19:29

Кажется, колыхнул нормально. НКРЯ, похоже, совсем не так охотно делится своими данными. https://roem.ru/17-10-2023/301112/razrabatyvaemyj-yandeksom-nacionalnyj/

💯13🤡1🥴1

1.91K views08:10

Forwarded from Complete AI (Andrey Kuznetsov)

🔥Куда уж меньше?
BitNet: Scaling 1-bit Transformers for Large Language Models

Microsoft Research продолжая исследования в области эффективного обучения и инференса языковых моделей (летом они выпускали статью про новый тип архитектур для замен трансформеров - Retentive Networks) выкатили однобитную трансформерную архитектуру BitNet (веса принимают значения только -1 и +1). На ряде задач BitNet умудряется выдавать качество сопоставимое с моделями в FP16. Авторы предлагают замену слоя nn.Linear на BitLinear для обучения бинарных весов. Сами же активации входных тензоров квантуются до 8-битных значений в ходе обучения. На этапе деквантизации в слое BitLinear точность активаций восстанавливается.

Что получаем в сухом остатке:
1) квантованные веса и активации снижают вычислительные затраты на обучение
2) градиенты и состояния оптимизатора сохраняют высокую точность, чтобы обеспечить стабильность обучения
3) для ускорения сходимости в начале обучения модели с бинарными весами применяют большие значения LR (маленькие изменения не приведут к обновлению бинарных весов)
4) scaling laws работают так же как и для fp16 трансформеров!
5) идеологически этот подход можно применять и для других типов архитектур (сами авторы планируют применить его в RetNet’ах)

Статья

@complete_ai

🔥20😱4❤2🤯1

1.98K views07:37

Ни Giga себе
(тебе)

Говорят Giga новая линейка вышла, но как понимаю ток по api есть доступ. Зато MMLU 50+ , 4к контекст. Переработанный словарь(?), и метрики SBS up x2 (по крайней мере для 7b).

UPD. Ещё говорят не только по api, но и в тг ,web решениях от команды Giga для всех.

GigaChat расправляет плечи. Новая версия нейросетевой модели от Сбера

Коль желаешь, читай статью Обращаясь к мастерам научной фантастики, всё чаще удивляешься их проницательности. В рассказе Артура Кларка «Девять миллиардов имён Бога» компьютер воплотил пророчество...

🔥11👎1

2.64K viewsedited 09:09