Dealer.AI
14.4K subscribers
673 photos
45 videos
16 files
702 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Вжу вжу вжу... Мы просто пчёлы...

Сладкий мийëд :)
🤪23🤡62🥴2🖕1
Больше GPT богу GPT. Ну и конечно конкуренции..

Надеюсь это не новое название Балабобы или YaLM

Говорят, YandexGPT "вышло" или нет?

UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(

https://yandex.ru/company/press_releases/2023/17-05-2
🔥4🖕1
Интересная пресс-заметка. Во-первых, YaGPT получается аналог ruGPT-3 как на Джой Sber. Далее, видимо она SFT, возможно не только диалоги/поиск/qa, но и инструкции only? Ещё замечаем, что мол, якобы, не умеет пока в контекст (см в что дальше). Крч, кому-то в PR Yandex сегодня прилетит. Ждём статьи, где будут расставлены точки над Ya..
3😁1🖕1
Не шали ;)

#YaGPT
😁15🖕1
Решение алго задачек. Неплохо. Особенно порадовал локальный поиск. Собесы А секции на джуна в Ya пройти думаю можно)
🔥212👍2👎2🤔1
Други, кто юзал уже Гигу?

Пишите в комментариях, шлите скрины.

https://t.me/abuwtf/9314
🤨8
Мемного утра в воскресенье.

Начинайте своё утро с чашечки ChaiGPT. (C)

Спасибо @belozersky
👍12😁5🔥3🤡2
А я напоминаю, что вчера начался датафест 2023.

Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.

https://t.me/ods_habr/24
👍4🗿1
В одном из рабочих чатов по DL NLP идёт интересная беседа.

-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...

-Отсюда вывод: батч надо шатать!

Улыбнуло очень , сразу вспомнил мем для олдов:

Я твой батч труба шатал(с)

За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
😁25🤡53
Готовится, что-то интересное. Естественно про NLP, конечно же с retrieval , ну и куда без RLHF.

Картинка - база. Расскажу офк не что-то с HuggingFace)

Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.

https://youtube.com/@ODSAIRu
🔥172👍1
Други сегодня был крутой день. #DataFest2023 Секция InstructModels удалась.

Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.

Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
🔥13
Так, обещала обзор на адаптеры, делаю на весь зоопарк PEFT

В общем-то недавно, все резко вспомнили о существовании параметрической эффективной настройки, ну а чтобы было привычно для слуха, про PEFT.

(решение которое на самом деле выходило еще в те годы, когда появлялись большие модели по типу Bert. Тогда как раз и предлагали эффективные решения для обучения путем обучения не на всех параметрах)

В приложении предлагаю посмотреть👀 на целый зоопарк таких методов. Увидеть, что на самом деле их большое множество. Они делятся на группы. Можно наверняка уже заприметить знакомые слуху сокращения

Давайте рассмотрим по группам:

Adapters
Идея очень проста: наверняка все слышали о способе transfer learning, когда мы замораживаем слои, добавляем новые, и дообучаем только [добавленные нами]/[добавленные и те, что мы не заморозили в сетке]. Вот тут идея такая же, мы добавляем отдельные слои в разные части сетки, которых в целом может быть сколько угодно. И так обучаемся. В чем проблема? Сеть становится слишком глубокой, это накладывает ограничение при ее инференсе

Selective methods
Теперь представьте, что мы можем не бездумно внедрять эти адаптивные слои, а на основе статистических метрик или результатов обучения производить выборочную адаптацию определенных слоев

Soft promts
Теперь отойдем от добавляемых слоев, и подумаем, что аналогично вышеперечисленному можно оптимизировать, чтобы заморозить все остальные веса? Я бы не придумала, а умные люди в 20-ые годы поняли, что можно подать вместе с запросом, еще некоторую подсказку и оптимизировать только это подсказку. Соответсвенно остальные веса входной последовательности заморозить. Тем самым мы уменьшаем количество параметров во время тренировки и тратим меньше ресурсов

Вот именно методы soft prompts и adapters на самом деле представляли изначально общую группу под названием additive methods. Название говорит само за себя. И, как можно было уже догадаться, суть этой группы в том, чтобы добавить что-то новое, что будет пересчитываться во время ft, а остальное будет заморожено

Ну и на десерт Reparametrization-based methods
Работают они за счет изменения параметров модели таким образом, чтобы можно было получить новые выборки из распределения путем нахождения низкорангового приближения матрицы.

Данные представлены в виде матрицы, где строки представляют объекты, а столбцы представляют признаки объектов. В некоторых случаях, матрицы данных могут быть очень большими и содержать много шумовых признаков. Низкоранговые методы позволяют сократить размерность матрицы, оставив только наиболее информативные признаки.

Го марафон разбора каждого метода в отдельности? Пишите в комментах с чего начать🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
Новый пожинатель пожиматель твоих embeddings - ncvis.

Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.

Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.

Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).

Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱

URL: https://github.com/stat-ml/ncvis
🔥14👍2
🔥5
Не рекламы пост.

Мой хороший боевой товарищ @van_ilin является одним из создателей iki.ai - knowledge hub для профессионалов в области IT и Design.

В iki.ai уже можно:
- сохранять контент в интеллектуальную библиотеку с функциями создания заметок и выделения.
- создавать коллекции по определенным темам.
- подписки на своих коллег и экспертов, чтобы следить за их чтением и мыслями
- поиск знаний в нашей базе данных с семантическим поиском
- проверить самые последние новости в области машинного обучения и дизайна

Следующий крупный выпуск, ребята обещают будет включать автоматические потоки в библиотеке и второй пилотный проект на базе LLM!!!

P. S. Когда-то с Иваном мы вместе работали над natural language understanding в нашей диалоговой системе. Он отвечал за ML часть в question answering. Поэтому за iki.ai стоят настоящие профессионалы.
🔥93👍2
Forwarded from NLP Core Team (Andrei Kalmykov)
⚡️ Замерили LLaMA и Сайгу на русском MMLU

Saiga это семейство моделей, обученных в режиме LLaMA + LoRA (основная модель заморожена, тюнится только адаптеры) на нескольких чатбот и инструктивных сетах:
https://github.com/IlyaGusev/rulm

MMLU это мульти-таск (57 разнообразных тематик/тасок, тестовых семплов ~14к) бенчмарк, где нужно для вопроса выбрать один из четырёх ответов (рандом даёт 0.25 качество), вопросы сложные, часто требуют доменных знаний (качество неэкспертных ответов людей 0.35):
https://arxiv.org/abs/2009.03300

Мы перевели MMLU с помощью Yandex.Translate API с английского языка на русский, и замерили на исходном и переведённом сете модели Сайги доступные на HF. В сетапе few-shot k-5, выбирая ответ по вероятностям логитов вариантов A, B, C, D. Для Сайги готовили промпты в инструктивном формате.

LLaMA и Сайга показали хорошие результаты на русском MMLU. Хотя LLaMA видела очень мало русского на претрейне (меньше 1%), что удивляет.
🔥12