Dealer.AI

Вжу вжу вжу... Мы просто пчёлы...

Сладкий мийëд :)

🤪23🤡6❤2🥴2🖕1

2.16K viewsedited 18:54

Больше GPT богу GPT. Ну и конечно конкуренции..

Надеюсь это не новое название Балабобы или YaLM

Говорят, YandexGPT "вышло" или нет?

UPD. Разные люди из Ya говорят, что это не тот GPT, что аналог ChatGPT. Поэтому расходимся. :(

https://yandex.ru/company/press_releases/2023/17-05-2

🔥4🖕1

2.19K viewsedited 09:41

Dealer.AI

Интересная пресс-заметка. Во-первых, YaGPT получается аналог ruGPT-3 как на Джой Sber. Далее, видимо она SFT, возможно не только диалоги/поиск/qa, но и инструкции only? Ещё замечаем, что мол, якобы, не умеет пока в контекст (см в что дальше). Крч, кому-то в PR Yandex сегодня прилетит. Ждём статьи, где будут расставлены точки над Ya..

❤3😁1🖕1

2.36K viewsedited 10:06

Dealer.AI

Не шали ;)

#YaGPT

😁15🖕1

2.3K views11:22

Dealer.AI

Решение алго задачек. Неплохо. Особенно порадовал локальный поиск. Собесы А секции на джуна в Ya пройти думаю можно)

🔥21❤2👍2👎2🤔1

2.64K views11:35

Dealer.AI

Други, кто юзал уже Гигу?

Пишите в комментариях, шлите скрины.

https://t.me/abuwtf/9314

abuwtf

мда...

🤨8

2.44K views07:11

Dealer.AI

Мемного утра в воскресенье.

Начинайте своё утро с чашечки ChaiGPT. (C)

Спасибо @belozersky

👍12😁5🔥3🤡2

2.64K viewsedited 08:20

Dealer.AI

А я напоминаю, что вчера начался датафест 2023.

Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.

https://t.me/ods_habr/24

ODS Habr blog 🦜

Далее огненные доклады из секции "ML в производстве"!

https://www.youtube.com/live/wi4Fo6rO2vU?feature=share

👍4🗿1

2.6K viewsedited 10:36

Dealer.AI

В одном из рабочих чатов по DL NLP идёт интересная беседа.

-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...

-Отсюда вывод: батч надо шатать!

Улыбнуло очень , сразу вспомнил мем для олдов:

Я твой батч труба шатал(с)

За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass

😁25🤡5❤3

2.33K viewsedited 15:52

Dealer.AI

Готовится, что-то интересное. Естественно про NLP, конечно же с retrieval , ну и куда без RLHF.

Картинка - база. Расскажу офк не что-то с HuggingFace)

Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.

https://youtube.com/@ODSAIRu

🔥17❤2👍1

2.42K viewsedited 13:55

Dealer.AI

Други сегодня был крутой день. #DataFest2023 Секция InstructModels удалась.

Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.

Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749

YouTube

Data Fest 2023, день 9: online из spatial.chat

Сегодня в spatial.chat участников Феста ждет насыщенная программа нескольких секций и активностей:

Computer Vision: с 11:30 до 13:00
Practical ML Yandex: с 12:00 до 15:45
Career: с 12:30 до 18:00 (с перерывом на On-site-test)
DS Talks: с 13:00 до 14:00
MLOps:…

🔥13

2.03K viewsedited 19:23

Dealer.AI

RLHF for retrieval NLP.pdf

3.8 MB

https://docs.google.com/presentation/d/1YCEXE3F1wGasZJdeD3KHHZTrKiMSLrR8m95L7IFXS68/edit?usp=drivesdk

🔥18

2.06K viewsedited 19:23

Dealer.AI

Forwarded from что-то на DL-ском

Так, обещала обзор на адаптеры, делаю на весь зоопарк PEFT

В общем-то недавно, все резко вспомнили о существовании параметрической эффективной настройки, ну а чтобы было привычно для слуха, про PEFT.

(решение которое на самом деле выходило еще в те годы, когда появлялись большие модели по типу Bert. Тогда как раз и предлагали эффективные решения для обучения путем обучения не на всех параметрах)

В приложении предлагаю посмотреть👀 на целый зоопарк таких методов. Увидеть, что на самом деле их большое множество. Они делятся на группы. Можно наверняка уже заприметить знакомые слуху сокращения

Давайте рассмотрим по группам:

Adapters
Идея очень проста: наверняка все слышали о способе transfer learning, когда мы замораживаем слои, добавляем новые, и дообучаем только [добавленные нами]/[добавленные и те, что мы не заморозили в сетке]. Вот тут идея такая же, мы добавляем отдельные слои в разные части сетки, которых в целом может быть сколько угодно. И так обучаемся. В чем проблема? Сеть становится слишком глубокой, это накладывает ограничение при ее инференсе

Selective methods
Теперь представьте, что мы можем не бездумно внедрять эти адаптивные слои, а на основе статистических метрик или результатов обучения производить выборочную адаптацию определенных слоев

Soft promts
Теперь отойдем от добавляемых слоев, и подумаем, что аналогично вышеперечисленному можно оптимизировать, чтобы заморозить все остальные веса? Я бы не придумала, а умные люди в 20-ые годы поняли, что можно подать вместе с запросом, еще некоторую подсказку и оптимизировать только это подсказку. Соответсвенно остальные веса входной последовательности заморозить. Тем самым мы уменьшаем количество параметров во время тренировки и тратим меньше ресурсов

Вот именно методы soft prompts и adapters на самом деле представляли изначально общую группу под названием additive methods. Название говорит само за себя. И, как можно было уже догадаться, суть этой группы в том, чтобы добавить что-то новое, что будет пересчитываться во время ft, а остальное будет заморожено

Ну и на десерт Reparametrization-based methods
Работают они за счет изменения параметров модели таким образом, чтобы можно было получить новые выборки из распределения путем нахождения низкорангового приближения матрицы.

Данные представлены в виде матрицы, где строки представляют объекты, а столбцы представляют признаки объектов. В некоторых случаях, матрицы данных могут быть очень большими и содержать много шумовых признаков. Низкоранговые методы позволяют сократить размерность матрицы, оставив только наиболее информативные признаки.

Го марафон разбора каждого метода в отдельности? Пишите в комментах с чего начать🤓

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7❤3

1.82K views18:24

Dealer.AI

Новый ~~пожинатель~~ пожиматель твоих embeddings - ncvis.

Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.

Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.

Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).

Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱

URL: https://github.com/stat-ml/ncvis

iggisv9t channel

🔥14👍2

2.32K views10:56

Dealer.AI

🔥5

1.98K views10:57

Dealer.AI

Не рекламы пост.

Мой хороший боевой товарищ @van_ilin является одним из создателей iki.ai - knowledge hub для профессионалов в области IT и Design.

В iki.ai уже можно:
- сохранять контент в интеллектуальную библиотеку с функциями создания заметок и выделения.
- создавать коллекции по определенным темам.
- подписки на своих коллег и экспертов, чтобы следить за их чтением и мыслями
- поиск знаний в нашей базе данных с семантическим поиском
- проверить самые последние новости в области машинного обучения и дизайна

Следующий крупный выпуск, ребята обещают будет включать автоматические потоки в библиотеке и второй пилотный проект на базе LLM!!!

P. S. Когда-то с Иваном мы вместе работали над natural language understanding в нашей диалоговой системе. Он отвечал за ML часть в question answering. Поэтому за iki.ai стоят настоящие профессионалы.

🔥9❤3👍2

1.99K viewsedited 11:33

Dealer.AI

Forwarded from NLP Core Team (Andrei Kalmykov)

⚡️ Замерили LLaMA и Сайгу на русском MMLU

Saiga это семейство моделей, обученных в режиме LLaMA + LoRA (основная модель заморожена, тюнится только адаптеры) на нескольких чатбот и инструктивных сетах:
https://github.com/IlyaGusev/rulm

MMLU это мульти-таск (57 разнообразных тематик/тасок, тестовых семплов ~14к) бенчмарк, где нужно для вопроса выбрать один из четырёх ответов (рандом даёт 0.25 качество), вопросы сложные, часто требуют доменных знаний (качество неэкспертных ответов людей 0.35):
https://arxiv.org/abs/2009.03300

Мы перевели MMLU с помощью Yandex.Translate API с английского языка на русский, и замерили на исходном и переведённом сете модели Сайги доступные на HF. В сетапе few-shot k-5, выбирая ответ по вероятностям логитов вариантов A, B, C, D. Для Сайги готовили промпты в инструктивном формате.

LLaMA и Сайга показали хорошие результаты на русском MMLU. Хотя LLaMA видела очень мало русского на претрейне (меньше 1%), что удивляет.

🔥12

1.67K views21:43

About

Blog

Apps

Platform