Dealer.AI
14.4K subscribers
673 photos
45 videos
16 files
702 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Решение алго задачек. Неплохо. Особенно порадовал локальный поиск. Собесы А секции на джуна в Ya пройти думаю можно)
🔥212👍2👎2🤔1
Други, кто юзал уже Гигу?

Пишите в комментариях, шлите скрины.

https://t.me/abuwtf/9314
🤨8
Мемного утра в воскресенье.

Начинайте своё утро с чашечки ChaiGPT. (C)

Спасибо @belozersky
👍12😁5🔥3🤡2
А я напоминаю, что вчера начался датафест 2023.

Прямая трансляция индастриал секции, к примеру, по ссылке. Там же можно найти и другие.

https://t.me/ods_habr/24
👍4🗿1
В одном из рабочих чатов по DL NLP идёт интересная беседа.

-Половина говорит, что батч надо увеличивать при продвижении по трейну, половина, что батч надо уменьшать...

-Отсюда вывод: батч надо шатать!

Улыбнуло очень , сразу вспомнил мем для олдов:

Я твой батч труба шатал(с)

За ситуацию и мудрость спасибо: @oulenspiegel, @dayyass
😁25🤡53
Готовится, что-то интересное. Естественно про NLP, конечно же с retrieval , ну и куда без RLHF.

Картинка - база. Расскажу офк не что-то с HuggingFace)

Ждём Вас завтра в 18-00 на трансляции DataFest2023. Трек InstructModels and RLHF для NLP.

https://youtube.com/@ODSAIRu
🔥172👍1
Други сегодня был крутой день. #DataFest2023 Секция InstructModels удалась.

Выступили мои хорошие знакомые и друзья. Да и сам рядом постоял, чет побухтел) надеюсь Вам понравилось.

Презентация ниже.
https://www.youtube.com/live/pgIH51zc0l4?feature=share&t=26749
🔥13
Так, обещала обзор на адаптеры, делаю на весь зоопарк PEFT

В общем-то недавно, все резко вспомнили о существовании параметрической эффективной настройки, ну а чтобы было привычно для слуха, про PEFT.

(решение которое на самом деле выходило еще в те годы, когда появлялись большие модели по типу Bert. Тогда как раз и предлагали эффективные решения для обучения путем обучения не на всех параметрах)

В приложении предлагаю посмотреть👀 на целый зоопарк таких методов. Увидеть, что на самом деле их большое множество. Они делятся на группы. Можно наверняка уже заприметить знакомые слуху сокращения

Давайте рассмотрим по группам:

Adapters
Идея очень проста: наверняка все слышали о способе transfer learning, когда мы замораживаем слои, добавляем новые, и дообучаем только [добавленные нами]/[добавленные и те, что мы не заморозили в сетке]. Вот тут идея такая же, мы добавляем отдельные слои в разные части сетки, которых в целом может быть сколько угодно. И так обучаемся. В чем проблема? Сеть становится слишком глубокой, это накладывает ограничение при ее инференсе

Selective methods
Теперь представьте, что мы можем не бездумно внедрять эти адаптивные слои, а на основе статистических метрик или результатов обучения производить выборочную адаптацию определенных слоев

Soft promts
Теперь отойдем от добавляемых слоев, и подумаем, что аналогично вышеперечисленному можно оптимизировать, чтобы заморозить все остальные веса? Я бы не придумала, а умные люди в 20-ые годы поняли, что можно подать вместе с запросом, еще некоторую подсказку и оптимизировать только это подсказку. Соответсвенно остальные веса входной последовательности заморозить. Тем самым мы уменьшаем количество параметров во время тренировки и тратим меньше ресурсов

Вот именно методы soft prompts и adapters на самом деле представляли изначально общую группу под названием additive methods. Название говорит само за себя. И, как можно было уже догадаться, суть этой группы в том, чтобы добавить что-то новое, что будет пересчитываться во время ft, а остальное будет заморожено

Ну и на десерт Reparametrization-based methods
Работают они за счет изменения параметров модели таким образом, чтобы можно было получить новые выборки из распределения путем нахождения низкорангового приближения матрицы.

Данные представлены в виде матрицы, где строки представляют объекты, а столбцы представляют признаки объектов. В некоторых случаях, матрицы данных могут быть очень большими и содержать много шумовых признаков. Низкоранговые методы позволяют сократить размерность матрицы, оставив только наиболее информативные признаки.

Го марафон разбора каждого метода в отдельности? Пишите в комментах с чего начать🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
👍73
Новый пожинатель пожиматель твоих embeddings - ncvis.

Тут сосед открыл для меня новый тул по сжатию dimension эмбеддингов, выглядит перспективно. Работает в разы быстрее umap. При этом, авторы, из ру комьюнити, что не может не радовать.

Помню времена, когда TSNE был медленнее, чем umap. Теперь есть что-то быстрее последнего. Уже готовлюсь внедрить этот метод к себе в пайп кластеризации со своим кастомным вариантом BertTopic + hdbscan.

Читая доку, понимаю за счёт чего сделано ускорение. Использование моих любимых ANN методик , а именно HNSW (писал об этом тут).

Всё нравится. 🦾 Сожалею лишь, что узнал об этом сейчас. А статья на секундочку 2020 года!!! 😱

URL: https://github.com/stat-ml/ncvis
🔥14👍2
🔥5
Не рекламы пост.

Мой хороший боевой товарищ @van_ilin является одним из создателей iki.ai - knowledge hub для профессионалов в области IT и Design.

В iki.ai уже можно:
- сохранять контент в интеллектуальную библиотеку с функциями создания заметок и выделения.
- создавать коллекции по определенным темам.
- подписки на своих коллег и экспертов, чтобы следить за их чтением и мыслями
- поиск знаний в нашей базе данных с семантическим поиском
- проверить самые последние новости в области машинного обучения и дизайна

Следующий крупный выпуск, ребята обещают будет включать автоматические потоки в библиотеке и второй пилотный проект на базе LLM!!!

P. S. Когда-то с Иваном мы вместе работали над natural language understanding в нашей диалоговой системе. Он отвечал за ML часть в question answering. Поэтому за iki.ai стоят настоящие профессионалы.
🔥93👍2
Forwarded from NLP Core Team (Andrei Kalmykov)
⚡️ Замерили LLaMA и Сайгу на русском MMLU

Saiga это семейство моделей, обученных в режиме LLaMA + LoRA (основная модель заморожена, тюнится только адаптеры) на нескольких чатбот и инструктивных сетах:
https://github.com/IlyaGusev/rulm

MMLU это мульти-таск (57 разнообразных тематик/тасок, тестовых семплов ~14к) бенчмарк, где нужно для вопроса выбрать один из четырёх ответов (рандом даёт 0.25 качество), вопросы сложные, часто требуют доменных знаний (качество неэкспертных ответов людей 0.35):
https://arxiv.org/abs/2009.03300

Мы перевели MMLU с помощью Yandex.Translate API с английского языка на русский, и замерили на исходном и переведённом сете модели Сайги доступные на HF. В сетапе few-shot k-5, выбирая ответ по вероятностям логитов вариантов A, B, C, D. Для Сайги готовили промпты в инструктивном формате.

LLaMA и Сайга показали хорошие результаты на русском MMLU. Хотя LLaMA видела очень мало русского на претрейне (меньше 1%), что удивляет.
🔥12
Обучить BERT-base за 60 сек на 3060 8gb.

На просторах телеграмм, в одном из DS чатов нашёл вот эту заметку .

Бодрый челик и его домашняя gpu low сегмента с 8gb видеопамяти на борту смогла в обучение BERT-base.

При этом затраты по времени:
-4 дня или 100gpu часов на претрейн
-12 часов на файнтюн GLUE
-32k токенов словарь и 20гб текстов.

Естественно это удалось достичь благодаря gradient accumulation.

Интересно, что полная тренировка BERT-base по статье затратила тоже время, но на 16 TPU chips.

Конечно приведены метрики GLUE, разумеется фулл обучение имеет значимый отрыв. Но, на мой взгляд, cut off между ресурсами затраченными на обучение и метриками допустим. А что можно сделать, имея 3060ti 12gb?

В замечательное время живём...
🔥27👍2🙈1
Алло, мы ищем таланты!

Помните я рассказывал о Ване из iki.ai . Так вот, в ту самую его бывшую легендарную команду question answering нужен боевой джун.

Далее уже от коллег, дословно:

Ищем Junior NLP Data Engineer в команду направления Open Domain Question Answering.

Мы занимаемся разработкой вопросной-ответной системы ассистента, где ежедневно отвечаем на тысячи различных неожиданных вопросов пользователей. В наши задачи входит:
качественный поиск по базам вопросов;
построение пайплайнов расширения контента (как с помощью редакции, так и с помощью скрапинга по интернету);
взаимоинтеграция с другими проектами , в тч GPT-like проектами;
разработка новых способов распространения знаний (подборки вопросов, подкасты, игры, саджесты).
Мы всегда открытым новым идеям и постоянно пытаемся внедрить что-то новое.
В данный момент у нас стоит большая задача стать входной точкой для многих навыков ассистента. Мы ищем амбициозного NLP Engineer для ещё большего ускорения наших процессов и создания удобной платформы для взаимодействия с нашей системой другими командами.

Задачи:
- Написание пайплайнов для сбора и разметки данных под различные ML-задачи
- Парсинг данных из открытых источников
- Проведение прикладных Data Science исследований для генерации новых фичей поиска
- Тестирование и отладка кода

Наши ожидания:
- Уверенное владение Python 3
- Представление о работе с краудсорсинговыми платформами
- Базовое знание алгоритмов Natural Language Processing
- Готовность к постоянному взаимодействию с другими командами с различным бэкграундом

Будет плюсом:
- Опыт написания парсеров/скраперов
- Опыт работы с Tensorflow/Pytorch

Мы предлагаем:
- UPD. Вилка 100-150к руб. gross + премии (в среднем 2 оклада).

- Конкурентные условия труда (белая заработная плата, оклад, премии);
- Возможность работать на удаленке

- Возможность посещения (как в качестве слушателя, так и в качестве выступающего) местных и международных IT-конференций;
График работы – стандартный, но с гибким подходом;

- ДМС для сотрудников и скидки на медицинскую страховку для родственников;
- Большой и комфортный офис со спортзалом, игровой комнатой, столами для пинг-понга, кафе для сотрудников;
- Широкий спектр дисконт–программ, скидок и привилегий от компаний-партнеров.


Резюме присылайте в лс @PaGul
👍123
Исследования MIT, о том как изменяется производительность труда с и без LLM.

А пока мы тут трындим за хайп и LLM. Ребята из MIT проделали мега соц.эксперимент. Они заперли 444 белых воротничка в офисе и заставили их делать ту же работу с и без ChatGPT.

Те лошадки, что были под допингом ChatGPT. Справились с работой на 37% быстрее, при той же оценке качества результата. Кстати, для этого они придумали специальную, репрезентативную систему оценки и выбрали экспертов. Пахать нужно было по 20-30 мин, в рамках типичных для этих людей задач. Но в целом ни одна "лошадка" не пострадала.

Далее, господа погонщики из MIT провели эксперимент по динамике роста качества, оно естественно, чем больше люди осваивались с ChatGPT росло. Потом ещё и попросили ребяток сделать за фиксированное время как можно больше задач. И снова ставка сыграла в бегах на лошадках с майками ChatGPT.

Ну и на последок. Так сказать для закрепления результатов. Подопытные повторили свою работу ещё разок. Повторенье мать ученья! В итоге, double elimination подтвердил всё указанное выше.

Далее, в статье указан предполагаемый экономический эффект. Анализируется мотивация участников эксперимента, запрашивается обратная связь.

По обратной связи:

Команда также спросила людей, “для чего они использовали ChatGPT”, и выяснила следующее. LLM сокращает время мозгового штурма, значительно сокращает время создания черновика, но затем проактивно используется в процессе окончательного редактирования.
Другими словами, это система, которая значительно ускоряет “первый набросок” и “первоначальные выводы” части работы, которые затем будут использоваться чуть более интенсивно для итогового эскиза. И это становится еще лучше. Когда они спросили респондентов, как они сами оценивают свои навыки письма, оказалось, что “готовность платить” и “полученная ценность” почти идентичны у “плохих писателей” и “хороших писателей”. Другими словами, ChatGPT помогает “плохим писателям” становиться хорошими, а “хорошим писателям” продвигаться быстрее и, возможно, становиться лучше! - Это что получается, что для кожаных мешков ChatGPT, как RETRO или Retrieval augmented для LLM!? 😜

Материальный вопрос:

На мой взгляд следующая мякотка вот тут. Респонденты, использовавшие ChatGPT, сообщили исследователям, что они готовы платить ежемесячную плату в размере 0,5% от своей зарплаты за доступ к этому инструменту! Для работника, зарабатывающего 100 000 долларов в год, это эквивалентно почти 500 долларам в год за пользование этой системой.

Выводы:
Воротнички, что не хотят оседлать прогресс и раскошелиться на api'шечку, рискуют утратить свою конкурентоспособность, проиграв в продуктивности на треть. 😱

Всем желаю быть в ресурсе и осваивать новые технологии!
🔥94😢1