Dealer.AI
14.4K subscribers
672 photos
44 videos
16 files
699 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Олды vs зумеры
😁70👍1
Лучший подарок в следующем году, свой Mixture of experts based LLM.

А что вы ждёте от следующего года?)

За картинос спасибо @bogdanisssimo
18👍3😁1
Forwarded from Boosters.pro
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.

Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!

https://boosters.pro/championship/hh_recsys/
🥴14🔥6🤡1
Как выглядит конец этого года у Жоского Дяди.

P/S Вредные привычки плохо. Но, видимо, моя зависимость - это ML/DS/AI.

Вайб "Вьетнамские флешбеки".
🔥15👍32
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
👍415🔥42
👆Поддержим Милану и скажем спасибо другим коллегам по цеху!

P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
19
Дорогие подписчики, в уходящем 2023г. было много всего: открытие этого канала, сложные вызовы, горечь потерь и радость открытий. Я желаю Вам в новом году: мира, добра, новых достижений и будьте здоровы!

Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!

С Новым годом! 🦾🤖🎄
👏24👍32🤗2
Dealer.AI pinned a photo
[пост был удалён]

Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.


Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.

Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.

По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.

Возможно позже.


Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.

Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.


Подробности в статье на хабре на следующей неделе.


Huggingface

Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
🔥203👍1
Git LLMs pull, LLMs merge, LLMs push.

В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей.

В чем состоит идея git merge'а моделек?

Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging.

Во-вторых мы НЕ склеиваем их по принципу схожему с MoE.

Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале.

Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп.

Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!
🔥17👍61
💻 Джи-пи-ти... Уже все наслышаны про модели-трансформеры, прекрасно генерирующие текст. Но сверх классического применения, версия GPT4, как говорят, хорошо помогает в задачах кодинга. Бластим решил это проверить.

19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.

Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!

🚩Онлайн-встреча будет интересна всем: уже знакомым с нашумевшим чат-ботом, тем, кто никогда не прибегал к помощи GPT, работодателям, которые хотят посмотреть на навыки биоинформатика за 10$/месяц 😉

👉 Регистрируйтесь на мастер-класс по ссылке: bit.ly/3TVqOny
И с нетерпением ждем следующую пятницу!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Задетекшена атака навождение ботсов)

пока сделаю канал не паблик

upd. профилактика окончена
😱9👍6
Че, шкет, настало твое время? Тут можно выровнять даже чью-то mom. Причëм, за дорохо.

https://openai.com/careers/research-engineer-collective-alignment
😁131
есть интересное мнение 👇
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥18👍3
Аугментируй это.

Новый функционал Augmentex. Теперь и bbox атаки. С помощью данных методов можно улучшить робастность моделей по отношению к входным данным. Также можно банально аугментировать текст ошибками (ru, en) и парафразингом (пока ru).

Ссылка на ветку:

https://github.com/ai-forever/augmentex/tree/paraphrase_branch

Примеры атак:

https://github.com/ai-forever/augmentex/blob/paraphrase_branch/notebooks/tutorial.ipynb

Пробуем!


P/S. А еще мой падаван Марк выступит на AI talent HuB2024 с данной темой :
https://ods.ai/events/aitalentdemoday2024
🔥101
ChatQA или догоняет ли Ахилес черепаху GPT-4.

Намедни, NVIDIA выкатила статью, где дословно утверждается:
"Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90, тут кстати значим ли разлет? ) , without relying on any synthetic data from OpenAI GPT models."

Таблицы результатов замеров на разных QA датасетах , размеры модеделей и сетапы указаны, смотрите папиру. Жаль моделек в открытом доступе нет, а представлены там размеры: 8b, 13b, 70b. 8b видимо, чтобы не подумали, что кто-то все на llama2 сделал ;)

Мне более интересно как делают эффективный тюн под dialogue QA.
Первый этап (они прям так его и зовут) это ,разумеется, претрен+domain sft adoptation. Тут они берут general диалоговые сеты аля SODA, OpenAssistant, приправляют чутка другими аля инструктивный FLAN и long-QA eli5 и тп.

Второй этап это уже более узконаправленный контекстно-улучшенный instruction tuning чисто под QA домен. И тут самое интересное,на мой взгляд, творится.

Подход подобен e2e обучению LLM+retrieval(RAG). На данном этапе, проводят два эксперимента (на самом деле три, но основных ветки две, а третья уже микст): с обучением ретривера по контексту диалога или по саммари контекста диалога. Раскрою вышеуказанное поподробнее. Ретривер используется для того, чтобы сходить в базу знаний и вытащить оттуда документы/чанки (не более 300 слов), далее положить их в контекст LLM и улучшить ее QA ответы. Для этого авторы предлагают или использовать в качестве запроса контекст диалога as is или его переписанный вариант/саммари. Все сетапы тюнились в ретривере на базе E5 и Dragon в contrastive формате аля CLIP/SBERT и тп. (схему приложу ниже). Причем, до кучи, еще пробовали E5 и Dragon заморозить. Rewrite диалога получали путем обстрела GPT-3.5, для этого даже приложили удачные сетапы инструкций/промтов в статье. Для E5 итоге победил внезапно подход без переписывания диалога, а для Dragon разница в метриках , по словам авторов, не значима (тут я согласен). Более того, переписывание диалога, по словам тех же авторов накладывало бы на них зависимость от ChatGPT, какие бы смыслы вы под этим не поняли (время генерации, лицензия, деньги).

Что еще интересного? А то, что потом авторы микстанули подход но уже на уровне нарезки документов. Т.е. в контекст LLM уже стали досыпать не только top-K выдачу чанков из ретривера, но и саммари лучшего документа, который содержит ответ. Сначала, они делали top-4 выбор чанков, но потом добавили саммари топ-1 документа, и назвали это уже топ-5 подходом. Причем сделали они это не случайно. Пробовали искать по саммари документов (которые 100% содержат в себе ответ), но чтобы не размывать информацию таким образом, стали микстить по процедуре выше. Тут показал себя лучшим Dragon, а также в среднем улучшились метрики ответа LLM для retrieval сетов, но упали для остальных. На мой взгляд не значимо, ни рост , ни падение. Да и сетап был chatQA-70b+top5 (см.таблицу 5).

На этом, для меня интересное закончилось. Узнал про новые RAG подходы в e2e с LLM и на контекстах диалогов, неплохой хинт с микстом саммари и чанками документов.

Всем хорошего воскресенья!
👍13🔥4🤡1
Общая схема e2e