Dealer.AI

Олды vs зумеры

😁70👍1

3.24K views21:25

Лучший подарок в следующем году, свой Mixture of experts based LLM.

А что вы ждёте от следующего года?)

За картинос спасибо @bogdanisssimo

❤18👍3😁1

3.18K viewsedited 18:47

Dealer.AI

Forwarded from Boosters.pro

hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.

Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!

https://boosters.pro/championship/hh_recsys/

🥴14🔥6🤡1

2.8K views17:27

Dealer.AI

Как выглядит конец этого года у Жоского Дяди.

P/S Вредные привычки плохо. Но, видимо, моя зависимость - это ML/DS/AI.

Вайб "Вьетнамские флешбеки".

🔥15👍3❤2

2.69K viewsedited 05:48

Dealer.AI

Forwarded from grokaem себя (Milana)

#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.

dynamic-epoch-4bb on Notion

100 questions about NLP | Notion

Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.

👍41⚡5🔥4❤2

2.57K views09:36

Dealer.AI

👆Поддержим Милану и скажем спасибо другим коллегам по цеху!

P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄

❤19

3.28K views09:45

Dealer.AI

Дорогие подписчики, в уходящем 2023г. было много всего: открытие этого канала, сложные вызовы, горечь потерь и радость открытий. Я желаю Вам в новом году: мира, добра, новых достижений и будьте здоровы!

Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!

С Новым годом! 🦾🤖🎄

👏24👍3❤2🤗2

3.79K views16:11

Dealer.AI

Dealer.AI pinned a photo

16:11

Dealer.AI

Forwarded from Love. Death. Transformers.

[пост был удалён]

Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.

Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.

Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.

По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.

Возможно позже.

Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.

Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.

Подробности в статье на хабре на следующей неделе.

Huggingface

Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )

huggingface.co

vikhr - a AlexWortega Collection

A family of russian translated LLM

🔥20❤3👍1

2.05K views15:43

Dealer.AI

Новый любимый лось: SigLIP Log-Sigmoid loss 🌿 Крч, недавно ребята анонсировали в SigLIP модифицированный log-sigmoid лосс. И да, это тот, который в reward юзают для обучения. 😎 Об этом уже писал тут. Обещали быстрый, с малыми затратами по компьюту эффект…

SigLIP models теперь официально в Transformers. И от себя замечу-этот siglip лосс в основе не только хорош для CLIP-like задач, но и для любых иных в стиле contrastive, в тч sentence/text embs аля sbert и др.

https://huggingface.co/docs/transformers/main/en/model_doc/siglip

huggingface.co

SigLIP

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

👍13😁2

2.33K viewsedited 22:05

Dealer.AI

~~Git~~ LLMs pull, LLMs merge, LLMs push.

В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей.

В чем состоит идея ~~git~~ merge'а моделек?

Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging.

Во-вторых мы НЕ склеиваем их по принципу схожему с MoE.

Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале.

Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп.

Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!

🔥17👍6❤1

3.81K viewsedited 09:14

Dealer.AI

Forwarded from Бластим: курсы и работа в биотехе

💻 Джи-пи-ти... Уже все наслышаны про модели-трансформеры, прекрасно генерирующие текст. Но сверх классического применения, версия GPT4, как говорят, хорошо помогает в задачах кодинга. Бластим решил это проверить.

19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.

Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!

🚩Онлайн-встреча будет интересна всем: уже знакомым с нашумевшим чат-ботом, тем, кто никогда не прибегал к помощи GPT, работодателям, которые хотят посмотреть на навыки биоинформатика за 10$/месяц 😉

👉

Регистрируйтесь на мастер-класс по ссылке: bit.ly/3TVqOny
И с нетерпением ждем следующую пятницу!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1

2.91K views09:57

Dealer.AI

Задетекшена ~~атака~~ навождение ботсов)

пока сделаю канал не паблик

upd. профилактика окончена

😱9👍6

2.82K viewsedited 11:40

Dealer.AI

Че, шкет, настало твое время? Тут можно выровнять даже чью-то mom. Причëм, за дорохо.

https://openai.com/careers/research-engineer-collective-alignment

😁13❤1

2.81K viewsedited 16:40

Dealer.AI

есть интересное мнение 👇

2.29K views13:50

Dealer.AI

Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)

GPT-4 не особо впечатлил меня

Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось

В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил

Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе

Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач

В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2

P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками

🔥18👍3

2.86K views13:50

Dealer.AI

Аугментируй это.

Новый функционал Augmentex. Теперь и bbox атаки. С помощью данных методов можно улучшить робастность моделей по отношению к входным данным. Также можно банально аугментировать текст ошибками (ru, en) и парафразингом (пока ru).

Ссылка на ветку:

https://github.com/ai-forever/augmentex/tree/paraphrase_branch

Примеры атак:

https://github.com/ai-forever/augmentex/blob/paraphrase_branch/notebooks/tutorial.ipynb

Пробуем!

P/S. А еще мой падаван Марк выступит на AI talent HuB2024 с данной темой :
https://ods.ai/events/aitalentdemoday2024

GitHub

GitHub - ai-forever/augmentex at paraphrase_branch

Augmentex — a library for augmenting texts with errors - GitHub - ai-forever/augmentex at paraphrase_branch

🔥10❤1

6.41K viewsedited 09:01

Dealer.AI

ChatQA или догоняет ли Ахилес ~~черепаху~~ GPT-4.

Намедни, NVIDIA выкатила статью, где дословно утверждается:
"Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90, тут кстати значим ли разлет? ) , without relying on any synthetic data from OpenAI GPT models."

Таблицы результатов замеров на разных QA датасетах , размеры модеделей и сетапы указаны, смотрите папиру. Жаль моделек в открытом доступе нет, а представлены там размеры: 8b, 13b, 70b. 8b видимо, чтобы не подумали, что кто-то все на llama2 сделал ;)

Мне более интересно как делают эффективный тюн под dialogue QA.
Первый этап (они прям так его и зовут) это ,разумеется, претрен+domain sft adoptation. Тут они берут general диалоговые сеты аля SODA, OpenAssistant, приправляют чутка другими аля инструктивный FLAN и long-QA eli5 и тп.

Второй этап это уже более узконаправленный контекстно-улучшенный instruction tuning чисто под QA домен. И тут самое интересное,на мой взгляд, творится.

Подход подобен e2e обучению LLM+retrieval(RAG). На данном этапе, проводят два эксперимента (на самом деле три, но основных ветки две, а третья уже микст): с обучением ретривера по контексту диалога или по саммари контекста диалога. Раскрою вышеуказанное поподробнее. Ретривер используется для того, чтобы сходить в базу знаний и вытащить оттуда документы/чанки (не более 300 слов), далее положить их в контекст LLM и улучшить ее QA ответы. Для этого авторы предлагают или использовать в качестве запроса контекст диалога as is или его переписанный вариант/саммари. Все сетапы тюнились в ретривере на базе E5 и Dragon в contrastive формате аля CLIP/SBERT и тп. (схему приложу ниже). Причем, до кучи, еще пробовали E5 и Dragon заморозить. Rewrite диалога получали путем обстрела GPT-3.5, для этого даже приложили удачные сетапы инструкций/промтов в статье. Для E5 итоге победил внезапно подход без переписывания диалога, а для Dragon разница в метриках , по словам авторов, не значима (тут я согласен). Более того, переписывание диалога, по словам тех же авторов накладывало бы на них зависимость от ChatGPT, какие бы смыслы вы под этим не поняли (время генерации, лицензия, деньги).

Что еще интересного? А то, что потом авторы микстанули подход но уже на уровне нарезки документов. Т.е. в контекст LLM уже стали досыпать не только top-K выдачу чанков из ретривера, но и саммари лучшего документа, который содержит ответ. Сначала, они делали top-4 выбор чанков, но потом добавили саммари топ-1 документа, и назвали это уже топ-5 подходом. Причем сделали они это не случайно. Пробовали искать по саммари документов (которые 100% содержат в себе ответ), но чтобы не размывать информацию таким образом, стали микстить по процедуре выше. Тут показал себя лучшим Dragon, а также в среднем улучшились метрики ответа LLM для retrieval сетов, но упали для остальных. На мой взгляд не значимо, ни рост , ни падение. Да и сетап был chatQA-70b+top5 (см.таблицу 5).

На этом, для меня интересное закончилось. Узнал про новые RAG подходы в e2e с LLM и на контекстах диалогов, неплохой хинт с микстом саммари и чанками документов.

Всем хорошего воскресенья!

👍13🔥4🤡1

4.93K viewsedited 08:01

Dealer.AI

Общая схема e2e

2.17K views08:02

About

Blog

Apps

Platform