Лучший подарок в следующем году, свой Mixture of experts based LLM.
А что вы ждёте от следующего года?)
За картинос спасибо @bogdanisssimo
А что вы ждёте от следующего года?)
За картинос спасибо @bogdanisssimo
❤18👍3😁1
Forwarded from Boosters.pro
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.
Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!
https://boosters.pro/championship/hh_recsys/
Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!
https://boosters.pro/championship/hh_recsys/
🥴14🔥6🤡1
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
dynamic-epoch-4bb on Notion
100 questions about NLP | Notion
Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.
👍41⚡5🔥4❤2
👆Поддержим Милану и скажем спасибо другим коллегам по цеху!
P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
❤19
Дорогие подписчики, в уходящем 2023г. было много всего: открытие этого канала, сложные вызовы, горечь потерь и радость открытий. Я желаю Вам в новом году: мира, добра, новых достижений и будьте здоровы!
Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!
С Новым годом! 🦾🤖🎄
Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!
С Новым годом! 🦾🤖🎄
👏24👍3❤2🤗2
Forwarded from Love. Death. Transformers.
Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
huggingface.co
vikhr - a AlexWortega Collection
A family of russian translated LLM
🔥20❤3👍1
Dealer.AI
Новый любимый лось: SigLIP Log-Sigmoid loss 🌿 Крч, недавно ребята анонсировали в SigLIP модифицированный log-sigmoid лосс. И да, это тот, который в reward юзают для обучения. 😎 Об этом уже писал тут. Обещали быстрый, с малыми затратами по компьюту эффект…
SigLIP models теперь официально в Transformers. И от себя замечу-этот siglip лосс в основе не только хорош для CLIP-like задач, но и для любых иных в стиле contrastive, в тч sentence/text embs аля sbert и др.
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
huggingface.co
SigLIP
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍13😁2
В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей.
В чем состоит идея
Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging.
Во-вторых мы НЕ склеиваем их по принципу схожему с MoE.
Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале.
Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп.
Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!
🔥17👍6❤1
Forwarded from Бластим: курсы и работа в биотехе
19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.
Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!
И с нетерпением ждем следующую пятницу!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤1
Задетекшена атака навождение ботсов)
пока сделаю канал не паблик
upd. профилактика окончена
пока сделаю канал не паблик
upd. профилактика окончена
😱9👍6
Че, шкет, настало твое время? Тут можно выровнять даже чью-то mom. Причëм, за дорохо.
https://openai.com/careers/research-engineer-collective-alignment
https://openai.com/careers/research-engineer-collective-alignment
😁13❤1
Forwarded from ML for Value / Ваня Максимов (Ivan Maksimov)
GPT-4 не особо впечатлил меня
Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось
В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил
Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе
Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач
В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2
P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
Весь прошлый год хайповали LLM-ки и GenAI. Которые вроде крутые, но в массовое внедрение в бизнесы пока не вошли. Шок, но даже массовой замены поддержки на ChatGPT пока не случилось
В это же время мимо меня прошел релиз DINO-v2 🦕
И вот он уже очень меня очень удивил
Self Supervised Learning на картинках
Вдумайтесь: мы просто показали нейронке картинки без лейблов, аннотации текста и вообще чего-то еще, и получилось выучить SOTA фичи! Бьет даже OpenCLIP в zero-shot сетапе
Широта применения
Работает для классификации, сегментации, оценки карты глубины и кучи других задач
В общем, я бы ставил на подобные self-supervised encoder модели для применения в бизнесе, чем на gpt-like (вспомните бум BERT). Ну а пока можете потыкать демо DINO-v2
P.S. К посту прикреплены скрины оценки карты глубины, сегментации объектов и матчинга точек между 2умя картинками
🔥18👍3
Аугментируй это.
Новый функционал Augmentex. Теперь и bbox атаки. С помощью данных методов можно улучшить робастность моделей по отношению к входным данным. Также можно банально аугментировать текст ошибками (ru, en) и парафразингом (пока ru).
Ссылка на ветку:
https://github.com/ai-forever/augmentex/tree/paraphrase_branch
Примеры атак:
https://github.com/ai-forever/augmentex/blob/paraphrase_branch/notebooks/tutorial.ipynb
Пробуем!
P/S. А еще мой падаван Марк выступит на AI talent HuB2024 с данной темой :
https://ods.ai/events/aitalentdemoday2024
Новый функционал Augmentex. Теперь и bbox атаки. С помощью данных методов можно улучшить робастность моделей по отношению к входным данным. Также можно банально аугментировать текст ошибками (ru, en) и парафразингом (пока ru).
Ссылка на ветку:
https://github.com/ai-forever/augmentex/tree/paraphrase_branch
Примеры атак:
https://github.com/ai-forever/augmentex/blob/paraphrase_branch/notebooks/tutorial.ipynb
Пробуем!
P/S. А еще мой падаван Марк выступит на AI talent HuB2024 с данной темой :
https://ods.ai/events/aitalentdemoday2024
GitHub
GitHub - ai-forever/augmentex at paraphrase_branch
Augmentex — a library for augmenting texts with errors - GitHub - ai-forever/augmentex at paraphrase_branch
🔥10❤1
ChatQA или догоняет ли Ахилес черепаху GPT-4.
Намедни, NVIDIA выкатила статью, где дословно утверждается:
"Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90, тут кстати значим ли разлет? ) , without relying on any synthetic data from OpenAI GPT models."
Таблицы результатов замеров на разных QA датасетах , размеры модеделей и сетапы указаны, смотрите папиру. Жаль моделек в открытом доступе нет, а представлены там размеры: 8b, 13b, 70b. 8b видимо, чтобы не подумали, что кто-то все на llama2 сделал ;)
Мне более интересно как делают эффективный тюн под dialogue QA.
Первый этап (они прям так его и зовут) это ,разумеется, претрен+domain sft adoptation. Тут они берут general диалоговые сеты аля SODA, OpenAssistant, приправляют чутка другими аля инструктивный FLAN и long-QA eli5 и тп.
Второй этап это уже более узконаправленный контекстно-улучшенный instruction tuning чисто под QA домен. И тут самое интересное,на мой взгляд, творится.
Подход подобен e2e обучению LLM+retrieval(RAG). На данном этапе, проводят два эксперимента (на самом деле три, но основных ветки две, а третья уже микст): с обучением ретривера по контексту диалога или по саммари контекста диалога. Раскрою вышеуказанное поподробнее. Ретривер используется для того, чтобы сходить в базу знаний и вытащить оттуда документы/чанки (не более 300 слов), далее положить их в контекст LLM и улучшить ее QA ответы. Для этого авторы предлагают или использовать в качестве запроса контекст диалога as is или его переписанный вариант/саммари. Все сетапы тюнились в ретривере на базе E5 и Dragon в contrastive формате аля CLIP/SBERT и тп. (схему приложу ниже). Причем, до кучи, еще пробовали E5 и Dragon заморозить. Rewrite диалога получали путем обстрела GPT-3.5, для этого даже приложили удачные сетапы инструкций/промтов в статье. Для E5 итоге победил внезапно подход без переписывания диалога, а для Dragon разница в метриках , по словам авторов, не значима (тут я согласен). Более того, переписывание диалога, по словам тех же авторов накладывало бы на них зависимость от ChatGPT, какие бы смыслы вы под этим не поняли (время генерации, лицензия, деньги).
Что еще интересного? А то, что потом авторы микстанули подход но уже на уровне нарезки документов. Т.е. в контекст LLM уже стали досыпать не только top-K выдачу чанков из ретривера, но и саммари лучшего документа, который содержит ответ. Сначала, они делали top-4 выбор чанков, но потом добавили саммари топ-1 документа, и назвали это уже топ-5 подходом. Причем сделали они это не случайно. Пробовали искать по саммари документов (которые 100% содержат в себе ответ), но чтобы не размывать информацию таким образом, стали микстить по процедуре выше. Тут показал себя лучшим Dragon, а также в среднем улучшились метрики ответа LLM для retrieval сетов, но упали для остальных. На мой взгляд не значимо, ни рост , ни падение. Да и сетап был chatQA-70b+top5 (см.таблицу 5).
На этом, для меня интересное закончилось. Узнал про новые RAG подходы в e2e с LLM и на контекстах диалогов, неплохой хинт с микстом саммари и чанками документов.
Всем хорошего воскресенья!
Намедни, NVIDIA выкатила статью, где дословно утверждается:
"Notably, our ChatQA-70B can outperform GPT-4 in terms of average score on 10 conversational QA datasets (54.14 vs. 53.90, тут кстати значим ли разлет? ) , without relying on any synthetic data from OpenAI GPT models."
Таблицы результатов замеров на разных QA датасетах , размеры модеделей и сетапы указаны, смотрите папиру. Жаль моделек в открытом доступе нет, а представлены там размеры: 8b, 13b, 70b. 8b видимо, чтобы не подумали, что кто-то все на llama2 сделал ;)
Мне более интересно как делают эффективный тюн под dialogue QA.
Первый этап (они прям так его и зовут) это ,разумеется, претрен+domain sft adoptation. Тут они берут general диалоговые сеты аля SODA, OpenAssistant, приправляют чутка другими аля инструктивный FLAN и long-QA eli5 и тп.
Второй этап это уже более узконаправленный контекстно-улучшенный instruction tuning чисто под QA домен. И тут самое интересное,на мой взгляд, творится.
Подход подобен e2e обучению LLM+retrieval(RAG). На данном этапе, проводят два эксперимента (на самом деле три, но основных ветки две, а третья уже микст): с обучением ретривера по контексту диалога или по саммари контекста диалога. Раскрою вышеуказанное поподробнее. Ретривер используется для того, чтобы сходить в базу знаний и вытащить оттуда документы/чанки (не более 300 слов), далее положить их в контекст LLM и улучшить ее QA ответы. Для этого авторы предлагают или использовать в качестве запроса контекст диалога as is или его переписанный вариант/саммари. Все сетапы тюнились в ретривере на базе E5 и Dragon в contrastive формате аля CLIP/SBERT и тп. (схему приложу ниже). Причем, до кучи, еще пробовали E5 и Dragon заморозить. Rewrite диалога получали путем обстрела GPT-3.5, для этого даже приложили удачные сетапы инструкций/промтов в статье. Для E5 итоге победил внезапно подход без переписывания диалога, а для Dragon разница в метриках , по словам авторов, не значима (тут я согласен). Более того, переписывание диалога, по словам тех же авторов накладывало бы на них зависимость от ChatGPT, какие бы смыслы вы под этим не поняли (время генерации, лицензия, деньги).
Что еще интересного? А то, что потом авторы микстанули подход но уже на уровне нарезки документов. Т.е. в контекст LLM уже стали досыпать не только top-K выдачу чанков из ретривера, но и саммари лучшего документа, который содержит ответ. Сначала, они делали top-4 выбор чанков, но потом добавили саммари топ-1 документа, и назвали это уже топ-5 подходом. Причем сделали они это не случайно. Пробовали искать по саммари документов (которые 100% содержат в себе ответ), но чтобы не размывать информацию таким образом, стали микстить по процедуре выше. Тут показал себя лучшим Dragon, а также в среднем улучшились метрики ответа LLM для retrieval сетов, но упали для остальных. На мой взгляд не значимо, ни рост , ни падение. Да и сетап был chatQA-70b+top5 (см.таблицу 5).
На этом, для меня интересное закончилось. Узнал про новые RAG подходы в e2e с LLM и на контекстах диалогов, неплохой хинт с микстом саммари и чанками документов.
Всем хорошего воскресенья!
👍13🔥4🤡1