Dealer.AI
14.4K subscribers
672 photos
44 videos
16 files
699 links
Жоский ИИ Дядя
Твой личный поставщик AI 🦾🤖
Канал о мире интересного AI: GenAI, RecSys, поиск, classic ML, бизнес приклад и ai-meme👾

Для связи @dealer_ai
(реклама и консультации)

Head of ML, AI.
Kaggle: https://www.kaggle.com/andrilko

РКН: 6348592885
Download Telegram
Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳

Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.

Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)

Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)

НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)

🖥Еще раз. Код весь туть
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍144❤‍🔥2
Подбор недвижимости на RAGах.
Вайб выходного дня.

До чего техника дошла. Увидел на сайте Я.недвижимость возможность в бетке подбирать квартиры и тп. с помощью LLM.

На самом деле, сразу прикинул, а как? Что там под капотом.

Гипотеза, как это работает:

1. Вы вводите критерии подбора квартиры, на естественном языке конечно, хотя саджесты тоже в сервисе наблюдаются.
2. Далее запрос в виде критериев летит уверен в базу знаний, где каждый объект тоже описан на Я.стественном языке. Тут тоже предполагаю, что всё же или шаблонами заранее собрали или далее шаблоны вкинули в LLM, чтобы она их переписала в более естественный стиль.
3. Далее врубается RAG, который по такому запросу и БД выдаёт топК кандидатов в LLM. А она их реранжирует уже исходя из запроса пользователя, там же есть критерии.

Получается, вот такой сервис распознавания интентов, где намерение это приобрести недвигу с заданными параметрами: расположение, класс жилья, комнатность и тп.

До чего LLM-техника дошла!

UPD. А итить ей ещё теперь в такое же ток с картинками, прям взял загрузил ещё планировочки какие хотел бы, текст описания. Ух, мультимодалочка!
👍355
Юмор выходного дня.

Как твоя мама видит mixt of Mistral experts.
😁60👍62
Творчество юзеров нашего детища.

RuElectra-small идёт в массы.

Спасибо за скрин @japanesefarmer

UPD. Мы тут ещё баловались с @chckdskeasfsd. Делали обрезку и облегчение этой же модельки.
См. тут.
9🔥3🤩1
Dealer.AI
Творчество юзеров нашего детища. RuElectra-small идёт в массы. Спасибо за скрин @japanesefarmer UPD. Мы тут ещё баловались с @chckdskeasfsd. Делали обрезку и облегчение этой же модельки. См. тут.
Метрики обрезки

P/S ruTiny модели это дистилляты крутых sentence энкодеров, поэтому если хотите догнать их, используйте их пайп с нашей small electra
👍5
Олды vs зумеры
😁70👍1
Лучший подарок в следующем году, свой Mixture of experts based LLM.

А что вы ждёте от следующего года?)

За картинос спасибо @bogdanisssimo
18👍3😁1
Forwarded from Boosters.pro
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.

Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!

https://boosters.pro/championship/hh_recsys/
🥴14🔥6🤡1
Как выглядит конец этого года у Жоского Дяди.

P/S Вредные привычки плохо. Но, видимо, моя зависимость - это ML/DS/AI.

Вайб "Вьетнамские флешбеки".
🔥15👍32
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.

*Notion будет пополняться*

Notion русская версия

В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна

Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
👍415🔥42
👆Поддержим Милану и скажем спасибо другим коллегам по цеху!

P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
19
Дорогие подписчики, в уходящем 2023г. было много всего: открытие этого канала, сложные вызовы, горечь потерь и радость открытий. Я желаю Вам в новом году: мира, добра, новых достижений и будьте здоровы!

Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!

С Новым годом! 🦾🤖🎄
👏24👍32🤗2
Dealer.AI pinned a photo
[пост был удалён]

Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.


Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.

Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.

По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.

Возможно позже.


Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.

Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.


Подробности в статье на хабре на следующей неделе.


Huggingface

Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
🔥203👍1
Git LLMs pull, LLMs merge, LLMs push.

В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей.

В чем состоит идея git merge'а моделек?

Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging.

Во-вторых мы НЕ склеиваем их по принципу схожему с MoE.

Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале.

Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп.

Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!
🔥17👍61
💻 Джи-пи-ти... Уже все наслышаны про модели-трансформеры, прекрасно генерирующие текст. Но сверх классического применения, версия GPT4, как говорят, хорошо помогает в задачах кодинга. Бластим решил это проверить.

19 января 19:00 мск мы проведем эксперимент в реальном времени и посмотрим, сможет ли чат-бот воспроизвести или в точности повторить результат труда биоинформатика. Рабочий кейс — сингл селл колоректального рака. Попробуем цикл от контроля качества до оценки лиганд-рецепторных взаимодействий! Настоящая импровизация шаг за шагом.

Наш спикер Дмитрий Тычинин будет модерировать работу чата и экспертно оценивать преимущества и недостатки ответов на вопросы, возникающие у людей, которые работают с single cell данными. Кроме того, на мастер-классе любые вопросы аудитории получат ответы в двойном объеме: и от ИИ, и от человека!

🚩Онлайн-встреча будет интересна всем: уже знакомым с нашумевшим чат-ботом, тем, кто никогда не прибегал к помощи GPT, работодателям, которые хотят посмотреть на навыки биоинформатика за 10$/месяц 😉

👉 Регистрируйтесь на мастер-класс по ссылке: bit.ly/3TVqOny
И с нетерпением ждем следующую пятницу!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31
Задетекшена атака навождение ботсов)

пока сделаю канал не паблик

upd. профилактика окончена
😱9👍6
Че, шкет, настало твое время? Тут можно выровнять даже чью-то mom. Причëм, за дорохо.

https://openai.com/careers/research-engineer-collective-alignment
😁131
есть интересное мнение 👇