Forwarded from MarksRemarks (Mark Baushenko)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Яндекс отметил достижения исследователей в области машинного обучения
Компания уже в пятый раз вручила премию Yandex ML Prize. Её лауреатами стали 11 участников, представивших наиболее перспективные и значимые работы в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка и генеративных моделей. При этом один из наших коллег по цеху тоже стал лауреатом, что особенно приятно!
Очень важно, что исследования лауреатов расширяют возможности для прикладного применения ML-технологий. Например, социально-значимые кейсы: поиск новых методов лечения серьёзных заболеваний, помощь людям с ограниченными возможностями и многое другое.
Отдельно подчеркну, что Яндекс поддерживает не только состоявшихся ученых, но и молодых исследователей, которые только начинают свой путь в науке. В этом году отметили представителей ведущих ВУЗов и исследовательских групп: МФТИ, МИСИС, СПбГУ, ВШЭ, Сколтех и Назарбаев Университет.
Теперь и я подумываю над тем, чтобы податься на премию в следующем году, пробуйте и вы!
Компания уже в пятый раз вручила премию Yandex ML Prize. Её лауреатами стали 11 участников, представивших наиболее перспективные и значимые работы в области распознавания и синтеза речи, компьютерного зрения, информационного поиска, обработки естественного языка и генеративных моделей. При этом один из наших коллег по цеху тоже стал лауреатом, что особенно приятно!
Очень важно, что исследования лауреатов расширяют возможности для прикладного применения ML-технологий. Например, социально-значимые кейсы: поиск новых методов лечения серьёзных заболеваний, помощь людям с ограниченными возможностями и многое другое.
Отдельно подчеркну, что Яндекс поддерживает не только состоявшихся ученых, но и молодых исследователей, которые только начинают свой путь в науке. В этом году отметили представителей ведущих ВУЗов и исследовательских групп: МФТИ, МИСИС, СПбГУ, ВШЭ, Сколтех и Назарбаев Университет.
Теперь и я подумываю над тем, чтобы податься на премию в следующем году, пробуйте и вы!
Yandex ML Prize
Премия Яндекса при экспертной поддержке Школы анализа данных за вклад в развитие ML
👍6🔥1🖕1
Forwarded from что-то на DL-ском
Тут буквально на днях Microsoft выложили код огромной проделанной работы. Речь идет о LongNet представленном в июне этого года. Очередная попытка побороться с квадратичной сложностью внимания и заскелить длину последовательности до (просто вдумайтесь) 1B токенов (см график на срине 1) 😳
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
🖥 Еще раз. Код весь туть
Звучит круто, на деле механизм следующий: будем делить последовательность на сегменты, а внутри еще на уровень разреженности (ну типо как sparse attention). Посмотреть визуализацию можно на скрине 2.
Но это еще не все. Это дело все можно распараллелить на гпушки следующим образом: возьмем длину последовательности, разделим объем последовательность на сегменты, количество которых равно количеству карт. Дальше на каждой карте будут свои матрицы Q, K, V. Но объеденим далее мы в одну только матрицы K, V, а Q будет на каждой карте своя в итоговой формуле. (Скрин 3)
Так вот. Для всего этого дела теперь есть код в открытом доступе. Вот репа (заходим в директорию torchscale/model и наслаждаемся)
НО ЭТО ТОЖЕ ЕЩЕ НЕ ВСЕ. Также в начале декабря они зарелизели LongVIT, который представляет из себя такой же алгоритм, только картинка будет разделена на патчи (скрин 4), что и представит последовательность (код можно найти в той же репе, но директория examples/longvit)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍14❤4❤🔥2
Подбор недвижимости на RAGах.
Вайб выходного дня.
До чего техника дошла. Увидел на сайте Я.недвижимость возможность в бетке подбирать квартиры и тп. с помощью LLM.
На самом деле, сразу прикинул, а как? Что там под капотом.
Гипотеза, как это работает:
1. Вы вводите критерии подбора квартиры, на естественном языке конечно, хотя саджесты тоже в сервисе наблюдаются.
2. Далее запрос в виде критериев летит уверен в базу знаний, где каждый объект тоже описан на Я.стественном языке. Тут тоже предполагаю, что всё же или шаблонами заранее собрали или далее шаблоны вкинули в LLM, чтобы она их переписала в более естественный стиль.
3. Далее врубается RAG, который по такому запросу и БД выдаёт топК кандидатов в LLM. А она их реранжирует уже исходя из запроса пользователя, там же есть критерии.
Получается, вот такой сервис распознавания интентов, где намерение это приобрести недвигу с заданными параметрами: расположение, класс жилья, комнатность и тп.
До чего LLM-техника дошла!
UPD. А итить ей ещё теперь в такое же ток с картинками, прям взял загрузил ещё планировочки какие хотел бы, текст описания. Ух, мультимодалочка!
Вайб выходного дня.
До чего техника дошла. Увидел на сайте Я.недвижимость возможность в бетке подбирать квартиры и тп. с помощью LLM.
На самом деле, сразу прикинул, а как? Что там под капотом.
Гипотеза, как это работает:
1. Вы вводите критерии подбора квартиры, на естественном языке конечно, хотя саджесты тоже в сервисе наблюдаются.
2. Далее запрос в виде критериев летит уверен в базу знаний, где каждый объект тоже описан на Я.стественном языке. Тут тоже предполагаю, что всё же или шаблонами заранее собрали или далее шаблоны вкинули в LLM, чтобы она их переписала в более естественный стиль.
3. Далее врубается RAG, который по такому запросу и БД выдаёт топК кандидатов в LLM. А она их реранжирует уже исходя из запроса пользователя, там же есть критерии.
Получается, вот такой сервис распознавания интентов, где намерение это приобрести недвигу с заданными параметрами: расположение, класс жилья, комнатность и тп.
До чего LLM-техника дошла!
UPD. А итить ей ещё теперь в такое же ток с картинками, прям взял загрузил ещё планировочки какие хотел бы, текст описания. Ух, мультимодалочка!
👍35❤5
Творчество юзеров нашего детища.
RuElectra-small идёт в массы.
Спасибо за скрин @japanesefarmer
UPD. Мы тут ещё баловались с @chckdskeasfsd. Делали обрезку и облегчение этой же модельки.
См. тут.
RuElectra-small идёт в массы.
Спасибо за скрин @japanesefarmer
UPD. Мы тут ещё баловались с @chckdskeasfsd. Делали обрезку и облегчение этой же модельки.
См. тут.
❤9🔥3🤩1
Dealer.AI
Творчество юзеров нашего детища. RuElectra-small идёт в массы. Спасибо за скрин @japanesefarmer UPD. Мы тут ещё баловались с @chckdskeasfsd. Делали обрезку и облегчение этой же модельки. См. тут.
Метрики обрезки
P/S ruTiny модели это дистилляты крутых sentence энкодеров, поэтому если хотите догнать их, используйте их пайп с нашей small electra
P/S ruTiny модели это дистилляты крутых sentence энкодеров, поэтому если хотите догнать их, используйте их пайп с нашей small electra
👍5
Лучший подарок в следующем году, свой Mixture of experts based LLM.
А что вы ждёте от следующего года?)
За картинос спасибо @bogdanisssimo
А что вы ждёте от следующего года?)
За картинос спасибо @bogdanisssimo
❤18👍3😁1
Forwarded from Boosters.pro
hh.ru приглашает принять участие в их втором ML-чемпионате, участникам предлагается решить задачу Sequential рекомендаций, а именно: по последовательности событий внутри пользовательских сессий предсказать вакансию, на которую пользователь откликнется в своей следующей сессии.
Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!
https://boosters.pro/championship/hh_recsys/
Надеюсь, что мы скрасим ваши новогодние каникулы. Всех с наступающим!
https://boosters.pro/championship/hh_recsys/
🥴14🔥6🤡1
Forwarded from grokaem себя (Milana)
#grokaem_собес #grokaem_nlp
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
Я собрала 100 вопросов по NLP, которые мне задавали или задавала я. Надеюсь, что они будут полезны, чтобы освежить в памяти важные моменты.
*Notion будет пополняться*
Notion русская версия
В составлении вопросов помогали:
ds girl
канал Плюшевый Питон
Alexander Babiy
канал что-то на DL-ском
канал Dealer.AI
канал алиса олеговна
Часть вопросов:
8. Объясните разницу между косинусной близостью и косинусным расстоянием. Какое из этих значений может быть негативным? Как вы будете их использовать?
21. Что такое negative sampling и зачем он нужен?
30. Что такое затухающие градиенты для RNN?
41. Что используется в трансформере layer norm или batch norm и почему?
55. Объясните подходы для позициональных эмбеддингов и их плюсы и минусы.
75. В чем отличие оптимизатора Adam от AdamW?
86. Объясните концепции metric learning. Какие подходы вам известны?
88. Объясните виды sampling при генерации? top-k, top-p, nucleus sampling?
92. В чем отличие prefix tuning от p-tuning и от prompt tuning?
98. Объясните принцип работы KV cache, Grouped-Query Attention и MultiQuery Attention.
dynamic-epoch-4bb on Notion
100 questions about NLP | Notion
Один из кайфовых отработанных навыков - это задавать вопросы. Не знать ответ - это не плохо, плохо даже не загуглить.
👍41⚡5🔥4❤2
👆Поддержим Милану и скажем спасибо другим коллегам по цеху!
P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
P. S. Кому-то этот notion не даст покоя ни на каникулах ни в НГ:) Stay tuned! 🦾🕺🎅🎄
❤19
Дорогие подписчики, в уходящем 2023г. было много всего: открытие этого канала, сложные вызовы, горечь потерь и радость открытий. Я желаю Вам в новом году: мира, добра, новых достижений и будьте здоровы!
Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!
С Новым годом! 🦾🤖🎄
Впереди нас ждёт ещё больше исследований, знаний и технологических вызовов!
С Новым годом! 🦾🤖🎄
👏24👍3❤2🤗2
Forwarded from Love. Death. Transformers.
Вихрь - семейство русификацированных моделей (flan т5 240м, flan т5 3В, mistral 7B) как основы.
Все имеют адаптированный под русский токенйазер, подучены на хабре, а т5 ещё и на переведенной open orca.
Все модели учились с дистиляционным лоссом, те просадка относительно оригиной модели минимальная, но деньги кончились и инструкт версию для mistral мы не доделали, возможно позже.
По метрикам ВОЗМОЖНО лучше чем закрытые модели Яндекса и Сбера, но точными цифрами сложно оперировать, я не уверен в русских бенчах, а saiga sbs руки не дошли поставить.
Возможно позже.
Sentence версия т5 не полетела, энкодер от flan сопоставим с энкодером Fred T5 xl.
Если у вас есть архитектура где используется flant5 xl и хочется поддерживать русский - можно смело подсунуть этот флан. Встанет как влитой.
Подробности в статье на хабре на следующей неделе.
Huggingface
Релизнули с @nadlskom @den4ikresearch(ft flan на saiga как early bird, выйдет позже )
huggingface.co
vikhr - a AlexWortega Collection
A family of russian translated LLM
🔥20❤3👍1
Dealer.AI
Новый любимый лось: SigLIP Log-Sigmoid loss 🌿 Крч, недавно ребята анонсировали в SigLIP модифицированный log-sigmoid лосс. И да, это тот, который в reward юзают для обучения. 😎 Об этом уже писал тут. Обещали быстрый, с малыми затратами по компьюту эффект…
SigLIP models теперь официально в Transformers. И от себя замечу-этот siglip лосс в основе не только хорош для CLIP-like задач, но и для любых иных в стиле contrastive, в тч sentence/text embs аля sbert и др.
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
https://huggingface.co/docs/transformers/main/en/model_doc/siglip
huggingface.co
SigLIP
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍13😁2
В последнее время хайпу взял Mixtral с его реализацией MoE подхода (писал про него туть). Но увеличение capacity модели и улучшение ее свойств можно достичь не только засчëт экспертов. Новое веяние это merging моделей.
В чем состоит идея
Во-первых, это не ансамблинг моделей, те мы не используем процедур голосования, стэкинга, boosting или bagging.
Во-вторых мы НЕ склеиваем их по принципу схожему с MoE.
Слияние происходит на уровне слоев, таким образом, чтобы учесть соноправленность весов в слоях (коленниарность), а также знаковую совместимость значений активаций. При этом можно подобно методу "лотерейного билета" убирать слабо совместимые слои или слои, которые не являются значимыми. Также, есть подходы демасштабирования и масштабирования моделей. К примеру, мы имели 7b и 9b и можем расширить итоговое значение размера после слияния, как в пользу последней, так и первой или вообще получить еще большую мега модель аля Голиаф 120b. Самое интересное, что какие-то методы позволяют только парно склеить модели, а какие-то больше двух одновременно. Подробнее о методах слияния можно почитать по ссылке на hf в начале.
Почему это работает и даже удается достичь прогресса в метриках? Ответ лежит в той же плоскости методов оптимизации 0го порядка, а также ema, swa подходов улучшения обучения. Мы используем "субоптимальные" (как мы считаем) веса моделей кандидатов для слияния, далее выбираем наиболее подходящие слои и механики для этого. Следовательно мы умно "суммируем" такие веса, влияя на итоговое пространство таким образом, что веса двигаются ближе к оптимальному набору. В этом и состоит суть подходов ema/swa и метода треугольников/медиан и пр. в оптимизации. А тк. мы склеиваем слои и их веса , которые соноправлены, то мы не ломаем модель, смыслы в ее весах заложенные и тп.
Для собственных экспериментов можно использовать mergekit и colab. Так что мерджим!
🔥17👍6❤1