DataGym Channel [Power of data]
2.4K subscribers
52 photos
7 videos
1 file
158 links
Канал про Data Science и BigData.

Для связи: @ermakovpetr
Download Telegram
Я терпел, но уже сутки прошли, а никто не написал.

Вышла Mistral 7B (The best 7B model to date, Apache 2.0)

https://mistral.ai/news/announcing-mistral-7b/
🔥11👻2
Привет,
Если у меня есть ребята из Санкт-Петербурга, приходите в понедельник 😉
Но не забудьте сегодня зарегистрироваться

https://events.yandex.ru/events/data-dojo-09-10-spb
8
This media is not supported in your browser
VIEW IN TELEGRAM
Смерть EDA Kernel-ов на Kaggle => spotlight

Ладно, юмор и кликбейт.
Но интересный наворот поверх пандаса для недавно прибывших в ml и аналитику на python.
Библиотека для интерактивного исследования структурированного и НЕСТРУКТУРИРОВАННОГО датафрейма

> spotlight.show(df)
👍11🔥62🎉1
Делаем первый МЛ митап в Белграде

Буду рад вашему фидбеку, просмотрам и лайкам трансляции.

🔹 19:00 — Алексей Березникер, руководитель команды генерации рекламы в Яндексе: расскажет про нейросетевую генерацию ecom-объявлений
🔹 19:40 — Федор Лебедь, разработчик отдела NLP группы YandexGPT Alignment из Яндекс Поиска: расскажет про генеративные модели и методы обучения с подкреплением
🔹 20:40 — Максим Мачула, руководитель службы качества контента в Поиске по Товарам: расскажет, как мы группируем предложения магазинов в карточки товаров и при чём тут HNSW и CatBoost

онлайн тут
👍11🔥86😁1
#events
Сегодня мы соберемся на митап
Подключайтесь онлайн

Трансляция начнётся в 18:30 вот здесь


- Автогенерация рекламных баннеров на Яндекс Маркете
- Нейросетевое ранжирование для рекомендательных систем
- Направленное шумоподавление в Алисе и как используются несколько микрофонов
- Подмешивания дополнительных элементов в поиске в борьбе за счастье пользователя

подробнее про программу тут
Но можно сразу залетать на трансляцию

see you)
🔥43👀2
#article
За такие статьи все еще можно читать хабр
Оч советую лайкнуть, почитать или добавить в закладки

Введение в современную квантизацию
https://habr.com/ru/companies/yandex/articles/800945/
🔥103👍2👏1🎉1
Вряд ли в трамваях ESM поддержка)
😁8🔥4🥴3👍1
🔥 Друзья, встречайте новый телеграм-канал от нашей NLP команды — @stuffyNLP

Подпишитесь обязательно, но а тут я поделюсь с вами историей создания.

В Яндексе есть давняя традиция внутренних семинаров. Например на NLP-семинаре каждую неделю разбирают интересные статьи по, неожиданно, NLP. Мы решили, что эти знания не должны оставаться внутри компании. Поэтому убрали NDA из этих обзоров и теперь делимся ими в коротких постах.

Почему "Душный NLP"? Ребята не просто пересказывают статьи, а анализируют их с позиции своего опыта, хвалят и ругают.

Обещаем, душноты будет больше. Подписывайтесь и советуйте друзьям @stuffyNLP
👍8🔥6🥴1
стараюсь не сболтнуть что-то лишнее
😁35🔥5👍4
Forwarded from Душный NLP
Ускорить обучение LLM 70B на 25%? Легко! YaFSDP

Сегодня мы выĸладываем в опенсорс наш новый инструмент — библиотеку YaFSDP. Она значительно ускоряет обучение больших языковых моделей — как собственной разработки, так и сторонних, с открытым исходным кодом.

Библиотека даёт ускорение до 25% — результат зависит от архитектуры и параметров нейросети. С помощью YaFSDP также можно расходовать до 20% меньше ресурсов графических процессоров (GPU), которые требуются для обучения.

Несколько подходов нашего метода:

— выделить два буфера под все собираемые веса, чтобы не отдавать их на отĸуп аллоĸатору памяти torch. Каждый нечётный слой будет использовать первый буфер, ĸаждый чётный — второй. Это уменьшит нагрузку на память и сделает её использование более предсказуемым;
— не делать чеĸпоинт аĸтиваций для ĸаĸ можно большего числа слоёв. Это позволит убрать избыточные вычисления за счёт сэкономленной памяти;
— выделить два стрима: вычислений и ĸоммуниĸаций, а синхронизацию построить таким образом, чтобы forward не начинался до завершения all_gather того же слоя, а all_gather не начинался до освобождения соответствующего буффера на предыдущем слое;
— разово собирать RMSNorm/LayerNorm в начале итерации и тольĸо в ĸонце усреднить градиенты;
— вынести predivide в самый ĸонец backward, таĸ ĸаĸ при reduce_scatter в bf16 или fp32 рисĸа переполнения нет.

Более подробно про проблемы обучения на множестве GPU можно почитать на Хабре. Приходите в репозиторий библиотеки YaFSDP, ставьте лайк и приносите вопросы в Issues. А ещё — делитесь своими впечатлениями здесь в комментариях.

Душный NLP
🔥95
Редко тут посты, потому в основном создаем новые каналы)

Yandex ML Underhood — канал, где рассказываем подноготную ML в Яндексе.
Про особенности запуска опенсорса YaFSDP, как вентиляторы в суперкомпьютерах превращались в шрапнель, как (имея крутой пайплайн TTS для русского) сделать Алису на казахском и многое другое.

Каждый пост у нас нетленка, так что не только подписывайтесь, но и читайте предыдущие посты.
👍86🔥4😭1
Дорогой дневник, мне не подобрать слов...

Да, канал превратился в отчетную историю, что было сделано или будет вот-вот)
Я пришел в этот раз позвать вас на конференцию PML Conf - регайтесь
Уже в эту субботу, 14 сентября, Москва и онлайн трансляция

Внегласный лозунг этой конфы -> этого не напишут в научных статьях
Мы действительно постарались отобрать именно такие доклады
🔥5😁3👍2
Лучше б эти люди размечали данные для LLM и заработали бы больше
😁26💯6👍32