LightAutoML framework
3.21K subscribers
32 photos
3 videos
6 files
120 links
Download Telegram
Всем хороших жарких выходных!

Материалы с последнего вебинара:
1. Пост про технологию pseudolabelling и ее подводные камни
2. Кернел-пример в котором она используется вместе с моделью на LightAutoML
3. Ссылка на подключение к финальному соревнованию
4. Кернел-бейзлайн для соревнования на LightAutoML
5. Отличный пост от Евгения Платонова про текстовые колонки в финальном сореве
6. Ссылка на подключение к чату, где обсуждаем вопросы по LightAutoML и соревнованию
7. Репозиторий с подробными кернелами на русском языке по LightAutoML Blackbox, Whitebox и NLP пресетам (видео по ним пока ждем на канале ODS AI Ru)

P.S. Будем рады вашему участию в соревновании, вопросам по работе LIghtAutoML и, конечно же, контрибьюторам в библиотеку :)
👍3
Всем привет, коллеги!

Завтра на митапе по Uplift моделированию выступит сотрудник нашей команды Александр Кирилин с рассказом про прошедшее соревнование от компании Megafon по upilft моделированию и про свой опыт использования библиотеки LightAutoML для решения задачи uplift.

Приходите, будет интересно ☺️
Всем привет!
Дата Фест закончился, но мы продолжаем митапы на тему ML in Marketing.

Поэтому в следующий вторник мы ждем вас на нашем митапе про Uplift моделирование.

🗓 29 июня ВТ.

@MLinMarketing

— — —

🔸19:00 - 20:00
🎤 Кислинский Вадим, Data Scientist at X5 Group

📋 Uplift моделирование в ритейле. Оценка эффективности модели uplift

📋 Расскажем про применение uplift моделей для коммуникаций с клиентами X5 и предоставления им персональных скидок. Расскажем также, как строится оценка эффективности модели uplift.

🔸20:00 - 21:00
🎤 Кирилин Александр, Data Scientist at SBER AI LAB

📋 Разбор решения для хакатона Megafon Uplift Competition

📋 Расскажем про прошедшее соревнование от компании Megafon по upilft моделированию и про свой опыт использования библиотеки LightAutoML для решения задачи uplift.

— — —

🗓 29 июня, начало в 19:00 мск, Вторник

🌐 ОНЛАЙН

Регистрация на мероприятие тут
Друзья, мы выложили запись по соревнованию. Посмотреть можно по ссылке! Присоединяйтесь скорее, для самых активных и призеров мы подготовили классные сувениры и подарки!
Всем привет!

Мы с хорошими новостями:
1) Выпущена в свет версия 0.2.16 нашего фреймворка. Релиз-ноуты запостим отдельным сообщением ниже.

2) Появилось видео и презентация с выступления нашего коллеги Александра Кирилина на Uplift meetup (рассказывали про использование модуля AutoUplift в хакатоне Мегафона)

3) (сорри что без раннего уведомления) Сегодня в 19.00 МСК буду рассказывать о LightAutoML по ссылке для студентов платформы OTUS (отдельное им спасибо за приглашение). Первая часть будет теоретической, а во второй обсудим применение LightAutoML для открытого на текущий момент соревнования Tabular Playground Series July 2021. Лучший кернел на LightAutoML + псевдолейблинг висит на текущем 5-ом месте :) Запись рассказа будет доступна на YouTube - ссылочку разместим дополнительно.
#release_notes

Релиз ноуты для версии 0.2.16:
General:
* удаление профайлера -> возможность использовать DataParallel при обучении Bert моделей (параметр multigpu в nn_params)!

NLP:
* Миграция на gensim >=4.
* Возможность принудительно считать тяжелые NLP модули без GPU (Random LSTM, Pooled Bert, etc).
* Изменение логики выбора параметров по умолчанию: удаление NN из пайплайна при отсутствии GPU, язык и bert-модель задаются одновременно для autonlp и nn через text_params, изменена логика проверки размера эмбеддингов в AutoNLP.
* Добавлены разные варианты нормировки эмбеддингов для модуля AutoNLP.

Интерпретация:
* Минорные изменения LIME - выведено предсказание AutoML и шкала значений.
* Для NLP стал доступен алгоритм локальной интерпретации L2X. Он находит наиболее информативные токены по отношению к целевой переменной по мнению модели AutoML, оптимизируя взаимную информацию. Более подробно о блоке интерпретации NLP моделей можно узнать в туториале
Добрый день, коллеги!

Спешим сообщить, что запись проведенного вебинара по LightAutoML с таймкодами и ссылками на материалы (в описании) для удобной и быстрой навигации появилась на канале OTUS. В вебинаре подробно разбираются кернелы-бейзлайны для недавно начавшегося соревнования Tabular Playground Series July 2021.

Приятного и полезного вам просмотра!
LightAutoML framework pinned «Всем хороших жарких выходных! Материалы с последнего вебинара: 1. Пост про технологию pseudolabelling и ее подводные камни 2. Кернел-пример в котором она используется вместе с моделью на LightAutoML 3. Ссылка на подключение к финальному соревнованию 4. Кернел…»
❗️🔥Хакатоны летней школы ODS.ai & LightAutoML начались! Как вы знаете, у нас идет финальное соревнование по нашему курсу!

Спешим сообщить, что оно стало частью Летней школы, которую мы запустили вместе с ODS.ai

Мы подготовили для вас целый набор челленджей на выбор:

⭐️Шаг 0. Финальное соревнование по курсу - оно же задание, чтобы быстро вкатиться в фреймворк и летнюю школу.
Дедлайн 21.07

⭐️Шаг 1-3. Чувствуешь себя докой в ML, LightAutoML - залетай в наши три хакатона с задачками для LAMA!
Дедлайн 3.09

Еще не все плюшки и призы опубликованы за победу в хакатонах, однако победители(1 место) не уйдут без 💰!

На выходе всех ждут приятные сюрпризы , возможность приобщиться к опен-сорсу, получить почетный контрибьют и рекомендацию от нашей команды для будущего работодателя!

👉ЖМИ И УЧАСТВУЙ!
Добрый день, коллеги!

Начну с быстрого апдейта - как вы знаете, у нас сейчас идет финальное соревнование по курсу и вчера ночью для него был выложен новый бейзлайн на основании TabularNLPAutoML пресета, использующий для решения задачи текстовые колонки (в отличие от первого бенчмарка, в котором мы их дропали).

Также хотели бы попросить вас поделиться своим мнением на каггле и в комментариях к этому сообщению о реализации новой функции LIghtAutoML - возможности получить описание структуры финальной модели (да, это то, о чем нас так часто просили), полученной при помощи TabularAutoML и TabularUtilizedAutoML пресетов. Более подробно со скриншотами, собранным WHL-файлом и туториалом можно почитать в этом посте.

И мы продолжаем думать о том, как сделать лог обучения более удобным и наглядным - будем рады любой обратной связи и идеям на эту тему.
Привет, коллеги!

🔥 🔥 🔥 Мы все ждали и это наконец случилось - на канале ODSAIRu появились записи разборов наших туториалов LightAutoML для датафеста, а также видео, в котором обсуждается тема бенчмарков AutoML решений.

1. Репозиторий с туториалами из видео
2. Туториал BlackBox (Рыжков Александр), ноутбук
3. Туториал WhiteBox (Вахрушев Антон), ноутбук
4. Туториал NLP (Симаков Дмитрий), ноутбук
5. Видео про бенчмарки AutoML (Дамдинов Ринчин)

🎓 Также, поскольку у нас сейчас в самом разгаре участие в летней школе ODS (если вдруг пропустил, жми сюда за подробностями), то финальное соревнование по курсу было продлено до 6 августа включительно. Подключиться к соревнованию и побороться за топовые места можно тут.
Хей 😎Лето перевалило середину, и все отдыхают как умеют 🏖 👩‍💻🧑‍💻
А мы напоминаем, что у нас в самом разгаре 👉 LAMA: LightAutoML Summer School Of Code!

Специально для участников мы предлагаем индивидуальную менторскую программу от нашей команды! Будем рады заполнению небольшого опроса, чтобы могли связаться с вами, узнать друг друга получше, помочь с выбором и реализацией задач!

Нас ты всегда можешь найти в ODS slack-канале #tool_lama или в специальном чате этого канала!

🚀Используй лето для развития себя и open source🎯!
От нас уважение, лайки, и немного призов 🤫
Всем привет!
🎓 Для тех, кто находится в начале карьеры, у нас в команде открыты оплачиваемые стажерские позиции.
Есть как в команде LightAutoML, так и во второй группе, которая занимается библиотекой рекомендательных систем RePlay. 
Если у вас есть интерес к стажировке, пишите @nonflame
СТАЖИРОВКА🎯
Доброго субботнего дня! Появилось много вопросов по стажировкам. Решили опубликовать самые частые!

1. Какая занятость?
Мы ожидаем кандидатов на фулл-тайм (40 часов в неделю). Обычно длится от 3 до 6 месяцев. При наличии ставок и ваших успехов можно будет перебраться потом к нам на постоянное место работы.

2. Удаленно или в офисе?
можно обсудить разные варианты.

3. Что мы ожидаем от кандидатов?
проактивность, уверенные знания и навыки в DS, python для стартового уровня, желание развиваться в области прикладных исследований. У нас есть разные задачи для ваших талантов. У нас можно не только выпилить новый функционал для библиотек, но и реализовать себя людям с чувством прекрасного: умеете хорошо и системно писать документацию, красиво оформлять кернелы с EDA? Пишите, присылайте примеры.

4. Что нужно сделать для отбора?
Прислать мне резюме с #стажировка в сообщении, сделать сабмит (доступный по кнопке Late Submission) в наш финальный сорев и сделать кернел на Kaggle, расшарить его на профили Александра Рыжкова или Дмитрия Симакова

5. Что делать, если я очень хочу сделать что-то полезное для LightAutoML, однако не могу тратить время фулл-тайм?
До конца лета у вас есть отличная возможность побыть членом нашей команды в качестве участника Летней школы LightAutoML & ODS и даже побороться за главные призы - гранты по 80К в каждом хакатоне. В целом мы будем очень рады, если кто-то хочет просто контрибьютить. Подробности в этом посте

6. Есть ли у вас вакансии в штат?
И да! у нас в центре открыты вакансии DS уровня middle+, ML Engineer (spark!) middle+ в команды RecSys & AutoML. Отбор серьезный.
Если будет интересно многим, попозже опубликую ссылки на вакансии здесь.

Всем мягких лам🦙❤️ и продуктивных выходных!
!ВАКАНСИЯ Middle+ / Senior DS RecSys

Привет! как обещали, по запросам интересующихся будем выкладывать вакансии в наши команды в Лабе.

Итак!
Вакансия: Data Scientist в Рекомендательные Системы
Уровень: Middle / Senior
Локация: Москва

О нас:
Лаборатория применяет научные достижения в практических задачах: проводим исследования, пилим новые методы, пишем статьи, делаем пилоты с продуктовыми командами Сбера и экосистемой. В лаборатории много задач и они разные -- тексты, эмбеддинги, медицина и даже генетика. Соседняя команда нашего центра инструментов ml делает опенсорс библиотеку automl (https://github.com/sberbank-ai-lab/LightAutoML). В лабе работает 50+ крутых ребят, из которых 2 грандмастера и 4 мастера kaggle, 7 Ph.D/ канд наук, 4 Профессора/преподавателя ВШЭ, МФТИ, NYU.
В лабораторию стоит идти, если хочется не только применять стандартные методы, но и погружаться в ресерч, реализовывать модели из статей и придумывать новые.

Задачи:
Наша команда специализируется на рекомендательных системах. Развиваем свою recsys библиотеку, разрабатываем autorecsys и двухуровневые модели, делаем пилоты с другими подразделениями Сбера и экосистемы. Команда пока небольшая, поэтому общение простое и неформальное, без лишней бюрократии. Если есть желание сделать что-то из конкретной области (sequence based recommendation, графовые методы, fairness) или применить recsys в необычной постановке -- всё обсуждаемо. Если вы специалист в Spark и проявляете интерес к рекомендациям, то для вас тоже есть интересные задачи.

Формат работы:
Сейчас работаем удаленно, в перспективе -- смешанный режим работы.
Офис в Москве в новом здании на Кутузовском на 38 этаже.
Возможна работа из офиса в Санкт-Петербурге.
Стэк:
Мы пишем на python, используем стандартный стек библиотек (pandas, numpy, sklearn), для сеток используем pytorch, для обработки больших данных пользуемся pyspark.

Уровень:
middle/senior, необходим опыт работы с recsys и/или большое желание этим заниматься.

Резюме просьба высылать на адрес: OYYanukovich@sberbank.ru с темой “Лаборатория ИИ. DS в команду RecSys”

Прочие плюшки:
💊ДМС
🏋️‍♂️Тренажерный зал в офисе, с крутым видом на Москву
🛋OpenSpace с диванчиками
🍜Отличная столовая

Если есть вопросы, пишите под постом
!ВАКАНСИЯ Middle+ ML/DATA Engineers (SPARK)

Продолжаем тему с вакансиями в наши группы.

Мы приглашаем опытных ML/Data Engineers в Лабораторию искусственного интеллекта.
Наша цель – научно-практические исследования, имеющие широкий спектр применения в различных продуктах не только банка, но и его дочерних компаний, а в ряде случаев и вне экосистемы. Сбербанк делает большую ставку на научную составляющую технологий, а серьезные научные результаты требуют серьезных инженерных решений.
В Центр AI инструментов лаборатории, занимающийся разработкой в области технологий AutoML и инструментов для создания рекомендательных систем, требуется специалист, который поможет решить алгоритмические и технологические задачи, связанные с развитием и внедрением наших решений.
 
Чем вы будете заниматься:
- инженерная часть разработки (реализация распределенных версий пайплайнов инструментов, оптимизация инференса как классических, так и DL моделей, cоздаваемых в автоматическом режиме)
- взаимодействие с прикладными командами по  внедрению разработанных инструментов (в том числе на платформе SberCloud)
 
Мы ожидаем от вас:
- хорошее знание Python (опыт программирования на C++ и знакомство с CUDA  большой плюс)
- опыт работы с решениями экосистемы Hadoop, владение PySpark  (Scala как плюс)
- высокая техническая грамотность (алгоритмический базис, опыт решения архитектурных проблем)
- желание заниматься инженерной и инфраструктурной стороной научных исследований, интерес к разработке технологий
- базовое умение поднимать и настраивать сервера, пользоваться Linux shell
- понимание базовых ML алгоритмов 
- опыт проведения code review
- ML DevOps (Airflow, Docker, Kubernetes и прочее) как плюс
 
 
Условия:
-  масштабные проекты, участие в международных конференциях
- высококвалифицированный коллектив
- конкурентный уровень компенсации
- участие в развитии опенсорс
- корпоративное обучение, льготные условия кредитования
- дмс

Писать: OYYanukovich@sberbank.ru с темой “Лаборатория ИИ. ML-инженер в команду AutoML”

Если будут вопросы, пишите под этим постом)
Коллеги, всем привет и спокойного окончания рабочей недели!

По просьбам трудящихся в четверг 26 августа в 19:00 пройдет вебинар, на котором выступят участники, призеры и победители финального соревнования по нашему курсу с презентацией своих решений.

Будем рады видеть всех!
Всем привет, коллеги!

Напоминаю, что сегодня вечером в 19:00 победители и призеры финального соревнования расскажут о своих решениях. Своими идеями и опытом поделятся Сергей Кутепов, Ринат Курбанов, Андрей Никитин, Михаил Кузнецов и Алерон Миленькин.

Также на правах автора датасетов и постановки задачи грандмастер Kaggle и мой коллега Антон Вахрушев расскажет, что на самом деле скрывалось в недрах задачи 🙈

Ждем всех на нашей ML-тренировке - будет интересно 🔥🔥🔥

Ссылку для подключения направим дополнительно.