LightAutoML framework

📔 Мы внимательно следим за последними статьями в области ML, и сегодня хотим обратить ваше внимание на модель TabPFN v2 из статьи “Accurate predictions on small data with a tabular foundation model”, опубликованную в январе 2025 года в Nature. Модель работает на табличных данных, первая версия TabPFN была опубликована в октябре 2022, во второй версии помимо классификации появилась регрессия.

💡

Идея TabPFN v2:
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.

🥇

Результаты авторов:
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.

🤔

Выводы:
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.

Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML🦙, stay tuned!

#обзор

Please open Telegram to view this post

VIEW IN TELEGRAM

Nature

Accurate predictions on small data with a tabular foundation model

Nature - Tabular Prior-data Fitted Network, a tabular foundation model, provides accurate predictions on small data and outperforms all previous methods on datasets with up to 10,000 samples by a...

🔥30👍15❤6😱3😁1

11K viewsedited 09:38

LightAutoML framework

Хочешь знать, сколько на самом деле зарабатывают специалисты в Data Science? Давайте соберем статистику, пройдя опрос от наших коллег по индустрии, и узнаем 💸💸💸

👍4👎1🔥1😱1

1.73K viewsedited 12:16

LightAutoML framework

Forwarded from Нескучный Data Science (Евгений Смирнов)

💸 Сколько ты зарабатываешь на Data Science?

👉 Пройди опрос сейчас, не откладывай на потом❗️

🤔 Вы можете примерно оценить вилку на вашей позиции благодаря вакансиям из каналов, где они публикуются. Тем не менее вилки довольно широкие и одни работодатели недоплачивают или платят строго по низу вилки, другие наоборот переплачивают и выходят за ее пределы. Вам в свою очередь нужно на собеседовании или при повышении назвать одно число, ровно столько вам будет платить довольно продолжительный период времени.

📊 Запускаю опрос, который в будущем поможет подписчикам сопоставить свой набор навыков с рынком труда. Прошу вас ответить на вопросы про ваш опыт, текущую роль в компании, ваш уровень удовлетворенности и планы на будущее. Чем прозрачнее будет рынок труда, тем выгоднее будет обоим сторонам, ведь дата сайентисты не будут смотреть в лес рынка труда.

🔖 Результаты опроса буду порционно публиковать в канале Нескучный Data Science @not_boring_ds.

😉 классические вопросы с популярных интервью тоже включены)

P.S. при публикации статистики дам ссылки на каналы поддержавшие опрос.

❤5🔥3

1.97K views12:16

LightAutoML framework

Forwarded from 🏄 Соревновательный Data Science | Kaggle | Чемпионаты

0:01

This media is not supported in your browser

VIEW IN TELEGRAM

А это твой ансамбль бустингов и неройнок закусился с AutoML’м в топе лидерборда 🦙

😁7🔥5👍3❤1

2.21K viewsAlex Ryzhkov, 09:47

LightAutoML framework

📺

Привет! Помимо работы над LightAutoML, мы занимаемся и следим за многими другими темами в области ML.

Завтра сотрудник нашей команды Миле Митрович выступит на научном семинаре с обзорным докладом на тему агентов, ждем вас онлайн!

Please open Telegram to view this post

VIEW IN TELEGRAM

ИИ песочница

🤖 From LLMs to AI Agents

Запускаем открытые семинары про AI, и первый уже скоро!

6 марта в 17:00 Миле Митрович (Sber AI Lab) расскажет, как LLM выходят за рамки чат-ботов и становятся частью агентных систем

Что обсудим:
🔘 Сильные и слабые стороны LLM…

🔥13❤3👍2

2.96K views13:55

LightAutoML framework

📆 Последний доклад был очень интересным, и сегодня продолжим обсуждение агентов уже на панельной дискуссии в 17:00, от нашей команды снова выступает Миле. Еще можно успеть присоединиться онлайн!

👋 Кому тема интересна, рекомендуем канал Миле: там он рассказывает про свой опыт, новости ML/агентов/LLM/AutoML, добро пожаловать!

Please open Telegram to view this post

VIEW IN TELEGRAM

ML with MiLE

Привет всем!

📢 Сегодня в 17ч в ТеДо состоится панельная дискуссия по LLM-Агентах. В том числе один из спикеров буду я.

👉 Присоединяйтесь по ссылке

👍5❤2🔥2👏1

2.33K viewsedited 11:19

LightAutoML framework

📆 Также вчера Александр Рыжков выступил на митапе у ОТП банка с рассказом про open-source и развитие LightAutoML -- видеозапись прилагается в комментариях 😉

💔 Увидели пасхалку в посте ОТП? 💔

Please open Telegram to view this post

VIEW IN TELEGRAM

OTP Tech

Вчера встречу нашего профессионального сообщества AI BusinessBoost посетил Александр Рыжков (ex исполнительный директор Сбера). Поговорили про то, как увлечение соревнованиями на платформе Kaggle привело к развитию методов автоматизации машинного обучения…

👍12🔥8👏3❤2😱2

3.02K viewsedited 12:44

LightAutoML framework

🔄 Обновление LightAutoML v0.4.1 в PyPI 🚀

В новой версии внедрили ряд исправлений, улучшающие стабильность и надежность библиотеки. Основные изменения:

🔘

Исправление перемешивания колонок после загрузки модели: баг мог возникать при загрузке модели из файлов -- это приводило к снижению качества модели или ошибкам "IndexError: index ... is out of bounds for dimension 0 with size ...".

🔘

Исправление падения с ролями NumericRole:
Ошибка "KeyError: Numeric role ...", которая возникала при использовании класса NumericRole, возникала в основном в AutoUplift (строковое задание роли работало штатно).

‼️Важно:
Первая из перечисленных проблем была критической, поэтому версия v0.4.0 будет изъята из PyPI. Настоятельно рекомендуем обновиться до версии v0.4.1. Спасибо за ваше терпение и поддержку!

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍6🎉3🤩1

3.32K views08:34

LightAutoML framework

👋Привет! Выкладываем видеозапись выступления Саши Рыжкова на ФКН ВШЭ про LightAutoML 🦙
https://www.youtube.com/watch?v=-1JL8h-SM50

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

LightAutoML — история создания и победы (Александр Рыжков)

Семинар проекта «Открытый код ФКН»

Семинар посвящен истории создания фреймворка LightAutoML для автоматического построения моделей машинного обучения: как зародилась идея этого проекта и каким образом он превратился в мощный инструмент, сумевший превзойти…

🔥34❤8👍6👏1

3.11K viewsedited 09:07

LightAutoML framework

💥 Привет! А ведь давно не публиковали про соревнования!

🤴

31 мая на DataFest в гостях у Авито на панельную дискуссию “Мифы и правда о соревновательном ML” собрался звездный состав из мастеров и грандмастеров Kaggle (в числе них наш бывший и текущий сотрудник): Саша Рыжков, Дима Симаков, Саша Гущин , Миша Каменщиков.

Обсудили холиварные и не очень вопросы про соревнования, рассказали разные куллстори. Ссылки на видео:

🎥

YouTube

📺

VKVideo (таймкод: 2:41:47)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14❤4👍4🤩3🎉1

1.75K viewsedited 10:37

LightAutoML framework

Forwarded from Дата канальи — про «специалистов» в данных / ML / AI

Наконец-то выложили запись разговора с Сашей Рыжкова -- уникальным 4x Kaggle GM
Мой первый опыт в роли интервьера)

Ниже анонс от коллег:

Что ждет AutoML и как побеждать на Kaggle? 🔥

На недавней конференции MTS True Tech Day состоялось крутое интервью, которое нельзя пропустить! Никита Зелинский (CDS MTS) пообщался с Александром Рыжковым — ex-руководителем LightAutoML, а ныне Avito R&D unit lead.

Обсудили самое мясо:
🏆 Победа на Kaggle AutoML Grand Prix 2024: инсайты и стратегии от победителя.
🚀 Будущее AutoML: куда движется индустрия и какие тренды нас ждут?
🤖 AI-агенты: как они уже меняют нашу работу и жизнь.

Получился концентрированный разговор о передовых технологиях и практическом опыте. Очень рекомендуем к просмотру!

▶️ Смотреть запись интервью: тыц

VK Видео

Разговор про AutoML с автором LAMA. Доклад Никиты Зелинского и Александра Рыжкова | True Tech Day 2025

Спикеры: — Никита Зелинский: кандидат физ-мат наук, Chief Data Scientist, руководитель центра компетенций Data Science в МТС — Александр Рыжков: единственный в России 4х Kaggle grandmaster, победитель Kaggle AutoML Grand Prix 2024, Light Auto ML ex-head.

🔥17❤3👍2🎉2

1.69K views17:10

LightAutoML framework

🔥

2 место на RecSys Challenge

🔥

Коллеги из группы RecSys нашей Лаборатории (Антон Кленицкий, Артем Фаткулин, Антон Пембек, Дарья Денисова и Леша Васильев) заняли второе место в соревновании конференции RecSys25 - RecSys Challenge.

Задача заключалась в генерации эмбеддингов на основе действий пользователей, далее поверх них обучалась нейронка организаторов, которая решала 6 даунстрим задач, 3 из которых даже не были известны. Кроме этого сложность заключалась в том, что организаторы не очень хорошо подготовили задание, поэтому соревнование регулярно продлевалось, а данные один раз заменили на новые из-за лика. В челендже приняло участие более 100 команд, 4 место заняли коллеги из RecSys группы Яндекса.

Ссылка на лидерборд: тык
Скоро будет решения 😉

Please open Telegram to view this post

VIEW IN TELEGRAM

🎉37🔥12❤7👍1👏1

2.17K viewsMaksim Savchenko, edited 19:57

LightAutoML framework

🔥 2 место на RecSys Challenge 🔥 Коллеги из группы RecSys нашей Лаборатории (Антон Кленицкий, Артем Фаткулин, Антон Пембек, Дарья Денисова и Леша Васильев) заняли второе место в соревновании конференции RecSys25 - RecSys Challenge. Задача заключалась в генерации…

Кстати, у коллег есть курс по рексистемам и библиотека RePlay для работы с ними. Вперед перенимать опыт! 🚀🚀🚀

ИИ Песочница | RnD про ML, AI, Data Science

🚀 Новый курс по рекомендательным системам и RePlay — прокачай навыки персонализации данных!

В мире, где персонализация решает всё — от любимых фильмов до идеальных покупок — рекомендательные системы стали must-have инструментом. Хотите не просто понимать…

🔥8👍3👏2🎉1🤩1

1.95K views08:40

LightAutoML framework

17 июля в 17:00 пройдет обещанный разбор решения 2-го места на RecSys 2025, подключайтесь!

ИИ Песочница | RnD про ML, AI, Data Science

🔥 Разбираем победу в RecSys Challenge 2025!

В конце июня 2025 года наша команда ai_lab_recsys заняла🥈2-е место в общем зачёте и 🥇1-е место среди академических команд на престижном соревновании по рекомендательным системам в рамках конференции ACM RecSys!…

❤9👍5🎉5🔥4👏3

1.66K viewsedited 10:15

LightAutoML framework

Forwarded from AvitoTech

Наука + бизнес = идеальный мэтч в ИИ

❤️

Наука помогает понять, как всё работает, и находит новые решения. А бизнес даёт ресурсы, чтобы эти решения стали реальностью.

Но это если кратко и в теории. Реальные кейсы такой синергии и возможности для молодых исследователей обсудим на паблик-толке 17 июля в нашем офисе на Лесной и онлайн.

Вместе с Иваном Оселедцем, генеральным директором Института ИИ AIRI и Андреем Рыбинцевым, старшим директором по ИИ Авито разберём:

☑️что такое RnD в компании, и как это работает;
☑️может ли бизнес без фундаментальных исследований и могут ли они приносить прибыль;
☑️какие новые задачи появятся у учёных в эпоху ИИ;
☑️как не ошибиться в выборе — научной карьере или развитии в бизнесе.

Встреча будет особенно полезна начинающим исследователям и тем, кто хочет развиваться в RnD. Зарегистрироваться можно тут*.

*Количество мест на встречу ограничено, поэтому рекомендуем не откладывать. Также внимательно заполняйте форму: приглашение участникам будем рассылать исходя из темы паблик-толка.

#ds

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

1.6K views16:24

LightAutoML framework

17 июля в 17:00 пройдет обещанный разбор решения 2-го места на RecSys 2025, подключайтесь!

Стартуем через 15 минут 🚀

Ссылка для онлайн просмотра, для подключения рекомендуем Яндекс Браузер

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥3👍1🤩1

1.66K viewsedited 13:46

LightAutoML framework

Forwarded from Дата канальи — про «специалистов» в данных / ML / AI

ML Training HSE TS.pdf

6.2 MB

В комментах к последним постам про логарифмирование таргета (а в комментах был материал про другие модификации и их свойства) задавались вопросы по прогнозированию временных рядов.

Ок, лучшее, что я могу посоветовать - презентация с наших совместных с ВШЭ ML-тренировок by Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

Прежде чем покупать и листать большие книги -- а по рядам их написано много -- макроэкномисты и биржевые спекулянты продолжают искать философский камень -- я бы начал с этой презентации -- максимум практики и опыта в одном месте.

2🔥17❤6👍4👏1🤩1

1.08K views13:41

LightAutoML framework

Forwarded from Это считается (Danila Nedbaev)

Кчау, а у нас новый выпуск!

В этом выпуске разобрались с одной из самых известных платформ для специалистов по анализу данных и машинному обучению — Kaggle. Что это вообще такое и нужно ли оно вам?

Спойлер: Kaggle — это как олимпиада для взрослых, но не столько ради медалей и призов (хотя и они там имеются), сколько ради реального профессионального роста.

– Как стать гранд-мастером Kaggle и почему это работает лучше любого резюме?
– Что Kaggle дает аналитикам и зачем сражаться за тысячные доли после запятой в метриках?
– Что общего Kaggle имеет с реальными бизнес-задачами и как AutoML делает ML-щика даже из тех, кто не умеет в ML?

Обсуждали все это с нашим гостем, который уже 14 лет в Kaggle, единственным в России четырехкратным гранд-мастером Kaggle, победителем Kaggle AutoML Гран-При 2024 и руководителем R&D-юнита в AI-лаборатории Авито — Александром Рыжковым.

Яндекс.Музыка
ВК
Apple Podcasts
Telegram-плеер
остальные платформы

🔥6❤4

597 views17:23

About

Blog

Apps

Platform