Дата канальи — про «специалистов» в данных / ML / AI
4.94K subscribers
205 photos
7 videos
12 files
189 links
Корпжиза аналитиков и DS. Если хотите анонимно поделиться историей на широкий круг -- го в личку @NikitaZelinskiy, аналогично по остальным вопросам
Download Telegram
#ML

Как связан Data Science и Дом-2?

В соседнем чате Влад (который https://t.me/sberloga) скинул наш с Витей вводный вебинар (кусочек первого семинара курса "ML в бизнесе" с описанием какой наш курс хороший и примерами схем валидации моделей), и я чего-то не мог понять кто это в описании и когда же мы его упоминали.

Поиск по картинке в Яндексе вывел на материал "Дава показал как живет после расставания с Бузовой" 🤦‍♂️.

Поиск по Бузовой -- на Дом-2.

И, видимо, на выходных я буду заниматься подходами explainable ai, ибо понять как это все связано пока что выше моих сил 🤔. Спасибо ютюбу за мотивацию, а то все руки не доходили 😆

Если хотите, поделюсь материалами которые найду (а модификации SHAP и LIME мне уже немного не интересны, каузальные эмбеддинги вообще немного про другое) -- ставьте лойс 👍.
👍27🔥4🥴3🦄3😁1🗿1
#ML

Итак, про XAI, он же eXplainable AI

Глубина глубин открываются с первого же найденного постера — 17 методов и 20 (!) метрик для сравнения в постере с последнего NIPS (декабрь 24го)


Summary of Navigating the Maze of Explainable AI: A Systematic Approach to Evaluating Methods and Metrics
LATEC is a new tool that helps researchers understand different methods of Explainable AI (XAI) by comparing 17 popular XAI methods across various settings and using 20 evaluation metrics. The study shows that previous evaluations of XAI methods were often inconsistent and biased because they used limited criteria. By analyzing a large number of combinations and making all results available, LATEC aims to help users pick the right XAI method for their needs, especially in areas involving images and 3D data.


Explaining explanations (рис 3 в самом свежем обзоре — январь 25го) тоже намекают что не все так просто 🤔

В итоге разобраться за выходные не получилось, «не шмогла» — недооценил куда наука ушла, сорян 🤷

Ухожу читать обзоры и смотреть туториалы 🤓🙈


Вроде такого: A Review of Multimodal Explainable Artificial Intelligence: Past, Present and Future от 18 декабря

Отдельно радует что есть попытки в метрики и бенчмаркисамого XAI (!)

Наметил себе еще «немного материалов»
https://neurips.cc/virtual/2024/tutorial/99520
https://www.youtube.com/watch?v=ObaXpJVqgt4
https://neurips.cc/virtual/2023/workshop/66529

PS
Пока искал встречал и очередное развитие SHAP
И реинкарнации градиентных методов
И attention maps / saliency maps (которую кстати и получают градиентными методами)
И модели, которые сразу учат и объяснения делать (еще и на фондовом рынке!)

Если кому-то тема тоже интересна — мб соберемся через недельку онлайн и обменяемся мнениями?

Например, вторник, 18 февраля, в 20 по мск?

По итогам саммари обсуждения выложу сюда

Если готовы собраться онлайн — ставьте 😄, 18го пришлю ссылку.

Если я все усложнил и PDP / ICE / H-stat / ALE / SG достаточно и вообще надо было начать с гайда 2024 года, в котором все уже достаточно структурировано и объяснена связь задач XAI и adversation attacks -- вы крутые, ставьте 😎
😁12😎8👍53🔥3🦄1
Видел кучу презентаций и докладов где DS противопоставлялся MLE, где буква E про инженера. Прямо такие разные профессии, смотрите не перепутайте 😄

Кажется, Авито решили эту проблему — не удивлюсь если их DSE еще и на кларнете играет 🤣
😁17👍2
Forwarded from ODS #jobs
DS-инженер в команду Авито
от 285 000 ₽/месяц
Удаленка или офис, Фултайм

Ищем опытных DS-инженеров на Weekend Offer в Авито! Ускоренный отбор за выходные и возможность попасть в одну из пяти команд: автомодерация, монетизация, поисковое ранжирование, AI Lab и вертикальные команды DS…(читать далее)
❤‍🔥7😁2👍1🔥1
#корпжиза
Про манагеров-каналий и матрицу – но не ту что в алгебре, а как структуру управления.

В комментах к посту про скрытые KPI

А кто шеф в матричной структуре?

Спойлер: я сторонник системы сдержек и противовесов (чтобы хирург не перепутал ноги при ампутации – а такие случаи вполне гуглятся)

Сейчас покажу на неожиданном примере.

Если попросить вас представить структуру где максимально жесткая система приказов, за неповиновение – расстрел в военное время, все представят армию.

На этом моменте манагеры-канальи мечтательно закатят глаза в мечтах о безграничной власти и единоначалии (ох как любят они это слово и ощущение).

Первая же ссылка на wiki
дает нам представление о том что управление вооруженными силами внезапно тоже матрица – как минимум (но не только), есть географический разрез (военные округа) и рода и виды войск (те самые компетенции).

При этом все защитники должны работать вместе и их объединяют, неожиданно, в объединения (например, в армию, и у нее есть свой командующий)

То есть в составе армии может быть дивизия, в которой есть карандашеметательный полк, и командир этого полка подчиняется комдиву, но его боеготовность оценивает начальник карандашеметательных войск армии. Ничего не напоминает?

Даже такая организация, которая для многих выступает примером супериерархичной структуры -- управляется матрицей.

Как говорит мой шеф – “принцип двух ключей” – и такой подход проверен и в мирной жизни и в войнах.

Понятно, что из любого правила найдутся исключения – но на то они и исключения.

Так вот, стремление манагера в крупной компании к единоначалию – нормально, главное чтобы оно оставалось недостижимо 😄
🔥23👍53👏2😁1🦄1
Forwarded from Нескучный Data Science (Евгений Смирнов)
Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами:

🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных кампаний?
🎙️Превращаем нейросети в SOTA и для табличных задач
🎙️Трансформеры в RecTools: от fit/predict из коробки до кастомных архитектур
🎙️Улучшаем клиентский опыт за счет комплекса моделей
🎙️Бандиты и нейросети. Строим рекомендации с нуля в стриминговом сервисе с UGC-контентом
🎙️Ускоряем работу аналитиков инструментами Data Science
🎙️Новый релиз CoolGraph – краткий обзор нашей библиотеки для быстрого старта с GNN

🎬Модераторы: Никита Зелинский (CDS & Head of ML Platforms МТС и Евгений Смирнов (CDS & Head of ML Lab, Alfa-Bank).

😍 В рамках колоборации двух CDS-ов из красных компаний запускаем розыгрыш аж 1️⃣0️⃣ подписок ✈️-премиум на год!

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Дата канальи – про "специалистов" данных в ML/AI" (@datarascals)
3️⃣ Ждать 28 февраля, когда мы объявим, кто победил.

🗓️ 28 февраля в 17:00
📍 г. Москва, офлайн
➡️ Регистрация по ссылке: https://mts-digital.ru/events/details?id=12357783
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👍74🦄1
Forwarded from Нескучный Data Science (Евгений Смирнов)
This media is not supported in the widget
VIEW IN TELEGRAM
🔥115👍2😱1
Дата канальи — про «специалистов» в данных / ML / AI pinned «Обещал вам показать самописного бота, с помощью которого готовлюсь к behavioral interview (любят в faang/maang и последователях) и заодно практикую английский. Еще хотелось понять насколько я оменеджерился, смогу ли сделать что-то минимально рабочее за пару…»
Дата канальи — про «специалистов» в данных / ML / AI pinned «#кейсы #ML Сегодня 31 декабря. Поэтому расскажу кейс о работе 31 декабря много лет назад. Горел флагманский и достаточно сложный и в плане бизнеса и плане инфры (первое внедрение в пром на спарке за историю банка, причем на паре десятков источников и с кучей…»
Forwarded from LightAutoML framework
📔 Мы внимательно следим за последними статьями в области ML, и сегодня хотим обратить ваше внимание на модель TabPFN v2 из статьи “Accurate predictions on small data with a tabular foundation model”, опубликованную в январе 2025 года в Nature. Модель работает на табличных данных, первая версия TabPFN была опубликована в октябре 2022, во второй версии помимо классификации появилась регрессия.

💡 Идея TabPFN v2:
В классических алгоритмах для решения suprevised задач на табличных данных модель обучается с нуля, в статье используется подход с предобучением:
1. Генерируются 130 миллионов синтетических датасетов с помощью каузальных графов, которые имитируют сложные зависимости в данных, пропуски, выбросы.
2. На сгенерированных данных предобучается трансформер, предсказывая таргет test выборки, получая на вход train как контекст. Для каждой ячейки таблицы используется отдельная репрезентация. Используется механизм внимания как по строкам, так и по столбцам таблицы.
3. Вместо привычных отдельных "fit" и "predict", трансформер за один проход получая и train, и test новой задачи одновременно, делает инференс на test, используя in-context learning. Простыми словами, модель обучена однажды, но подхватывает зависимости в данных из подаваемого в контекст датасета и сразу делает предсказания.

🥇 Результаты авторов:
1. Скорость и качество: в задачах классификации и регрессии на данных до 10к строк и 500 признаков за несколько секунд получает качество лучше, чем ансамбль из базовых алгоритмов (бустинги, лес, линейные), которые тюнились в течение нескольких часов.
2. Минимум работы: алгоритм не нужно тюнить, имеет отбор признаков, нативно работает с числовыми и категориальными признаками, а также с пропусками.
3. Плюсы foundation моделей: возможность получить распределение таргета, генерировать данные итд.
4. Неплохо показывает себя на временных рядах.

🤔 Выводы:
1. Статья показала эффективность foundation моделей в домене табличных данных, теперь у бустингов сильные конкуренты.
2. Пока есть вопросы с точки зрения эффективности инференса, ограниченности контекста, но дальше будут улучшения.
3. Интересно, что TabPFN v2 можно назвать AutoML решением, ведь для решения задачи он не требует ни настройки гиперпараметров, ни предобработки данных.

Тема интересная, у нас имеются наработки по этой теме, и мы работаем над их применением в LightAutoML🦙, stay tuned!

#обзор
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥6🦄2
#ML

DS и нумерология

Если кто до сих пор не нашел что почитать в выходные и при этом увлекается нумерологией -- то небезызвестный Юрген Шмидхубер еще 8 октября выпустил 88-
страничный обзор, в котором ровно 888 ссылок.

Название вполне в его духе — Deep Learning in Neural Networks: An Overview (мужик считает себя минимум отцов всего современного AI -- и у него правда есть как минимум одна важная работа в области), многие уже посмеялись с его поста про DeepSeek, но если кто-то считает нашу среду токсиком, посмотрите как он огребает в комментах к одному из его предыдущих постов в линке.

Жалко мужика, а обзор любопытный как минимум для понимания истории вопроса.
7😁7👍1🫡1
#ML

Если вдруг кто-то пропустил МТСные курсы по RecSys на ODS и не знает как BigData МТС связана с рекомами, то вдогонку скажу что мы в МТС продолжаем развивать свою библиотеку для рекомендашек RecTools.
За эти году в либу успели законтрибьютить 20+ классных MLE) -- и сейчас ее развитие драйвит Даша Тихонович со своей командой

Новости о либе в канале

Звезды в гитхабе тоже приветствуются 😊

Итак, встречайте -- новый релиз 0.11.0 -- Трансформеры в RecTools!

BERT4Rec и SASRec в fit / recommend парадигме, без необходимости в специальной подготовке данных.

Поддерживают сборку с конфигов, кастомизацию, коллбэки, чекпойнты, логи, кастомную валидацию и мульти-гпу обучение.

Архитектура:
- Dot product связывание (+ можно кастомизировать свою логику)
- Из коробки используют в эмбеддингах категориальные фичи айтемов (+ можно подключать и отключать эмбеддинги на айди айтемов) (+ можно кастомизировать свою логику для эмбеддингов)
- Поддерживают softmax, BCE и gBCE лоссы с варьируемым количеством негативов (+ можно поддерживать кастомные лоссы)
- MLM и Shifted Sequence задачи обучения (+ как и всё остальное можно кастомизировать)

Все актуальные туториалы тут:
- Теория и практика
- Обучение с кастомной валидацией
- Модульная кастомизация моделей

Результаты на публичных бенчмарках против других имплементаций: наш BERT4Rec выиграл 2 из 4 датасетов, SASRec на софтмаксе 3 из 4.

Также в релизе:
- from_params метод для моделей и общая функция model_from_params для инициализации моделей с "плоского" словаря
- обучение на GPU для PureSVD
- TorchRanker для ранжирования айтемов по полученным скорам от моделей
🔥36👍108
Дата канальи — про «специалистов» в данных / ML / AI
#ML Итак, про XAI, он же eXplainable AI Глубина глубин открываются с первого же найденного постера — 17 методов и 20 (!) метрик для сравнения в постере с последнего NIPS (декабрь 24го) Summary of Navigating the Maze of Explainable AI: A Systematic Approach…
#ML

Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks

UPD Сорри, сносим на время пораньше и другой день -- давайте выберем в комментариях, ориентировочно понедельник , 16 мск (в комментах под постом решим)
🔥9
Приходите сегодня послушать Диму, топ спец во временных рядах и не только )
Forwarded from Александра Сытник
«SotA для TS forecasting, все ли так однозначно?»

2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5
Когда с подачи Виктора https://t.me/kantor_ai начинали в декабре 23го — еле-еле 15 чел набирали , на онлайн приходило 4 , теперь нам аудитории не хватает 😂 будем стараться бронить потоковую 🤷‍♂️
🔥2111👍7👏2
Дата канальи — про «специалистов» в данных / ML / AI
#ML Через час опубликую ссылку для подключения на обсуждения XAI (правда более чем уверен, что все забыли 😂), а пока откопал статью 2016 года с супер-известным первым автором Visualizing and understanding recurrent networks UPD Сорри, сносим на время пораньше…
#ML

Раз уж мы коллективно перенесли XAI-созвон на сегодня на 16 -- пытаюсь найти что-то релевантное и интересное.

Вот, например, в статье недельной давности TOWARDS MECHANISTIC INTERPRETABILITY OF GRAPH TRANSFORMERS VIA ATTENTION GRAPHS пытаются интерпретировать графовые трансформеры путем построения графов внимания.

А как представляются графы? Матрицей связности) Итого получаются картинки, безумно похожие на attention maps, которые к интерпретации GNN в бизнес-смысле не приближают от слова совсем 😔

UPD:
а вот gui для интерпретации , который прям совсем приятный и кликабельный

UPD2:
жду вас по ссылке https://meet.google.com/qjm-yzdu-qxf

спасибо пришедшим! записал идей, копаю дальше)
👍93🤔2