Sberloga
2.5K subscribers
215 photos
34 videos
7 files
256 links
Data Сообщество
По всем вопросам обращаться @SberlogaHelperBot
Чат - @sberlogadataclub
Download Telegram
Forwarded from Maxim.ML - канал
Подготовил для вас актуальные идеи pet-проектов в ML на 2025 год

Всем data-привет! 🚀

Новый 2025 год уже начался, а значит самое время взяться за реализацию (и довести до конца 😬) крутого pet-проекта, который бустанёт ваши навыки и карьеру в сфере ML.

На карточках ниже перечислил проекты, за которые я и сам бы взялся, честно говоря, настолько они интересные и актуальные. Все они, очевидно, связаны с использованием нейронных сетей, а большинство - с большими языковыми моделями.

Выберите один проект, и начните его прорабатывать. Уверяю вас, что навыки, которые вы приобретете в процессе создания проекта, вам пригодятся в для текущей или будущей работы.

Чуть более детальное описание можно найти на habr

#pet_проект
#карьера
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3
История о том, как неудачный джойн чуть не испортил всё

Привет, друзья! Сегодня расскажу вам одну историю из жизни, которая случилась со мной на работе. Она о том, как важно иметь опыт работы с базами данных и почему критическое мышление и ответственность — это не просто слова, а жизненно необходимые навыки.

Итак, работал я в компании, где мы решили начать использовать данные из Бюро Кредитных Историй (БКИ). Если вы не в теме, это такие данные, которые помогают моделям кредитного скоринга стать почти волшебными. Они дают около 95% всей силы модели, и это намного лучше, чем универсальные модели, которые продаёт БКИ.

Наша задача была начать собирать эти данные и складывать их в хранилище. Но сначала нужно было убедиться, что данные корректные, чтобы через несколько месяцев можно было строить фичи и потом саму модель. Данные эти, скажу я вам, хранятся в очень странной структуре — около 40 таблиц, и джойнить их между собой — это квест, которому позавидует любой ролевик.

У меня уже был опыт работы с этими данными, поэтому я знал, как их джойнить. Описал всё в задаче, приложил примерный код. Инженеры начали загружать данные, а я поручил коллеге проверить, всё ли ок. Ответ был: всё ОК. Мы начали копить данные. Копили их полгода, и вот настало время строить модель.

Что-то меня насторожило — может, объём данных был в 10 раз больше ожидаемого, или что-то ещё. В общем, решил я уточнить, что же именно проверял мой коллега. Оказалось, что в моём скрипте был джойн нескольких таблиц. В каждой таблице был serial key (Hijid) — просто последовательные цифры 1, 2, 3, ... А чтобы джойнить, нужно было использовать foreign key из таблицы 1 (поле называлось похожим образом как название таблицы 2) с serial key (Hijid) из таблицы 2

Коллега мой взял скрипт, воспроизвёл его на Spark, но ничего не заджойнилось. Он подумал, что скрипт фигня, и решил джойнить по своему - все таблицы по полю Hijid, которое было во всех таблицах. И это у него прекрасно получилось, потому что во всех были значения от 1 до N. В итоге он проджойнил все 5 таблиц по этому полю и получил не пустые результаты. Раз данные собрались то все ОК, так ведь? 🤣

Вывод из этой истории такой: важно иметь опыт работы с базами данных и понимать, хотя бы что такое serial key и foreign key. А ещё самостоятельность — это не просто делать всё самому, а критически относиться к своей работе и задавать вопросы, если есть сомнения. В итоге мы потеряли около 2 месяцев на то, чтобы прогрузить корректные данные и получить правильные результаты. И хорошо, что мы вовремя заметили ошибку, ведь могли бы обучить модель на неправильных данных и получить "не те" результаты.

Так что, друзья, не забывайте задавать вопросы и проверять свою работу. Удачи вам в ваших проектах!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82😁1🍓1
😁4
В комментариях к этому посту попросили поделиться ссылками на антифрод, их есть у меня

Прям в цельную картинку вместе они собраны в курсе ML в бизнесе, но здесь поделюсь кусочками, из которых она состоит.

А для совсем начинающих – хендбук

Как вообще устроен антифрод (на примере фин. мониторинга):

1. Правила (известные схемы, например из профильных обнальных тг-чатов -- для обнала: распыление, слом назначения платежа, вексели, слом ндс, транзит и пр) и экспертные модели (регрессии на известных фичах -- доли контрагентов, коэффициента налоговой нагрузки, корп карты, учредитель - подставное лицо и пр.). Известные фичи "ломаются" уже со стороны нарушителя -- например, КНН можно увеличить отправляя ошибочные платежки в налоговую и получая возвраты

2. Модели (supervised модели, построенные по отловленным правилами и руками кейсам). Здесь тоже работает PseudoLabelling. Но и фродеры не стоят на месте, на это намекал в самом первом начале канала https://t.me/datarascals/3
Кейс-менеджмент и эксперты (разбор найденных примеров, новых схем, мотивированное суждение). Разбор кейса может занимать, например, 2 недели, включая запрос документов от клиента

3. Exploration -- unsupervised -- outlier detection -- наша задача найти несколько десятков примеров, передать их на разбор, сделать supervised модель

4. Мониторинг качества работы и схем и отдельных фичей, симуляции новых схем атак
Мониторинг мошеннических заявок на кредит, определение компаний, искажающих финансовую отчетность -- все это тоже про антифрод.
На Forex вообще фродовыми считаются клиенты, которые выживают и выводят деньги.

Таргетом может быть как компания / физик так и конкретная сомнительная транзакция.

Итак, сами материалы

Поиск аномалий в табличках (для того чтобы быстро разные алгоритмы перебрать):
1. PYOD – база, даже вариационный автоэнкодер включили (вообще автоэкнодеры в разных формах полезны в этих задачах)
2. PYTOD – ускоренная версия (за счет использования GPU) – вообще большинство классических алгоритмов редко применяют из-за того что они очень медленные, мне нравится Isolation Forest из всех, но перебирать всегда приходится несколько
Здесь важно сделать отступление – что для многих классических алгоритмов придется как-то умозрительно задать ожидаемую долю аномалий, что не очень удобно. По факту нам интереснее ранжирование на более аномальные и менее – а дальше сколько мы возьмем будет зависеть от цены ошибки в каждом кейсе и мощности офицеров чтобы эти кейсы руками разобрать и подтвердить.

Поиск аномалий на транзакциях:
1. PYGOD– смотрим на задачу как на поиск аномалий в графах (и то, насколько аномалия должна быть более структурной чем контекстной – необучаемый параметр в лоссе), здесь в основном графовые автоэнкодеры
Но это прям затравочка, тема популярная, плюс графы меняются по времени (и структура и свойства вершин / ребер), даже на последнем NIPS (а это декабрь) показали новый алгоритм поиска аномалий на графах UniGAD. И еще на KDD’24 (сам еще не успел прочесть читал, но denoising диффузионка звучит как что-то интересное)

Подборка актуальных статей по теме

2. PTLS от Sber AI лабы сначала ssl-эмбеддим транзакции, потом закидываем в табличные методы

Если уже нашли и даже добились какой-то разметки, но единичек не очень много сотни), то помогает pseudolabelling– строите график того как метрика (обычно recall) зависит от того, с какого порога предикты единичек первой моделью досыпать в трейн второй. Выбираете порог, максимизирующий recall -- не панацея конечно, но до +10% полноты получалось выжимать.

Ну и supervised – здесь относительно понятно, кроме того на какой event rate калиброваться, да и надо ли )
7
😁10👏6
This media is not supported in your browser
VIEW IN TELEGRAM
🤣19😁7😱1🫡1
😁12🔥6🙏5
Forwarded from KNADCORE (Max Kreslavsky)
This media is not supported in your browser
VIEW IN TELEGRAM
Собеседование в Яндекс
🔥15🤣9💯6👻2😐1
Forwarded from Maxim.ML - канал
ML-архитектор: кто это и зачем он нужен в эпоху автоматизации кода

С появлением инструментов для автоматизации кода (например, GitHub Copilot, Cursor) роль ML-архитектора становится критически важной. ИИ генерирует фрагменты кода, но пока что плохо проектирует системы целиком, не способен предвидеть все скрытые риски и обеспечивать устойчивость решений. Архитектор здесь — тот, кто превращает разрозненные компоненты в надежный продукт.

Кто такой ML-архитектор?

Официально: Специалист, проектирующий структуру ML-систем, от выбора алгоритмов до интеграции с инфраструктурой.

По-простому: Человек, который отвечает за каждую будущую проблему — от падения accuracy модели до сбоев в продакшене. Если система «упала» через полгода после релиза — это его зона ответственности.

Чем конкретно занимается:
⚡️ Проектирование сценариев failure: предсказывает, что может сломаться, и встраивает защитные механизмы (например, автоматический откат моделей).
⚡️ Оптимизация trade-off: баланс между скоростью инференса, точностью и стоимостью инфраструктуры.
⚡️ Стандартизация процессов: как данные поступают в модель, как мониторится её работа, как обновляется pipeline.

Отдельная роль или навык разработчика?

Идеальный мир: ML-лид совмещает архитектурные компетенции с управлением командой. Он понимает, как технические решения влияют на бизнес-метрики (например, задержка предсказания может стоить потерей клиентов).

Реальность: В крупных компаниях (например, банки, маркетплейсы) ML-архитектор — отдельная позиция.
Почему?
⚡️ Масштаб: Системы с сотнями моделей требуют единой стратегии развертывания и мониторинга.
⚡️ Специализация: Лид фокусируется на управлении и бизнес-метриках, архитектор — на широте технической экспертизы в проекте и принимаемых архитектурных решениях.

Как развивать архитектурное мышление: 5 шагов
1️⃣ Рисуйте схемы — но правильно
Используйте различные стандарты: C4-моделирование, UML для ML (Data Flow Diagrams, Deployment Diagrams).
Практика: Возьмите любой open source проект (например, TensorFlow Extended) и визуализируйте его компоненты.
2️⃣ Рефлексируйте над ошибками — своими и чужими
Свои проекты: Ведите «журнал архитектурных решений» (ADR — Architecture Decision Record). Пример записи:
- Выбор базы данных для метаданных моделей
- Проблема: Нужно хранить версии моделей и их параметры.
- Варианты: PostgreSQL vs ML Metadata от TFX.
- Решение: TFX, так как интеграция с пайплайнами проще.
- Последствия: Придется мигрировать при переходе на Kubeflow.


Чужие проекты: Анализируйте кейсы на Kaggle или открытые проекты в github. Спрашивайте:
- Почему автор выбрал PyTorch, а не TensorFlow для этого NLP-проекта?
- Как система масштабируется при росте данных в 10 раз?

3️⃣ Стройте «гибридные» системы
Пример задачи: спроектируйте pipeline, где модель на PyTorch интегрирована с FastAPI-бэкендом, а логирование ошибок идет через Elasticsearch.
Совет: используйте Docker и Kubernetes даже для пет-проектов — это научит вас думать о масштабируемости.

4️⃣ Изучайте смежные области
- DevOps для ML: CI/CD пайплайны для моделей (например, gitlab + DVC).
- ETL и стриминг данных: как настроить spark-стриминг / kafka в kubernetes.

5️⃣ Участвуйте в Code Review
Задавайте вопросы не только «как работает этот код», но и:
- Что произойдет, если входные данные увеличатся в 100 раз?
- Как система восстановится при падении GPU-сервера?

Карьерный путь: когда вы готовы стать архитектором?
⚡️ Junior: решаете локальные задачи (написание модели, фича-инжиниринг).
⚡️ Middle: видите связь между своей задачей и всей системой (например, как ваша модель влияет на нагрузку API).
⚡️ Senior/Architect: можете спроектировать систему с нуля, включая точки отказа и план миграции на новые технологии.

Заключение
ML-архитектор — это не про рисование схем в вакууме. Это про умение видеть систему на 5 шагов вперед и принимать решения, которые сэкономят компании тысячи часов на исправление костылей. Инструменты автоматизации кода не заменят эту роль — они лишь увеличат спрос на людей, которые могут ими грамотно управлять.

(мемы для привлечения внимания)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4👍3
The future is now, old man
This media is not supported in your browser
VIEW IN TELEGRAM
👍4🔥4🤩3😢1
Forwarded from Нескучный Data Science (Евгений Смирнов)
Всем привет! 28 февраля в 17:00 приходите на митап по Data Science в Москве. На встрече экспертами из Центра Big Data МТС и Лаборатории машинного обучения Альфа-Банка поделимся кейсами:

🎙️Гибкая калибровка: как одновременно попадать в KPI для сотен рекламных кампаний?
🎙️Превращаем нейросети в SOTA и для табличных задач
🎙️Трансформеры в RecTools: от fit/predict из коробки до кастомных архитектур
🎙️Улучшаем клиентский опыт за счет комплекса моделей
🎙️Бандиты и нейросети. Строим рекомендации с нуля в стриминговом сервисе с UGC-контентом
🎙️Ускоряем работу аналитиков инструментами Data Science
🎙️Новый релиз CoolGraph – краткий обзор нашей библиотеки для быстрого старта с GNN

🎬Модераторы: Никита Зелинский (CDS & Head of ML Platforms МТС и Евгений Смирнов (CDS & Head of ML Lab, Alfa-Bank).

😍 В рамках колоборации двух CDS-ов из красных компаний запускаем розыгрыш аж 1️⃣0️⃣ подписок ✈️-премиум на год!

Как принять участие?
1️⃣ Подписаться на канал "Нескучный Data Science" (@not_boring_ds)
2️⃣ Подписаться на канал "Дата канальи – про "специалистов" данных в ML/AI" (@datarascals)
3️⃣ Ждать 28 февраля, когда мы объявим, кто победил.

🗓️ 28 февраля в 17:00
📍 г. Москва, офлайн
➡️ Регистрация по ссылке: https://mts-digital.ru/events/details?id=12357783
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥1
Ребята
Мы в команде решили проходить курс по графам :)
За основу взял стэнфордский курс
cs224w Machine Learning with Graphs
По материалам - на просторах интернета есть абсолютно все лекции 2021г и только 8 лекций 2023г
прикол в том что есть лекции которые есть в 2023, которых нет в 2021 и наоборот, поэтому я попробовал их объединить.

Сегодня начнем (поздний анонс немного), но там типа интро всего лишь, думаю не очень критично

Информация тут:
https://t.me/sberlogawithgraphs/26044
🔥61
Спасибо всем кто вчера подключился ❤️
Если вчера не получилось присоединиться - ничего страшного, самое сложное будет еще впереди :)

Краткий саммари что обсуждали:
- по первой лекции - лекции были вводные, из самого интересного это третья часть о различных представлениях графов, в слайдах 2023 этих материалов почти нет, поэтому слайды 2021 стоит открыть
- разницу в курсах 2019/2021/2023
- познакомились, рассказали что кому интересно и кто чем занимается (по желанию)
- орг вопросы

Расписание дальнейших встреч будет в чате
https://t.me/sberlogawithgraphs/
4
Forwarded from Александра Сытник
«SotA для TS forecasting, все ли так однозначно?»

2️⃣0️⃣ февраля состоится следующая встреча тренировок по машинному обучению ↩️

В рамках этой встречи мы разберем следующие темы с нашими приглашенным экспертом:
⚪️переход от задачи прогнозирования временных рядов к задаче регрессии
⚪️как выбрать подходящую модель для вашей задачи временных рядов
⚪️какие есть нейронные архитектуры, в том числе Zero-shot

📢 Спикер:
⚪️Дмитрий Симаков, Kaggle competitions master, тимлид Sber AI Lab

📆 Когда: 20 февраля с 19:00
🗺️ Где: Покровский бульвар д. 11, ауд. R308

Подробнее про челленджи 🐭

Студентам других вузов необходимо заполнить форму для заказа пропуска не позднее чем за 24 часа до дня проведения тренировок, по организационным вопросам участия в тренировках вы можете обращаться к Александре ▶️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Forwarded from Нескучный Data Science (Евгений Смирнов)
🔥 МТС BIG DATA X Лаборатория Машинного обучения

🤩 На фото запечатлены два довольных парня из красных компаний, офисы которых находятся через дорогу, которые только что провели совместный митап. Процесс организации был настолько нативным и синергичным, что мы потратили всего полчаса на созвон и чуть больше на переписку в телеге чтобы договориться обо всех деталях. Мы обязательно продолжим проводить совместные митапы, ставьте 🔥чтобы это случилось быстрее.

🙏 Хочу поблагодарить всех причастных к этому событию. Спасибо площадке МТС за теплый прием и позитивные эмоции, всем спикерам за интересные доклады и качественный перфоманс, членам команды Лаборатории за высокий уровень самостоятельности в подготовке к митапу. Ну и конечно спасибо всем, кто пришел на наш митап в онлайне и большое спасибо тем, кто пришел на офлайн часть без вашей поддержки ничего бы не получилось!

📸 Фото вышли огонь, забирайте по ссылке.
📹 Видео и презентации на следующей неделе появятся в комментариях к посту 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
3🔥2