Katser

Channel created

21:04

Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях. В рамках рабочих обязанностей занимался задачами поиска аномалий, прогнозирования, определения остаточного ресурса и другими задачами машинного обучения в промышленности, в основном связанными с производством. Успел поработать с данными НЛМК, ММК, ТМК, ЧТПЗ, ПМХ, Росатом, ГПН, Сибур, поучаствовав в решении 30+ реальных задач. Сейчас — консультант DS-проектов в промышленности, преподаватель. Больше информации обо мне можно найти на моем сайте ykatser.github.io.

Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны

🗂

Оглавление постов канала по темам

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥10👍7❤3🤓1

2.52K viewsedited 20:56

Katser

Katser pinned «Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях.…»

14:49

Katser

В этом видео я рассказываю, почему машинное обучение и анализ данных нужны везде, почему нужен work-life balance, какую роль в жизни играет спорт и немного о своем пути в профессии. В конце даже шучу.

YouTube

Молодые ученые России. Эксперт по ИИ Юрий Кацер / Выпуск #7

В рубрике «Молодой ученый» Юрий Кацер — эксперт отдела искусственного интеллекта компании «Цифрум» (Росатом) и аспирант программы «Вычислительные системы и анализ данных в науке и технике» Сколтеха — рассказывает, почему машинное обучение и анализ данных…

👍8🔥2🤩2❤1

2.13K views15:52

Katser

👨‍💻Хакатоны всегда занимали особую часть моей жизни, правда в последнее время все меньшую. К сожалению. Ведь благодаря хакатонам я поступил в сколтех, прокачал софт скиллы и менеджерские навыки. Так что всем рекомендую, особенно молодым специалистам.

А вот интервью по теме

Please open Telegram to view this post

VIEW IN TELEGRAM

student.skoltech.ru

Iurii Katser and Viacheslav Kozitsin (RUS)

Путь в Сколтех лежит через хакатон

🔥5🥰3❤2

1.64K viewsedited 22:21

Katser

🗂 Оглавление

Личное/О себе
• Интервью для проекта homo science

Хакатоны
• Интервью «Путь в Сколтех через хакатон»
• 5 историй с хакатонов
• Предиктивная аналитика эксгаустеров: часть 1, часть 2

Кейсы применения машинного обучения и data science
• Список материалов и кейсов применения ML и DS в промышленности
• Диагностика электролизеров на производстве ядерного топлива и подходы к решению задачи поиска аномалий
• Диагностика трансформаторов: часть 1, часть 2, часть 3, часть 4
• Диагностика нефтегазовых трубопроводов с помощью машинного обучения: часть 1, часть 2
• Диагностика двигателей самолетов

Предиктивная аналитика и ML/DS задачи
• Подкаст «Будь что будет» о предиктивной аналитике
• Точечные vs коллективные аномалии: возможные задачи и пути их решения
• Все о задаче changepoint detection
• Глубокое обучение в поиске аномалий временных рядов
• Гайд для погружения в поиск аномалий во временных рядах
• Все, что вы хотели знать о задаче остаточного ресурса оборудования

Временные ряды и другие данные
• Библиотеки и инструменты для работы с временными рядами
• Аугментация временных рядов
• Качество и предварительная обработка временных рядов. Часть 1 - Введение, Часть 2 - Обзор методов предварительной обработки данных
• Обзор открытых промышленных данных

Образование в data science
• Источники для изучения DS (книги, курсы и тд)
• Конференции с кейсами применения ML в промышленности

Please open Telegram to view this post

VIEW IN TELEGRAM

👏11🥰4🔥3👍1

1.78K viewsedited 12:30

Katser

🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение на GitHub) в различных отраслях промышленности.
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.

📁

Статья на vc и постоянно пополняющийся репозиторий на гитхабе

Please open Telegram to view this post

VIEW IN TELEGRAM

vc.ru

Список материалов и кейсов применения ML и DS в промышленности — Yuriy Katser на vc.ru

Мне кажется, что пост может быть полезен как начинающим специалистам или студентам, так и опытным дата сайентистам или руководителям разного уровня. Я сам прошел путь от джуна до руководителя, и мне кажется, что польза может заключаться в следующем:

🔥8❤5👍3🥰1

1.55K views15:14

Katser

🗣Анонс выступления

Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»

Когда?
26 апреля 2023 в 14.00

Где?
Онлайн конференция DataStart

О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.

DataStart | 3 июля | конференция Data Science

К нам в программу конференции 26 апреля врывается новый спикер!

Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…

👍7🔥4❤2

1.27K views13:29

Katser

📉 Почти год назад я также выступал на конференции Datastart, правда с техническим докладом “Библиотеки для работы с временными рядами на Python”. После этого даже выпустил статью (с помощью редакции tproger), которую можно почитать по ссылке. В статье, как и в докладе, я рассказываю о задачах, которые ставятся на временных рядах, а также о не самых популярных библиотеках, позволяющих решать обозначенные задачи. Статья определенно имеет потенциал для улучшения, но в качестве ознакомительного с темой обзорного материала вполне подойдет.
Вообще, тема временных рядов не такая уж и популярная, поэтому я собираю для себя разные материалы в этом репозитории на гитхабе, а также в моих звездах на гитхабе (но там большинство репозиториев не для новичков!).

Please open Telegram to view this post

VIEW IN TELEGRAM

Tproger

Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома

Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно.

🔥8👍5👏4

1.42K views21:25

Katser

🎙Научпоп разговор про предиктивную аналитику в нашей жизни.

Подкаст о том, как Data Science и предиктивная аналитика помогают понять, через сколько выгорит сотрудник? Откуда интернет-магазины знают, что вам нужна не пряжа, а пена для бритья? И почему мы до сих пор не смогли предсказать все? Поговорили об этих и других вопросах.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7❤3👏3

1.25K views18:49

Katser

👨‍💻Закончил статью про проблемы на хакатонах, снижающие прозрачность процессов и прогнозируемость результатов. По сути перечисляю 🚩рэд флэги, которые надо держать в уме, а, если они встретились — взвешивать риски. Ведь рандом может быть как в плюс, так и стать серьезным разочарованием по итогам (особенно, когда млн рублей на кону, а решает все случайный человек).

Please open Telegram to view this post

VIEW IN TELEGRAM

vc.ru

5 историй с хакатонов — Yuriy Katser на vc.ru

Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились…

🔥8👍4👏3❤‍🔥1

1.56K views17:35

Katser

📈Написал пост по теме "Точечные vs коллективные аномалии: возможные задачи и пути их решения" на канале Reliable ML. К посту еще и схема прилагается!
На мой взгляд, получилось неплохое дополнение к очень познавательному Циклу постов о подготовке данных, рекомендую почитать: пост 1, пост 2, пост 3.

🗣А еще скоро выступаю у ребят в одноименном треке на DataFest'е, но об этом поговорим попозже.

Please open Telegram to view this post

VIEW IN TELEGRAM

Reliable ML

Точечные vs коллективные аномалии: возможные задачи и пути их решения
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser

Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…

👍6🔥4👏4

1.31K views17:56

Katser

📉

Аугментация временных рядов

Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.

При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP

Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.

Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10❤3🔥3

1.6K viewsedited 16:36

About

Blog

Apps

Platform