Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях. В рамках рабочих обязанностей занимался задачами поиска аномалий, прогнозирования, определения остаточного ресурса и другими задачами машинного обучения в промышленности, в основном связанными с производством. Успел поработать с данными НЛМК, ММК, ТМК, ЧТПЗ, ПМХ, Росатом, ГПН, Сибур, поучаствовав в решении 30+ реальных задач. Сейчас — консультант DS-проектов в промышленности, преподаватель. Больше информации обо мне можно найти на моем сайте ykatser.github.io.
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
🗂 Оглавление постов канала по темам
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍7❤3🤓1
В этом видео я рассказываю, почему машинное обучение и анализ данных нужны везде, почему нужен work-life balance, какую роль в жизни играет спорт и немного о своем пути в профессии. В конце даже шучу.
YouTube
Молодые ученые России. Эксперт по ИИ Юрий Кацер / Выпуск #7
В рубрике «Молодой ученый» Юрий Кацер — эксперт отдела искусственного интеллекта компании «Цифрум» (Росатом) и аспирант программы «Вычислительные системы и анализ данных в науке и технике» Сколтеха — рассказывает, почему машинное обучение и анализ данных…
👍8🔥2🤩2❤1
А вот интервью по теме
Please open Telegram to view this post
VIEW IN TELEGRAM
student.skoltech.ru
Iurii Katser and Viacheslav Kozitsin (RUS)
Путь в Сколтех лежит через хакатон
🔥5🥰3❤2
Личное/О себе
• Интервью для проекта homo science
Хакатоны
• Интервью «Путь в Сколтех через хакатон»
• 5 историй с хакатонов
• Предиктивная аналитика эксгаустеров: часть 1, часть 2
Кейсы применения машинного обучения и data science
• Список материалов и кейсов применения ML и DS в промышленности
• Диагностика электролизеров на производстве ядерного топлива и подходы к решению задачи поиска аномалий
• Диагностика трансформаторов: часть 1, часть 2, часть 3, часть 4
• Диагностика нефтегазовых трубопроводов с помощью машинного обучения: часть 1, часть 2
• Диагностика двигателей самолетов
Предиктивная аналитика и ML/DS задачи
• Подкаст «Будь что будет» о предиктивной аналитике
• Точечные vs коллективные аномалии: возможные задачи и пути их решения
• Все о задаче changepoint detection
• Глубокое обучение в поиске аномалий временных рядов
• Гайд для погружения в поиск аномалий во временных рядах
• Все, что вы хотели знать о задаче остаточного ресурса оборудования
Временные ряды и другие данные
• Библиотеки и инструменты для работы с временными рядами
• Аугментация временных рядов
• Качество и предварительная обработка временных рядов. Часть 1 - Введение, Часть 2 - Обзор методов предварительной обработки данных
• Обзор открытых промышленных данных
Образование в data science
• Источники для изучения DS (книги, курсы и тд)
• Конференции с кейсами применения ML в промышленности
Please open Telegram to view this post
VIEW IN TELEGRAM
👏11🥰4🔥3👍1
🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение на GitHub) в различных отраслях промышленности.
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
📁 Статья на vc и постоянно пополняющийся репозиторий на гитхабе
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Список материалов и кейсов применения ML и DS в промышленности — Yuriy Katser на vc.ru
Мне кажется, что пост может быть полезен как начинающим специалистам или студентам, так и опытным дата сайентистам или руководителям разного уровня. Я сам прошел путь от джуна до руководителя, и мне кажется, что польза может заключаться в следующем:
🔥8❤5👍3🥰1
🗣Анонс выступления
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Telegram
DataStart | 3 июля | конференция Data Science
К нам в программу конференции 26 апреля врывается новый спикер!
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
👍7🔥4❤2
Вообще, тема временных рядов не такая уж и популярная, поэтому я собираю для себя разные материалы в этом репозитории на гитхабе, а также в моих звездах на гитхабе (но там большинство репозиториев не для новичков!).
Please open Telegram to view this post
VIEW IN TELEGRAM
Tproger
Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома
Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно.
🔥8👍5👏4
Подкаст о том, как Data Science и предиктивная аналитика помогают понять, через сколько выгорит сотрудник? Откуда интернет-магазины знают, что вам нужна не пряжа, а пена для бритья? И почему мы до сих пор не смогли предсказать все? Поговорили об этих и других вопросах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👏3
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
5 историй с хакатонов — Yuriy Katser на vc.ru
Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились…
🔥8👍4👏3❤🔥1
На мой взгляд, получилось неплохое дополнение к очень познавательному Циклу постов о подготовке данных, рекомендую почитать: пост 1, пост 2, пост 3.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Reliable ML
Точечные vs коллективные аномалии: возможные задачи и пути их решения
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
👍6🔥4👏4
Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.
При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP
Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.
Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤3🔥3
Так как моя научная деятельность и диссертация связаны с алгоритмами обнаружения аномалий на основе глубокого обучения, я пересмотрел десятки обзоров и сотни (если не тысячи) работ с новыми методами и алгоритмами за последние несколько лет. Вывод примерно один: глубокое обучение лучше классического мл и экспертных/эвристических подходов и в этой области (работа с временными рядами, диагностика и поиск аномалий). То есть понятно, что и мой фокус смещен на выборку статей с глубоким обучением, да и в целом тренд в последние годы такой. При этом не помню статей, где предлагали новый метод, и он не был бы хоть в каких-то условиях лучше бейзлайна или SOTA моделей — иначе зачем вообще эта статья? Последняя мысль, кстати, очень спорная, но об этом другой раз. Вообщем отсюда и взялось, что глубокое обучение бьет все классические алгоритмы.
А как на самом деле?
На практике в проектах ты не всегда успеваешь дойти и повозиться с новыми сетками (и так надо с данными разобраться, с разметкой, бумажными журналами, с постановкой задачи, бейзлайны, бизнес-логика, физика и технология процесса и тд). В лучшем случае после бейзлайна без мл, простых постановок задач и линейных моделей, деревянных моделей, эвристик ты доходишь до рекуррентных сетей простой архитектуры (пара последовательных LSTM слоев или автоэнкодер с LSTM слоями, или даже FF автоэнкодер). Даже простые сетки не всегда хорошо работают, а более сложные иногда и отучить нормально не получается. Это происходит из-за проблем в данных (доклад, статья), небольших объемов, проблем с трансфером знаний даже между единицами оборудованием одной модели.
Поэтому по-прежнему классические алгоритмы, экспертные правила и эвристики активно используются как минимум в промышленности.
Неужели научные статьи врут?
Не совсем так. Я выделяю большую проблему с публичными данными и бенчмарками, на которых в статьях показаны результаты. Совсем мало публичных качественных датасетов в области временных рядов, в области аномалии, в области промышленности и технических систем. Поэтому и в работах часто показаны результаты в очень ограниченных условиях, на каких-то синтетических или сгенерированных данных.
Интересное исследование
Хочу поделиться одним обзором работ поиска аномалий во временных рядах 2022 года. Сравнения были проведены для 71 (очень много!) алгоритма на 976 датасетах (это всего 23 бенчмарка, но согласитесь, что 900+ звучит солиднее!). Картинка из этой статьи с многообразием и классификацией алгоритмов будет в следующем посте. Мне она так понравилась, что теперь использую ее во всех докладах по теме. Нам интересны выводы по итогам сравнения, дальше цитата из статьи:
“we found that deep learning approaches are not (yet) competitive despite their higher processing effort on training data. We could also confirm that “simple methods yield performance almost as good as more sophisticated methods”. Still, no single algorithm clearly performs best.”
То есть по-прежнему нет серебряной пули или явных лидеров как в классическом ML с их бустингами, да и превосходство глубокого обучения пока не подтверждается. Так что подход как и раньше — перебор алгоритмов, пока один не окажется лучше для вашей конкретной задачи и ваших конкретных данных, а опыт и экспертные/доменные знания все еще важен и может бить большие модели. Но, думаю, это не на долго.
Please open Telegram to view this post
VIEW IN TELEGRAM
👏7👍5🔥3❤🔥1