Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях. В рамках рабочих обязанностей занимался задачами поиска аномалий, прогнозирования, определения остаточного ресурса и другими задачами машинного обучения в промышленности, в основном связанными с производством. Успел поработать с данными НЛМК, ММК, ТМК, ЧТПЗ, ПМХ, Росатом, ГПН, Сибур, поучаствовав в решении 30+ реальных задач. Сейчас — консультант DS-проектов в промышленности, преподаватель. Больше информации обо мне можно найти на моем сайте ykatser.github.io.
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
🗂 Оглавление постов канала по темам
Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍7❤3🤓1
В этом видео я рассказываю, почему машинное обучение и анализ данных нужны везде, почему нужен work-life balance, какую роль в жизни играет спорт и немного о своем пути в профессии. В конце даже шучу.
YouTube
Молодые ученые России. Эксперт по ИИ Юрий Кацер / Выпуск #7
В рубрике «Молодой ученый» Юрий Кацер — эксперт отдела искусственного интеллекта компании «Цифрум» (Росатом) и аспирант программы «Вычислительные системы и анализ данных в науке и технике» Сколтеха — рассказывает, почему машинное обучение и анализ данных…
👍8🔥2🤩2❤1
А вот интервью по теме
Please open Telegram to view this post
VIEW IN TELEGRAM
student.skoltech.ru
Iurii Katser and Viacheslav Kozitsin (RUS)
Путь в Сколтех лежит через хакатон
🔥5🥰3❤2
Личное/О себе
• Интервью для проекта homo science
Хакатоны
• Интервью «Путь в Сколтех через хакатон»
• 5 историй с хакатонов
• Предиктивная аналитика эксгаустеров: часть 1, часть 2
Кейсы применения машинного обучения и data science
• Список материалов и кейсов применения ML и DS в промышленности
• Диагностика электролизеров на производстве ядерного топлива и подходы к решению задачи поиска аномалий
• Диагностика трансформаторов: часть 1, часть 2, часть 3, часть 4
• Диагностика нефтегазовых трубопроводов с помощью машинного обучения: часть 1, часть 2
• Диагностика двигателей самолетов
Предиктивная аналитика и ML/DS задачи
• Подкаст «Будь что будет» о предиктивной аналитике
• Точечные vs коллективные аномалии: возможные задачи и пути их решения
• Все о задаче changepoint detection
• Глубокое обучение в поиске аномалий временных рядов
• Гайд для погружения в поиск аномалий во временных рядах
• Все, что вы хотели знать о задаче остаточного ресурса оборудования
Временные ряды и другие данные
• Библиотеки и инструменты для работы с временными рядами
• Аугментация временных рядов
• Качество и предварительная обработка временных рядов. Часть 1 - Введение, Часть 2 - Обзор методов предварительной обработки данных
• Обзор открытых промышленных данных
Образование в data science
• Источники для изучения DS (книги, курсы и тд)
• Конференции с кейсами применения ML в промышленности
Please open Telegram to view this post
VIEW IN TELEGRAM
👏11🥰4🔥3👍1
🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение на GitHub) в различных отраслях промышленности.
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
📁 Статья на vc и постоянно пополняющийся репозиторий на гитхабе
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
Список материалов и кейсов применения ML и DS в промышленности — Yuriy Katser на vc.ru
Мне кажется, что пост может быть полезен как начинающим специалистам или студентам, так и опытным дата сайентистам или руководителям разного уровня. Я сам прошел путь от джуна до руководителя, и мне кажется, что польза может заключаться в следующем:
🔥8❤5👍3🥰1
🗣Анонс выступления
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»
Когда?
26 апреля 2023 в 14.00
Где?
Онлайн конференция DataStart
О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
Telegram
DataStart | 3 июля | конференция Data Science
К нам в программу конференции 26 апреля врывается новый спикер!
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
Юрий Кацер - Co-founder waico.tech, DS в Skoltech. Ведет свой канал, где пишет про работу с данными, особенности data science в промышленности, управление проектами, хакатоны, кейсы и образование…
👍7🔥4❤2
Вообще, тема временных рядов не такая уж и популярная, поэтому я собираю для себя разные материалы в этом репозитории на гитхабе, а также в моих звездах на гитхабе (но там большинство репозиториев не для новичков!).
Please open Telegram to view this post
VIEW IN TELEGRAM
Tproger
Как упростить работу с временными рядами: 14 библиотек от эксперта Росатома
Временные ряды — важный инструмент в Data Science. Росатом рассказывает, как работать с ними эффективно.
🔥8👍5👏4
Подкаст о том, как Data Science и предиктивная аналитика помогают понять, через сколько выгорит сотрудник? Откуда интернет-магазины знают, что вам нужна не пряжа, а пена для бритья? И почему мы до сих пор не смогли предсказать все? Поговорили об этих и других вопросах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7❤3👏3
Please open Telegram to view this post
VIEW IN TELEGRAM
vc.ru
5 историй с хакатонов — Yuriy Katser на vc.ru
Всем привет! Меня зовут Юрий Кацер, я являюсь сооснователем waico.tech. Вообще, Waico начало свою историю с хакатона 2025, проходившего в “Сколково” (об этом немного в этой статье). С 2019 по 2021 год мы поучаствовали более, чем в 15 хакатонах и становились…
🔥8👍4👏3❤🔥1
На мой взгляд, получилось неплохое дополнение к очень познавательному Циклу постов о подготовке данных, рекомендую почитать: пост 1, пост 2, пост 3.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Reliable ML
Точечные vs коллективные аномалии: возможные задачи и пути их решения
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
Партнерский пост к циклу Reliable ML про необычные значения в данных от Юрия Кацера, автора тг-канала @DataKatser
Часто термины аномалии и выбросы используют взаимозаменяемо (Aggarwal…
👍6🔥4👏4
Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.
При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP
Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.
Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10❤3🔥3