Katser
2.26K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
Channel created
Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях. В рамках рабочих обязанностей занимался задачами поиска аномалий, прогнозирования, определения остаточного ресурса и другими задачами машинного обучения в промышленности, в основном связанными с производством. Успел поработать с данными НЛМК, ММК, ТМК, ЧТПЗ, ПМХ, Росатом, ГПН, Сибур, поучаствовав в решении 30+ реальных задач. Сейчас — консультант DS-проектов в промышленности, преподаватель. Больше информации обо мне можно найти на моем сайте ykatser.github.io.

Зачем этот канал?
Помимо работы над проектами я занимался преподавательской деятельностью, публичными выступлениями, написанием постов и статей по теме data science с основным фокусом на временных рядах и применении DS в промышленности. Поэтому у меня накопился багаж материала на различных площадках, который хотелось бы собрать в одном месте с какими-то обновлениями и моими комментариями. То есть основная цель — собрать и как-то структурировать все публикации и выступления. Но не спешите радоваться! Надеюсь, периодически я буду писать уникальные посты на канал на темы:
• Работа с данными (качество, проблемы, предварительная обработка, библиотеки)
• Особенности и библиотеки для временных рядов
• Особенности data science в промышленности
• Управление проектами
• Кейсы data science
• Образование в data science
• Хакатоны

🗂 Оглавление постов канала по темам
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍73🤓1
Katser pinned «Привет! Меня зовут Юрий Кацер @ykatser, я — эксперт по машинному обучению и анализу данных в задачах промышленности. За последние 6 лет прошел путь от джуниор дата-сайентиста до руководителя направления предиктивной аналитики в российских промышленных компаниях.…»
👨‍💻Хакатоны всегда занимали особую часть моей жизни, правда в последнее время все меньшую. К сожалению. Ведь благодаря хакатонам я поступил в сколтех, прокачал софт скиллы и менеджерские навыки. Так что всем рекомендую, особенно молодым специалистам.

А вот интервью по теме
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5🥰32
🗂 Оглавление

Личное/О себе
Интервью для проекта homo science

Хакатоны
Интервью «Путь в Сколтех через хакатон»
5 историй с хакатонов
• Предиктивная аналитика эксгаустеров: часть 1, часть 2

Кейсы применения машинного обучения и data science
Список материалов и кейсов применения ML и DS в промышленности
Диагностика электролизеров на производстве ядерного топлива и подходы к решению задачи поиска аномалий
• Диагностика трансформаторов: часть 1, часть 2, часть 3, часть 4
• Диагностика нефтегазовых трубопроводов с помощью машинного обучения: часть 1, часть 2
Диагностика двигателей самолетов

Предиктивная аналитика и ML/DS задачи
Подкаст «Будь что будет» о предиктивной аналитике
Точечные vs коллективные аномалии: возможные задачи и пути их решения
Все о задаче changepoint detection
Глубокое обучение в поиске аномалий временных рядов
Гайд для погружения в поиск аномалий во временных рядах
Все, что вы хотели знать о задаче остаточного ресурса оборудования

Временные ряды и другие данные
Библиотеки и инструменты для работы с временными рядами
Аугментация временных рядов
• Качество и предварительная обработка временных рядов. Часть 1 - Введение, Часть 2 - Обзор методов предварительной обработки данных
Обзор открытых промышленных данных

Образование в data science
Источники для изучения DS (книги, курсы и тд)
Конференции с кейсами применения ML в промышленности
Please open Telegram to view this post
VIEW IN TELEGRAM
👏11🥰4🔥3👍1
🔎 Несколько лет назад очень разлетелся этот пост под названием “Применение машинного обучения и Data Science в промышленности” (перевод англоязычного поста). Это большой список ссылок с примерами применения AI/ML/DS (обязательно код на python и размещение на GitHub) в различных отраслях промышленности.
Несмотря на большую популярность и неплохие отзывы про пост в целом, в главе “Производство” очень не хватает полезных материалов. Захотелось это исправить и сделать более полный, качественный и, в итоге, полезный список, пусть и заменяющий всего одну главу исходного.

📁 Статья на vc и постоянно пополняющийся репозиторий на гитхабе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥85👍3🥰1
🗣Анонс выступления

Что?
Доклад «Опыт проектов с машинным обучением и data science в промышленности»

Когда?
26 апреля 2023 в 14.00

Где?
Онлайн конференция DataStart

О чем?
Расскажу о своем опыте проектов с искусственным интеллектом и анализом данных в промышленности. Фокус доклада на особенностях и барьерах при внедрении указанных технологий на производства с рекомендациями по их преодолению. Также будет немного об управлении проектами и полезные материалы по близким темам.
👍7🔥42
📉 Почти год назад я также выступал на конференции Datastart, правда с техническим докладом “Библиотеки для работы с временными рядами на Python”. После этого даже выпустил статью (с помощью редакции tproger), которую можно почитать по ссылке. В статье, как и в докладе, я рассказываю о задачах, которые ставятся на временных рядах, а также о не самых популярных библиотеках, позволяющих решать обозначенные задачи. Статья определенно имеет потенциал для улучшения, но в качестве ознакомительного с темой обзорного материала вполне подойдет.
Вообще, тема временных рядов не такая уж и популярная, поэтому я собираю для себя разные материалы в этом репозитории на гитхабе, а также в моих звездах на гитхабе (но там большинство репозиториев не для новичков!).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍5👏4
🎙Научпоп разговор про предиктивную аналитику в нашей жизни.

Подкаст о том, как Data Science и предиктивная аналитика помогают понять, через сколько выгорит сотрудник? Откуда интернет-магазины знают, что вам нужна не пряжа, а пена для бритья? И почему мы до сих пор не смогли предсказать все? Поговорили об этих и других вопросах.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥73👏3
👨‍💻Закончил статью про проблемы на хакатонах, снижающие прозрачность процессов и прогнозируемость результатов. По сути перечисляю 🚩рэд флэги, которые надо держать в уме, а, если они встретились — взвешивать риски. Ведь рандом может быть как в плюс, так и стать серьезным разочарованием по итогам (особенно, когда млн рублей на кону, а решает все случайный человек).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8👍4👏3❤‍🔥1
📈Написал пост по теме "Точечные vs коллективные аномалии: возможные задачи и пути их решения" на канале Reliable ML. К посту еще и схема прилагается!
На мой взгляд, получилось неплохое дополнение к очень познавательному Циклу постов о подготовке данных, рекомендую почитать: пост 1, пост 2, пост 3.

🗣А еще скоро выступаю у ребят в одноименном треке на DataFest'е, но об этом поговорим попозже.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6🔥4👏4
📉 Аугментация временных рядов

Сегодняшние достижения в области ИИ просто невозможно представить без больших объемов данных (для обучения DALL-E использовались 250 млн пар картинка-описание, это очень много!). Вот области компьютерного зрения (CV) и обработки естественного языка (NLP) в основном не страдают от недостатка больших датасетов (корпусов текстов, наборов изображений и тд). Но в области временных рядов ситуация не такая радужная.

При этом не всегда важно собирать огромный датасет из реальных примеров текстов и изображений, хотя это и идеальный сценарий. Иногда можно аугментировать данные, то есть искусственно создать или синтезировать примеры, что может помочь в отсутствии больших датасетов. Понаучней определение аугментации возьмем из обзора: “The basic idea of data augmentation is to generate synthetic dataset covering unexplored input space while maintaining correct labels.”
Если рассмотреть аугментацию на примере изображений, то одним из простейших методов будет геометрическое преобразование: зеркальное отражение картинки (по вертикали или горизонтали) или поворот на 90/180/270 градусов. Это уже увеличивает количество доступных данных для обучения в 2 и более раза. В текстах можно переставлять слова в предложении. Подробнее об аугментации этих типов данных, включая подходы, код и библиотеки, можно почитать по ссылкам: CV и NLP

Но вернемся к временным рядам: и здесь опять все не очень хорошо. Аугментировать их сложнее, потому что, датасеты не такие большие и сильно отличаются между собой в зависимости от задачи и доменной области. Более того, в научных статьях постоянно пишут, что область аугментации временных рядов недоисследована. Это косвенно подтверждается и малым количеством open-source разработок для аугментации временных рядов в противовес CV и NLP. Но есть пара неплохих обзоров (раз, два) методов аугментации временных рядов. Обзоры совсем свежие — 2021-22 годов, немного по-разному классифицируют методы. В последнем, например, выделяют 3 основные группы:
• Классические преобразования (представлены на картинке в следующем посте)
• VAE
• GAN
Для деталей стоит почитать оригинальный обзор.

Из инструментов для аугментации временных рядов на python встречал только два:
• [3,4k звезд на гитхабе] https://github.com/timeseriesAI/tsai
• [300 звезд на гитхабе] https://github.com/arundo/tsaug
Please open Telegram to view this post
VIEW IN TELEGRAM
👍103🔥3