Katser
2.28K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
FDD chiang2001.pdf
23.2 MB
📚Хочу поделиться тремя книгами, которые помогли мне на ранних стадиях погружения в промышленный МЛ и в техническую диагностику в частности.

🔴“Introduction to STATISTICAL QUALITY CONTROL”
На мой взгляд, это наиболее полная книга по классическим статистическим методам анализа процессов, включая контрольные карты. В ней подробно изложена необходимая математическая база и описано множество нюансов, таких как локализация проблемных сигналов для метода Хотеллинга, которые раньше приходилось искать в десятках разных статей и собирать по крупицам. Здесь же все собрано в одном месте! К тому же книга очень легко читается.

🟡“Unsupervised Process Monitoring and Fault Diagnosis with Machine Learning Methods“
В этой книге подробно рассматривается множество базовых концептов и подходов в диагностике, сопровождаясь математическими выкладками. Описано большое количество используемых методов: от простых статистических методов анализа до машинного обучения и более сложных алгоритмов.

🔵“Fault Detection and Diagnosis in Industrial Systems”
Эта книга более компактная по сравнению с предыдущими: меньше материала и методов. Однако она оказалась для меня очень полезной, так как содержит все основные концепты и методы, минимум лишнего и множество практических примеров (на данных Tennessee Eastman Process).

💭 Для получения базовых знаний эти книги подходят лучше большинства научных статей и доступных в интернете материалов, но многих современных методов там, конечно, нет. Нет там и очень глубокого погружения в различные домены, а также в некоторые важные направления диагностики, типа диагностики электротехнического оборудования или диагностики вращающихся частей. Для этого нужна более специализированная литература, хотя это уже скорее не про ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥38👍1343🆒1
🚩Обнаружение фрода и мошенничества. ч.2

Пара дополнений к посту про обнаружение фрода. Наткнулся, когда разбирал старые ссылки.

Как я всегда говорю, практика — лучший способ погрузиться в ML и чему-то научиться. А если нужна практика, то стоит вспомнить про kaggle. Так вот, на kaggle проводилось несколько соревнований по банковскому фроду *⃣
Делюсь обзорным постом с материалами по фроду. Решения победителей, сами соревнования и еще пара полезных ссылок.

Еще одна ссылка — это подробнейший гайд по решению соревнования IEEE-CIS Fraud Detection от топ-1 #️⃣
Гайд довольно общий и масштабируется на любые DS соревнования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥8👏2
🗣Конференции и секции с кейсами применения ML в промышленности. Часть 2
Дополняю свой пост про конференции.

• Уже ежегодный трек ML в промышленности на Datafest'е 2024 доступен по ссылке.

• Доклады по данной теме часто встречал на конференциях от Ontico (TeamLeadConf, HighLoad). В прошлом году коллеги организовывали byteoilconf.ru (помечаем как отраслевую в нефтегазе), видео с нее доступны на ютуб канале, а с этого года появилась industrialconf.ru. За этой конференцией буду следить не только со стороны, но и изнутри, так как являюсь членом программного комитета. 🤓

• Кроме industrialconf встретить отдельные доклады про ML в промышленности можно и на TeamLeadConf, и на HighLoad, и на aiconf.ru. Я тоже на одной из них обязательно выступлю, но пока не совпадает расписание.

Появляются новые большие конференции, значит растет интерес к теме, а это не может не радовать❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍3💯2
🤏Оценка схожести временных рядов

Я ранее рассказывал о библиотеках для решения задач кластеризации и классификации временных рядов. Но что, если нам хочется решить задачу, не применяя эти библиотеки?

🔘Один из подходов: при наличии возможности агрегировать временные ряды и решать задачу как классическую, на табличных данных. Писал о таком примере здесь.

🔘Другой вариант: считать расстояние (меру близости) между временными рядами и кластеризовать/классифицировать их на основе этого расстояния. Делюсь репозиторием, где очень просто и наглядно показано, как считать расстояние (Евклидово и DTW) и как решать на их основе задачу классификации (kNN) и кластеризации (k-means). Для матриц (многомерных временных рядов) можно посчитать норму Фробениуса или другие меры близости.

Еще эти меры близости можно использовать для оценки качества генерации и аугментации временных рядов, о чем упоминал здесь.

А как, думаете, классификация/кластеризация временных рядов в этих библиотеках работает "под капотом"?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍4
🗃 Библиотеки для работы с временными рядами

Сделал удобную и наглядную визуализацию к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍9👏31
Reinforcement learning в промышленности

Нефтегазовая отрасль и энергетика готовы к RL (но успешных кейсов почти нет)

писал я в этом посте, дополняя информацию из Альманаха ИИ №7. В комментариях как раз возникла дискуссия на тему RL.

Я для вас с новым кейсом. В посте (и Альманахе) пример применения RL в бурении приводится на основе компании Shell, но вот появился доклад, как этой темой занимаются в Газпроме. Эффектов и других бизнес показателей нет, потому что, судя по всему, проект в виде НИРа, и про внедрение речь не идет. Зато есть детали по самим алгоритмам и техническим результатам. Отличное дополнение к кейсам из поста, но еще одно доказательство, что пока само внедрение затруднено или ограничено. Некоторые кейсы RL в Российской промышленности — фактически НИРы без внедрения. Скучно становится DSам в промышленности, понимаю.🧐 Хотя, может, вы поправите меня в комментариях?

Ну а для погружения в RL и доклад можете посмотреть, и Альманах почитать. 👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3🤔2👏1
🏛 Машинное обучение (ML) в инженерных приложениях: кейс применения

В докладе представлен наглядный пример создания ML-модели для апроксимации физической модели. Этот кейс скорее игрушечный, но он отлично подходит для вкатывания в тему и дополняет мой прошлый пост про ML в инженерных приложениях.

Для лучшего понимания того, где может быть применено машинное обучение для апроксимации, можно посмотреть научпоп лекцию Дмитрия Фомичева про мат моделирование. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍53👌1🤝1
📈Задачи на временных рядах

Описал простыми словами специфичные и наиболее распространенные задачи, которые формулируются и решаются при работе с временными рядами. Полезное дополнение для этого и этого постов, в которых вы найдете методы и инструменты для решения задач.

Задачу аугментации наглядно демонстрировал в этом посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8💯4
ИИ в промышленности.pdf
212.6 KB
ИИ в промышленности по данным разных аналитических отчетов. Часть 4
Части 1, 2.1, 2.2, 3

Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет 📁
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.

Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍9👌5❤‍🔥1👏1
📺Вышел мой доклад про RUL на DataFest'е '24.

Надеюсь, это последний раз, когда я рассказываю про RUL (уже были пост в канале, статья №1 на хабр, статья №2 на хабр, доклад на ИИшнице and counting...), но каждый раз хочется слегка улучшить и дополнить материал.🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥73🥰1
Трансформеры для прогнозирования временных рядов. Часть 1

Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
📎А в свете активного развития LLM и новых архитектур (пример TimeGPT и Time-LLM) не лишним будет внимательно изучить этот репозиторий с 60+ статьями про то, как трансформеры и LLM не работают❗️ для прогнозирования временных рядов. Про то, что работает, в репозитории тоже есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥8💯62
Трансформеры для прогнозирования временных рядов. Часть 2

Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.

Авторы выделяют следующие моменты:
• Ablation studies: Removing or replacing the LLM components with simpler structures (like basic attention layers) often resulted in improved performance, challenging the assumed superiority of LLMs.
 • Computational costs: The study highlights that LLMs significantly increase computational costs without corresponding improvements in forecasting accuracy. Simpler models reduced training and inference time by up to three orders of magnitude.
 • Performance comparison: In most cases, simpler models outperformed LLM-based methods across eight standard datasets. For instance, ablations (w/o LLM, LLM2Attn, LLM2Trsf) outperformed Time-LLM in 26/26 cases, LLaTA in 22/26 cases, and OneFitsAll in 19/26 cases.
 • Impact of pretraining: Pretraining LLMs on language data did not provide a significant advantage for time series forecasting tasks. Models trained from scratch performed equally well or better.
 • Few-shot learning: LLMs did not perform well in few-shot learning scenarios, indicating that their sequence modeling capabilities from text do not transfer effectively to time series data.


Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию. 🤌
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥10👌5👍3👏2❤‍🔥1
Классификация аномалий и задач в области поиска аномалий

Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.

🟡По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.

🟣По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.

📎Полезная статья о типах данных с точки зрения машинного обучения.

🔵По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.

🟢Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).

🔴Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.

🔵Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6❤‍🔥32