Katser
2.28K subscribers
93 photos
7 videos
10 files
137 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
🚩Обнаружение фрода и мошенничества. ч.2

Пара дополнений к посту про обнаружение фрода. Наткнулся, когда разбирал старые ссылки.

Как я всегда говорю, практика — лучший способ погрузиться в ML и чему-то научиться. А если нужна практика, то стоит вспомнить про kaggle. Так вот, на kaggle проводилось несколько соревнований по банковскому фроду *⃣
Делюсь обзорным постом с материалами по фроду. Решения победителей, сами соревнования и еще пара полезных ссылок.

Еще одна ссылка — это подробнейший гайд по решению соревнования IEEE-CIS Fraud Detection от топ-1 #️⃣
Гайд довольно общий и масштабируется на любые DS соревнования.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥8👏2
🗣Конференции и секции с кейсами применения ML в промышленности. Часть 2
Дополняю свой пост про конференции.

• Уже ежегодный трек ML в промышленности на Datafest'е 2024 доступен по ссылке.

• Доклады по данной теме часто встречал на конференциях от Ontico (TeamLeadConf, HighLoad). В прошлом году коллеги организовывали byteoilconf.ru (помечаем как отраслевую в нефтегазе), видео с нее доступны на ютуб канале, а с этого года появилась industrialconf.ru. За этой конференцией буду следить не только со стороны, но и изнутри, так как являюсь членом программного комитета. 🤓

• Кроме industrialconf встретить отдельные доклады про ML в промышленности можно и на TeamLeadConf, и на HighLoad, и на aiconf.ru. Я тоже на одной из них обязательно выступлю, но пока не совпадает расписание.

Появляются новые большие конференции, значит растет интерес к теме, а это не может не радовать❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12👍3💯2
🤏Оценка схожести временных рядов

Я ранее рассказывал о библиотеках для решения задач кластеризации и классификации временных рядов. Но что, если нам хочется решить задачу, не применяя эти библиотеки?

🔘Один из подходов: при наличии возможности агрегировать временные ряды и решать задачу как классическую, на табличных данных. Писал о таком примере здесь.

🔘Другой вариант: считать расстояние (меру близости) между временными рядами и кластеризовать/классифицировать их на основе этого расстояния. Делюсь репозиторием, где очень просто и наглядно показано, как считать расстояние (Евклидово и DTW) и как решать на их основе задачу классификации (kNN) и кластеризации (k-means). Для матриц (многомерных временных рядов) можно посчитать норму Фробениуса или другие меры близости.

Еще эти меры близости можно использовать для оценки качества генерации и аугментации временных рядов, о чем упоминал здесь.

А как, думаете, классификация/кластеризация временных рядов в этих библиотеках работает "под капотом"?
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥84👍4
🗃 Библиотеки для работы с временными рядами

Сделал удобную и наглядную визуализацию к этому посту.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥31👍9👏31
Reinforcement learning в промышленности

Нефтегазовая отрасль и энергетика готовы к RL (но успешных кейсов почти нет)

писал я в этом посте, дополняя информацию из Альманаха ИИ №7. В комментариях как раз возникла дискуссия на тему RL.

Я для вас с новым кейсом. В посте (и Альманахе) пример применения RL в бурении приводится на основе компании Shell, но вот появился доклад, как этой темой занимаются в Газпроме. Эффектов и других бизнес показателей нет, потому что, судя по всему, проект в виде НИРа, и про внедрение речь не идет. Зато есть детали по самим алгоритмам и техническим результатам. Отличное дополнение к кейсам из поста, но еще одно доказательство, что пока само внедрение затруднено или ограничено. Некоторые кейсы RL в Российской промышленности — фактически НИРы без внедрения. Скучно становится DSам в промышленности, понимаю.🧐 Хотя, может, вы поправите меня в комментариях?

Ну а для погружения в RL и доклад можете посмотреть, и Альманах почитать. 👨‍💻
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13🔥3🤔2👏1
🏛 Машинное обучение (ML) в инженерных приложениях: кейс применения

В докладе представлен наглядный пример создания ML-модели для апроксимации физической модели. Этот кейс скорее игрушечный, но он отлично подходит для вкатывания в тему и дополняет мой прошлый пост про ML в инженерных приложениях.

Для лучшего понимания того, где может быть применено машинное обучение для апроксимации, можно посмотреть научпоп лекцию Дмитрия Фомичева про мат моделирование. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍53👌1🤝1
📈Задачи на временных рядах

Описал простыми словами специфичные и наиболее распространенные задачи, которые формулируются и решаются при работе с временными рядами. Полезное дополнение для этого и этого постов, в которых вы найдете методы и инструменты для решения задач.

Задачу аугментации наглядно демонстрировал в этом посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8💯4
ИИ в промышленности.pdf
212.6 KB
ИИ в промышленности по данным разных аналитических отчетов. Часть 4
Части 1, 2.1, 2.2, 3

Полезный документ от АНО Цифровая экономика с отсортированным по отраслям списком кейсов ИИ в промышленности в России на 02.08.24. В дополнение к нему отчет 📁
Кейсы — это хорошо, но еще лучше послушать доклад от разработчиков и почитать статью на хабре. Как раз такой список материалов я собираю с своем репозитории. Ну и дополняю его регулярно, что тоже важно.

Ранее объяснял в этом посте, почему насмотренность кейсов и чужой опыт важны❗️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍9👌5❤‍🔥1👏1
📺Вышел мой доклад про RUL на DataFest'е '24.

Надеюсь, это последний раз, когда я рассказываю про RUL (уже были пост в канале, статья №1 на хабр, статья №2 на хабр, доклад на ИИшнице and counting...), но каждый раз хочется слегка улучшить и дополнить материал.🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15🔥73🥰1
Трансформеры для прогнозирования временных рядов. Часть 1

Я ранее писал о том, как Deep learning и трансформеры не бьют классические подходы и даже эвристики доменных областей. На мой взгляд, это актуально и в промышленности, и для многих задач на временных рядах, включая задачу поиска аномалий.
📎А в свете активного развития LLM и новых архитектур (пример TimeGPT и Time-LLM) не лишним будет внимательно изучить этот репозиторий с 60+ статьями про то, как трансформеры и LLM не работают❗️ для прогнозирования временных рядов. Про то, что работает, в репозитории тоже есть.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23🔥8💯62
Трансформеры для прогнозирования временных рядов. Часть 2

Свежая, не вошедшая в список из предыдущего поста (Часть 1) статья "Are Language Models Actually Useful for Time Series Forecasting?" (текст, репозиторий). Не будет лишним для погружения в тему.

Авторы выделяют следующие моменты:
• Ablation studies: Removing or replacing the LLM components with simpler structures (like basic attention layers) often resulted in improved performance, challenging the assumed superiority of LLMs.
 • Computational costs: The study highlights that LLMs significantly increase computational costs without corresponding improvements in forecasting accuracy. Simpler models reduced training and inference time by up to three orders of magnitude.
 • Performance comparison: In most cases, simpler models outperformed LLM-based methods across eight standard datasets. For instance, ablations (w/o LLM, LLM2Attn, LLM2Trsf) outperformed Time-LLM in 26/26 cases, LLaTA in 22/26 cases, and OneFitsAll in 19/26 cases.
 • Impact of pretraining: Pretraining LLMs on language data did not provide a significant advantage for time series forecasting tasks. Models trained from scratch performed equally well or better.
 • Few-shot learning: LLMs did not perform well in few-shot learning scenarios, indicating that their sequence modeling capabilities from text do not transfer effectively to time series data.


Речь опять о прогнозировании, но авторы отмечают, что надо расширять анализ и на другие задачи на временных рядах, например, классификацию. 🤌
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥10👌5👍3👏2❤‍🔥1
Классификация аномалий и задач в области поиска аномалий

Про классификацию аномалий я часто рассказываю в своих докладах (раз, два). Я также писал пост в канал Reliable ML, где затрагивал эту тему. Пришло время собрать всю информацию по теме в один пост. Я, как обычно, опираюсь на классический обзор, немного его дополняя.

🟡По типу обработки информации (Processing type). Существуют оффлайн и онлайн варианты задачи.
· Оффлайн задача (=сегментация) ставится при наличии полного набора данных, поэтому можно получить оптимальное решение.
· Онлайн ставится, когда данные поступают поточечно (real-time) или батчами, а начало аномалии (точка изменения) должно детектироваться с минимальным запаздыванием.

🟣По типу данных (Data). Один из вариантов классификации — на структурированные, полуструктурированные и неструктурированные (подробнее здесь). Но более полезной кажется классификация по модальности, поскольку методы поиска аномалий для разных модальностей часто существенно различаются.
· Табличные: это данные, структурированные в строки, каждая из которых содержит информацию об отдельном объекте.
· Временной ряд: это одномерные или многомерные данные, наблюдаемые во времени последовательным образом. В идеальных случаях данные наблюдаются через заранее определенные и равные промежутки времени (например, ежегодно или ежечасно).
· Аудио: это особый случай данных временных рядов, где собираемым признаком является звук. Более подробную информацию о том, что такое звук и аудио, можно найти здесь.
· Изображения: это тензор или многомерный массив, где два измерения (строки и столбцы) представляют собой пространственные координаты (оси x и y), а третье представляет интенсивность или уровень серого.
· Видео: обычно это комбинированный тип аудио и временных рядов изображений (каждый экземпляр относится к типу изображения).
· Текст: это либо отдельные слова, либо слова, объединенные в фразы, предложения и тексты.

📎Полезная статья о типах данных с точки зрения машинного обучения.

🔵По наличию разметки данных (Modes by data labels). Можно разделить на с учителем (supervised), с частичным привлечением учителя (semi-supervised) и без учителя (unsupervised).
· Обучения с учителем: требуется, чтобы все данные (как нормального, так и аномального класса) были размечены.
· Обучение с частичным привлечением учителя: обычно речь идет о необходимости иметь часть размеченных данных для каждого класса, но для поиска аномалий чаще всего речь идет о наличии полностью размеченного нормального класса.
· Обучение без учителя: нет разметки ни одного класса. Эти методы часто основаны на предположении, что количество аномальных случаев намного меньше обычных.

🟢Вывод алгоритмов (AD algorithm output). Существует два основных типа вывода результатов алгоритмов:
· Оценка (score) аномальности: алгоритм выдает для каждой точки степень аномальности. Это позволяет гибко определять границу аномальности на этапе постобработки и, например, управлять ошибками 1го и 2го рода.
· Метки классов: алгоритм выводит для каждой точки метку класса (0/1 или нормальный/аномальный).

🔴Тип аномалии (Anomaly type). Часто выделяют точечные, коллективные и контекстуальные аномалии.
· Если одна точка демонстрирует аномальное поведение по отношению к остальным данным, то ее называют точечной аномалией.
· Если набор последовательных точек демонстрирует аномальное поведение по отношению к остальным данным, то этот набор точек называют коллективной аномалией.
· В случае, если аномальность данных заметна только в контексте соседних точек, говорят о контекстуальных аномалиях. К этому типу могут относиться как точечные, так и коллективные аномалии.

🔵Область применения (Application domain). В зависимости от конкретной области знаний или отрасли экономики аномалии можно разделить на различные типы: фрод, кибер-атаки, поломки оборудования и другие. Эти типы относятся к различной природе возникновения аномалий и подразумевают, что следует использовать различные методы поиска аномалий и эвристики предметной области.
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12👍6❤‍🔥32
📸Визуализация классификации аномалий и характеристик задач в области поиска аномалий
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6❤‍🔥2👏2
🤩 Платные реакции в телеграм

Павел Дуров под стражей, а значит самое время инвестировать в тг-валюту! На самом деле просто я изучаю новый функционал тг

Возможно, вы уже заметили появление золотых звезд среди обычных реакций на посты в телеграм-каналах. Теперь каждый желающий может приобрести эти звезды и использовать их, чтобы выразить поддержку понравившимся публикациям. Авторы каналов могут отслеживать свои звездные накопления в настройках и использовать их для покупки рекламы в телеграме или конвертации в тг-крипту. Поддержка небольшая, но все равно приятно, и пойдет она в любом случае на развитие канала.

Я подключил платные реакции и уже успел собрать несколько звезд — спасибо вам! ⭐️
Сам планирую поддерживать тех авторов, которые действительно вызывают у меня интерес.
Please open Telegram to view this post
VIEW IN TELEGRAM
27👍12👏5👎3🥰2💩1