Katser
1.46K subscribers
73 photos
5 videos
9 files
98 links
Авторский канал @ykatser по data science, машинному обучению и искусственному интеллекту в основном в задачах промышленности, но не только
Download Telegram
ИИ в промышленности по данным разных аналитических отчетов. Часть 5
Части 1, 2.1, 2.2, 3, 4

Еще один отчет, теперь от Иннополиса. Ключевые моменты на приложенных картинках. Я бы рекомендовал заглянуть в 2 раздела:
🔴Энергетика и ИИ
🔴Промышленность и ИИ

В начале каждого раздела есть интересная информация по ключевым проблемам, трендам отрасли и трендам в направлении ИИ. Сам отчет с упором на патенты, но я большой пользы от патентного ландшафта не вижу, слишком высокая скорость изменений в области ИИ и патенты не раскрывают самые интересные составляющие продуктов — самое интересное всегда под ноу-хау, в опен-сорсе и в научных статьях.

Наверное, какую-то оценку по патентам в технологическом лидерстве делать можно. Напишите, в чем польза в комментах. 🙂

📎Отчет в пдф прикладываю в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
По странному стечению обстоятельств с большим запозданием пишу про интереснейший отчет ИТМО по итогам исследования open-source в России. Ребята давно исследуют тему и сами двигают open-source вперед (например, FEDOT и сообщество @itmo_opensource), писал про это здесь. А я в исследовании участвовал в качестве эксперта (какой open-source, такой и эксперт, хотя может я путаю причину и следствие🤔)
Наш датасет SKAB не рекламировал, но в обзор он все-таки попал, это приятно. Что такое "ядро обнаружения аномалий" я вам не расскажу, так как сам не знаю.😅

Еще недавно давал комментарий к другой статье про open-source (habr, vc), опять жаловался на промышленность. А вообще у автора там серия статей про open-source.

Хотя я не только жалуюсь, но и продолжаю вносить небольшой вклад в open-source в промышленности на кэггле (датасеты) и гитхабе (все остальное).
В одном посте на английском языке собрал основные задачи на временных рядах и библиотеки для автоматизации их решения. При этом слегка обновил опубликованную в канале версию документа.

Кстати, все материалы на английском и часть материалов на русском собираю в линкедине, который на удивление является наиболее эффективным инструментом поиска работы/кадров. Абсолютное большинство предложений о работе в последние пару лет пришло ко мне через линкедин, так что не стоит пренебрегать этой соцсетью. И это я про российский рынок труда 🧐. А еще на линкедине я с удовольствием читаю пару интереснейших блогов про временные ряды и промышленность, так что это теперь для меня еще и источник полезной информации. Может и я начну делать там блог, если телеграм когда-то умрет (ч.1, ч.2 верим?)

PS Добавляйтесь в друзья 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Гибридное моделирование

Как правило, гибридным моделированием называют объединение или ансамблирование подходов физико-математического моделирования (первых принципов) и статистического моделирования/моделирования на данных/машинного обучения. Топ-3 популярных подхода (картинка 1):
🔵 The delta model: например, уточнение физ модели в виде свободного члена (поправки) с помощью ML модели
🟢 Physics-based preprocessing: использование результатов физ-мат моделирования как исходных данных в ML модели
🟡 Feature learning: например, виртуальные датчики, построенные с помощью ML, используются в физ-мат модели

📖 Полезная статья с исторической справкой и объяснением базовых принципов и основных подходов от Bosch AI по ссылке. А для тех, кто хочет гораздо глубже погрузиться в гибридное моделирование подойдет их научная статья.

📖 Ну и напоследок поделюсь статьей про "Обслуживание по состоянию" (CBM) в атомной отрасли. Сам любил ссылаться на статью, так как есть информация по тренду на снижение использование ядерной энергии в мире, потенциальному эффекту от перехода к концепции CBM в США (1 млрд $ в год), обзор основных задач диагностики на АЭС и подходов к диагностике. Ну а нам интереснее SWOT анализ гибридного моделирования (картинка 2) и сравнение с другими подходами.

Мое мнение про гибридное моделирование: в промышленности в большинстве кейсов повышет качество решения задачи, почти всегда работает и повышает доверие к моделям, поэтому стоит пробовать, когда предоставляется возможность.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
Гибридное моделирование
глушения скважин в
условиях АНПД


Кейс применения гибридного моделирования в нефтегазовой отрасли. Проект еще не закончен, по окончании поделюсь финальными результатами.

О докладе: в докладе сотрудники ПИШ НГУ и НОЦ Газпром нефть НГУ Степан Кармушин и Антон Кожухов рассказали о результатах, которых им с командой удалось достичь в рамках решения вызова, связанного с повышением эффективности глушения скважин в сложных геолого-технологических условий. Их решение — гибридное моделирование процесса, объединяющее в себе методы машинного обучения с классическими методами физико-математического моделирования. Разработка ведется в интересах индустриального партнера ПИШ НГУ – компании «Газпром нефть».

Пара полезных научных статей по теме в комментариях👇
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ в промышленности по данным разных аналитических отчетов. Часть 6
Части 1, 2.1, 2.2, 3, 4, 5

🗺Карта цифровизации промышленности от TAdviser. Не ИИ, но тоже интересно. Кстати, перекликается с картой из первого поста цикла.

Карта тоже не без недостатков: Рокет Контрол даже пару отраслевых премий выиграла (раз, два), но в списке не появилась. К тому же странно видеть только некоторых заказчиков, занимающихся цифровизацией (Северсталь, дивизионы Росатома), ведь гораздо больше промышленных компаний имеют свои отделы инноваций/цифровизации. А если речь про то, что они продукты на рынок цифровизации делают, то тогда и Гринатома не хватает и НЛМК свою платформу на рынке предлагала.

Хотя в итоге как всегда познавательно!🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Open-source наработки в промышленности

Одна из мер поддержки опен-сорса в РФ, упомянутая отчете из этого поста, это гранты Код-ИИ. Я и сам участвовал в проекте, получившем такой грант. В этом посте поделюсь парой проектов, получивших грант и относящихся к промышленности.

1️⃣ CVFlow (13 звезд, последний коммит 4 месяца назад) — открытая библиотека CV для промышленности
Github | Youtube

Решает следующие задачи:
🔘Определение положения объектов в пространстве и расстояния между ними
🔘Поиск дефектов и прочих образований на материале
🔘Распознавание номера автомобилей
🔘Распознавание номера вагона поезда
🔘Распознавание QR и штрихкодов
🔘Классификация транспортных средств
🔘Гранулометрия, распознавание размеров однородных объектов
🔘Определения скорости объектов по видеопотоку

Из реально интересных задач: гранулометрия и поиск дефектов на материале.

Из преимуществ: доступны веса предобученных моделей, хотя нет доступных данных.

2️⃣ TSAD — Time Series Analysis for Simulation of Technological Processes (39 звезд, последний коммит 5 месяцев назад) — python библиотека для решения ML задач в промышленности
Github | Youtube

Решает следующие задачи:
🔘Прогнозирование временных рядов
🔘Поиск аномалий
🔘Автоматизированный разведочный анализ данных
🔘Предварительная обработка данных
🔘Визуализация результатов
🔘Оценки качества решения задач, включая специфичные задачи типа changepoint detection

Из преимуществ: неплохая документация, доступны данные, упор на работу с промышленными данными и решение задач PHM (Prognostics and Health Management)

Общий недостаток обеих библиотек: недостаточность функционала и недоработанность кода/подходов. Зато у каждого есть шанс поучаствовать и улучшить библиотеки
Please open Telegram to view this post
VIEW IN TELEGRAM
Привет, друзья! 👋

Приглашаю вас на конференцию Industrial++, которая пройдет 21-22 октября в Москве! Уже упоминал, что я член программного комитета и приложил руку к созданию программы и отбору докладов, чтобы сделать это событие максимально полезным и интересным для всех участников. Для меня интересный опыт побывать с другой стороны, не в качестве докладчика. Здесь вас ждут реальные кейсы и проверенные решения, которые помогают компаниям справляться с разными вызовами, включая импортозамещение. 💻

В программе — 56 докладов, панельные дискуссии и выставка с новейшими разработками. Это отличная возможность узнать, как компании внедряют российские и open source решения, и обменяться опытом с коллегами.
А после первого дня нас ждет афтепати! 🎉

Но я не просто так пишу: промокод YKatser даёт 7% скидки на участие онлайн и офлайн — для физлиц и юрлиц. Самое время успеть купить билеты со скидкой!

До встречи на Industrial++!
https://industrialconf.ru/2024/
Please open Telegram to view this post
VIEW IN TELEGRAM
Трансформеры для прогнозирования временных рядов. Часть 3
Части 1, 2

Завершу пока цикл постов на тему рекомендацией двух отличных докладов от лидирующих в теме компаний в России (Сбер и Т-банк):
Foundation модели: есть ли жизнь во временных рядах
Forecast and chill: Zero-Shot Foundation Models for Time Series

Есть и погружение в тему, и обзоры решений, и разборы архитектур. Подсвечены, кстати, положительные моменты и условия применения таких моделей.

Без лишних слов отправляю вас смотреть и делать свои выводы.
📰Чтиво на выходные: что-то помимо машинного обучения в промышленности

Поделюсь тремя статьями, которые прочитал за последнее время:
🔘How to Give Away a Fortune — статья о том, как девушка решила раздать свое наследство в рамках борьбы с нечестным распределением богатства в Австрии. Собрала даже для этого комитет из людей из разных слоев населения (и потратила на организацию процесса кучу денег). Неоднозначное решение и ее аргументация, равнодушным оставить не должно.
🔘Book Review: Elon Musk — обзор старой биографии от Ashlee Vance. В комментариях говорят, что даже лучше самой книги (но это я проверю за вас — книга ждёт своего часа на полочке). Автор отвечает на свои вопросы цитатами из книги и пытается понять, как Маск добивается успеха, принимая так много плохих решений? Тоже много неоднозначного, но в этом весь Маск.
🔘Can AI Deliver Fully Automated Factories — авторы из BCG настаивают, что несмотря на ряд неудач и пессимизм в создании полностью автономных фабрик, это возможно, и этим нужно заниматься. На примере клиента авторы делятся сложностями и советами, как начать делать подобный процесс. На мой взгляд, слегка поверхностно, мне лично хотелось бы поглубже в технику.

Буду периодически на выходных делиться интересными мне темами вне основных направлений канала. 🤓
Please open Telegram to view this post
VIEW IN TELEGRAM
Байесовские методы в обнаружении точек изменений состояния (changepoint detection)

Согласно определению, поиск точек изменений состояния (changepoint detection) — это метод определения моментов времени, когда распределение вероятностей временного ряда изменяется. В этом посте рассматриваются байесовские методы, предназначенные для решения задачи. Данный подход представляет собой вероятностный метод, который позволяет построить распределение вероятностей нахождения точек изменения в данных, опираясь на априорные знания об этих событиях. Реализация в коде на GitHub по ссылке.

Идея подхода заключается в предположении, что части временного ряда, разбитые точками изменений на непересекающиеся части, состоят из независимых и одинаково распределенных случайных величин. Другими словами, точки изменений являются границами для данных из распределений с разными параметрами.
Если вы знакомы с байесовской статистикой, вы знаете, что построение любой байесовской модели в основном состоит из трех распределений. Априорное распределение h(θ) отражает наши предварительные знания о задаче. Функция правдоподобия f(x|θ) отражает полученные данные и участвует в вычислении апостериорного распределения вероятностей. И апостериорное распределение h(θ|x), которое нас интересует. Суть алгоритма байесовского метода заключается в итеративном обновлении этих вероятностей, при этом ключевым моментом является то, в каком виде задаются априорная вероятность и функция правдоподобия.
📎В статье рекомендуют использовать геометрическое распределение в качестве априорной вероятности, но в целом её выбор зависит от предварительных знаний о данных в задаче, более подробно об этом можно прочитать тут.
Для работы с многомерным временным рядом представлю вам две основные модели, которые отличаются заданием функции правдоподобия:

🔴В модели независимых признаков (Independent Features Model) делается предположение об условной независимости между временными рядами (как в наивном байесовском классификаторе). Преимуществом такого подхода является малое количество данных, необходимых для обучения модели. Но предположение о независимости не позволяет уловить корреляцию между временным рядами, что сказывается на качестве работы модели и является недостатком.

🔴Модель полной ковариации (Full Covariance Model), в отличие от IFM, использует правдоподобие с учетом зависимости между временными рядами. Это сказывается на инференсе модели, а также требует большего количество данных для получения информативных корреляций между рядами.

Предпочтение в выборе модели делается исходя из входных данных в задаче, более подробно узнать о моделях с примерами работы IFM и FCM можно тут.

Байесовские методы в обнаружении точек изменений нашли применение в разных сферах, связанных с анализом временных рядов, преимущественно в промышленности и инженерии. Данный подход, при предварительной обработке данных, позволяет добиться сравнительно высокого качества работы модели (топ-1 без тюнинга на SKAB). Как и любая статистическая модель, байесовские методы требуют меньшего количества входных данных для работы и более интерпретируемы, чем DL-подходы. Из минусов данного алгоритма стоит отметить его квадратичную временную сложность и сильную зависимость от выбора априорной вероятности. Для того чтобы получить более полное представление о методах обнаружения точек изменений, можно ознакомиться со статьей "An evaluation of change point detection algorithms".

Пост написан Ильей Кульбаченко с моими редакторскими правками.
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆Как стать лидом и быть эффективным

Меня эта тема не интересовала на столько же сильно, как многие другие (хард скиллы, выстраивание процессов, ведение проектов и тд), поэтому и разбираюсь я в ней не так хорошо. Мое воспитание, становление и опыт сделали меня человеком, умеющим ладить и договариваться с людьми, поэтому в управление людьми я вкатился без особых проблем. Но я все равно хочу поделиться своими немногими мыслями на эту тему.

Мой опыт, что полезно делать:
1. Вникать в процессы управления, с начала карьеры на своем рабочем месте.🤔

2. Получать опыт от коллег: общаться и смотреть разные видео, например, с тимлид конф, я собирал список интересных мне лекций здесь.

3. Вникать в смежные процессы, разбираться в них, анализировать, как они работают, как их поддерживают и тд. Как руководителю вам предстоит скорее всего общаться не только со своей командой.🗺

4. Я почти всю свою карьеру работал параллельно больше, чем в одном месте. Это однозначно ускоряет получение разного опыта (но требует много сил и желания).💻

5. Максимально полезно получить опыт работы в очень разных условиях:
🟡Корпорация vs стартап vs академия
🟡Руководители с разным стилем управления: микро менеджеры, чайка менеджеры vs те, кто делегируют задачу с правом принятия решений и ответственностью за результат, но с правом на ошибку. Кстати, как бы не ругали авторитарных микроменеджеров, я лично наблюдал эффективных коллег с таким стилем, да и про Илона Маска забывать не будем.
🟡Удаленная vs офисная
🟡Продуктовая vs проектная деятельность
Помогает понять свои сильные и слабые стороны, нащупать свой стиль управление и наметить движение в каком-то направлении.

6. Лично мне помогли хакатоны, в которых, будучи капитаном, я в «лабораторных» условиях примерял на себя роль руководителя и учился публичным выступлениям в довесок.

Какие общие советы я еще могу дать:
🟢Смотрите на то, что просят в соответствующих вакансиях. Я даже как-то сделал собирательный образ Тим Лида, которым хочу стать. Ну и куда же без Teamlead Roadmap.
🟢Читайте книги, например, "мама, я тимлид" Марины Перескоковой. Впервые я прочитал ее уже будучи тим лидом, поэтому нового там для меня было немного. Но сформулировано очень емко и коротко, к тому же разжеваны ну просто все вопросы, которые у меня могли бы возникнуть. Стоит почитать начинающим/будущим лидам. Другие книжки сама Марина советует в конце.
🟢Если есть возможность пройти курсы, то лишним не будет, но ставку на них я бы не делал (и личные деньги бы не платил). Из тех, что находил (здесь могла бы быть ваша реклама):
· Школа сильных программистов
· Agima
· Сбер
· Otus

Я не могу сказать, что я на сто процентов эффективен и не совершаю ошибок. Именно поэтому я считаю, что процесс обучения непрерывен (как и в IT в целом), но зато учиться можно эффективно на своем опыте. 😎

Дополняйте пост своим мнение по курсам/книгам/видео или в целом по теме в комментариях👇
Please open Telegram to view this post
VIEW IN TELEGRAM
A Survey of Network-basedIntrusionDetectionDataSets.pdf
473.7 KB
Для меня эталонный научный обзор датасетов (не зря 500+ цитирований❗️). Жаль, что он в области поиска аномалий в сетевом трафике (network intrusion detection). Однако, если вы занимаетесь такими задачами, то вам повезло не только из-за наличия такого обзора, но и из-за наличия большого числа разнообразных датасетов (пусть и большая часть из них синтетика). Как будто с данными тут получше, чем в промышленных процессах.

В статье помимо самого обзора датасетов есть:
🟡Анализ характеристик датасетов и их сравнение
🟡Обзор репозиториев с наборами датасетов
🟡Обзор моделей для генерации трафика
🟡Рекомендации по датасетам и работе с ними

С реальными задачами в этой области я не сталкивался (пишите в комментариях советы, если есть опыт), но как-то участвовал в хакатоне, даже материалы сохранились — будет полезно, если совсем ничего не знаете, но хотите немного погрузиться в область. Тип аномалий, конечно, специфичный (писал об этом здесь), как и используемые методы: задачи часто supervised, данные скорее табличные, поэтому и методы деревянные стреляют.

Ссылка на официальную публикацию в журнале.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM