Проходит в Барселоне до 17 марта 2024 года. Популяризации темы рад, но, в целом, ничего невероятного, скорее научно-популярная выставка с большим числом общих слов и маркетинговых материалов. Из интересного: довольно подробно можно познакомиться с историей развития ИИ и машинного обучения, пообщаться с Элизой (ну и чатгпт тоже, хотя этим никого не удивишь), поиграть с альфаго, посмотреть и почитать о разных аспектах (железо, алгоритмы, этика, прикладные и развлекательные кейсы с ИИ в разных областях знаний и многое другое).
• фото 2: информация о выставке
• фото 3: The Analytical Engine by Charles Babbage
• фото 4: The Bombe device
• фото 5: Deep Blue by IBM
• видео: популярный кейс распознавание языка жестов
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9👏5🔥4
На сегодняшний день уже было продемонстрировано, что машинное обучение может решить множество задач на производстве, в энергетике, добыче и других отраслях промышленности. Конечно, специфичных постановок задач в разных отраслях и разных технологических процессах можно найти огромное количество, но так или иначе мы всегда сводим их к понятным типовым формулировкам. Картинка (на самом деле слайд из моей недавной презентации) систематизирует довольно большое число типовых задач, причем верхняя часть собрана из моего практического опыта, а нижняя взята из довольно интересной обзорной статьи (как скачивать тексты статей с помощью scihub учил в этом посте).
Большой пост с подробным разбором всех задач в разработке, а пока выделю наиболее популярные:
• Оптимизация процесса и входных условий/материалов. Причем задача может решаться как в виде рекомендаций, так и в виде автоматического управления процессом (apc). Решение именно этих задач чаще всего самое экономически выгодное.
• Список задач ТОиР (мониторинг, поиск и локализация аномалий, прогноз RUL). Об этом много пишу, материалы в оглавлении. Задачи лежат на поверхности, ML действительно хорошо дополняет методы неразрушающего контроля. Но есть проблемы с экономическим эффектом и успешностью проектов, так как данных о поломках бывает слишком мало.
• Прогноз и контроль качества продукции. Пересекается с первым пунктом, но здесь также речь об автоматизации и улучшении процессов диагностики продукции. Часто применимо CV и классический ML.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤5🔥2❤🔥1
Анализ и прогнозирование временных рядов и можно ли зарабатывать с их помощью 🪙
Недавно стал гостем в Machine Learning podcast (можно слушать на разных площадках).
Канал горячо рекомендую, там помимо подкастов с кучей интересных гостей (сам люблю послушать) еще много полезных активностей.🧘♀️
О выпуске
• Поговорили про временные ряды и самую любимую задачу — прогнозирование. Конечно, не забыли и про промышленность.
• Много теории, поэтому практику охватить не успели, надеюсь, получится о практических кейсах рассказать отдельно.
• Ценным может быть список материалов, которые упоминал в выпуске.
Не первый раз участвую в подкастах и признаюсь, что такой формат мне нравится чуть больше, чем лекции и доклады из-за возможности вести диалог, даже в докладах стараюсь больше общаться с аудиторией, когда это уместно🤓
Недавно стал гостем в Machine Learning podcast (можно слушать на разных площадках).
Канал горячо рекомендую, там помимо подкастов с кучей интересных гостей (сам люблю послушать) еще много полезных активностей.
О выпуске
• Поговорили про временные ряды и самую любимую задачу — прогнозирование. Конечно, не забыли и про промышленность.
• Много теории, поэтому практику охватить не успели, надеюсь, получится о практических кейсах рассказать отдельно.
• Ценным может быть список материалов, которые упоминал в выпуске.
Не первый раз участвую в подкастах и признаюсь, что такой формат мне нравится чуть больше, чем лекции и доклады из-за возможности вести диалог, даже в докладах стараюсь больше общаться с аудиторией, когда это уместно
Please open Telegram to view this post
VIEW IN TELEGRAM
9 выпуск 4 сезона
#052 ML Юрий Кацер. Анализ и прогнозирование временных рядов и можно ли зарабатывать с их помощью — Подкаст «Machine Learning Podcast»
В гостях Юрий Кацер - эксперт по анализу данных и машинному обучению в промышленности, DS team lead Conundrum.ai. В выпуске говорим о том, что такое временные ряды и как их можно анализировать и прогнозировать с помощью машинного обучения. Какие зада
👍16🔥9💯2❤1👎1
Так как я публикую материалы сразу на нескольких площадках (и люблю все систематизировать
• GitHub — мои опенсорс проекты и списки интересных мне ссылок/проектов/репозиториев по самым разным темам
• scholar.google и researchgate —информация о моих научных работах
• habr — большие статьи на околотехнические темы
• medium — в основном скорректированные и адаптированные переводы статей с хабра
• vc — статьи на более общие темы (хакатоны, развитие в DS) или более короткие заметки, не доросшие до полноценной статьи
• kaggle — для публикации датасетов (сам тоже там люблю поискать датасеты для каких-нибудь r&d проектов, а вот на соревнования времени совсем не хватает)
Зачем мне эти площадки?
Я использую эти площадки, а также публикую там материалы для той же систематизации своих знаний или бесконечных списков из ссылок на интересные материалы.
Помогают ли профили в карьере?
Я всегда рекомендую студентам или слушателям моих докладов участвовать в опенсорсе (GitHub/kaggle), так как наличие опыта соревнований, пет проектов, контрибьютинга выгодно отличает таких кандидатов на ранних этапах карьеры, не считая пользы для развития навыков и приобретения новых знаний. Хотя я не уверен, что сейчас мои профили имеют какое-то большое значение для заказчиков/работодателей. Не обязательно заводить много профилей, можно сконцентрироваться на чем-то одном и понемного развивать. Кстати, указывать в резюме пустые профили на кэгл или гитхаб — это моветон (на мой взгляд), поучаствуйте хоть в чем-то или запилите классификацию кошечек и собачек, отличный пет-проект!
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
YKatser - Overview
Head of DS | Ph.D. alumnus | RnD team lead. YKatser has 13 repositories available. Follow their code on GitHub.
👍17👏3🤝3❤🔥1
В начале своих обзорных докладов и лекций стараюсь дать оценку места Промышленности среди остальных отраслей экономики.
tl;dr: популярность ИИ и ML в промышленности далека от ритейла, маркетинга и др.
Довольно показательна актуальная на 2021 год карта компаний, занимающихся ИИ в России. Немного моих мыслей:
• Digital Petroleum учтена 3 раза, Mechanica AI уже закрылась, есть неучтенные компании, например, Conundrum, но порядок цифр, кажется, что верный
• Большую роль играют "дочки" крупных холдингов: Северсталь диджитал, Цифровые технологии и платформы (еврохим), Цифрум (росатом), Сибур диджитал и др, которые не попали в список из-за методологии
• Более интересным мне показалась другое число: 0.2% (
• Есть вопросы к методологии и к глубине анализа авторами именно сегмента "Промышленность"
Распределение по классам задач
"IoT analytics research 2019 — Industrial AI market report 2019-2025" дает такое распределение кол-ва кейсов ИИ по направлениям:
• ТОиР — 24.3%
• Контроль и управление качеством — 20.5%
• Оптимизация процессов, включая советчики и управление процессом (apc) — 16.3%
• Остальные задачи (оптимизация цепочек поставок, кибербезопасность и тд) — значительно меньше
С топ-3 и их значительным отрывом склонен согласиться, но думаю, что "Оптимизация процессов" набирает популярность, а "ТОиР" немного теряет.
Распределение по отраслям промышленности
Согласно отчету “Технологии искусственного интеллекта. АПР Москвы, 2019" распределение следующее:
• 44 % — в дискретном производстве (машиностроение, авиастроение и тд)
• 22 % — в процессном производстве (металлургия, химия, добыча и тд)
• 11 % — в электроэнергетике
• 23 % — научные работы университетов (
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🔥4👏3
Наткнулся на такое соревнование, правда уже после его окончания. Интересен пост в обсуждениях к страничке соревнования на кэггле под названием "Что это за ужас?". Пересказывать не буду — стоит перейти и почитать (лишь добавлю, что проблемы на хакатонах — не редкость, писал о
Ну а нам интересно другое: еще одна задача, решающаяся с помощью ML в энергетике, данные и код. Так как с задачей уже сталкивался, поделюсь наработками из прошлого в дополнение к соревнованию.
Задача
Необходимо обнаруживать дефекты изоляторов (пример на картинке) линий электропередач (оплавления, сколы, трещины и др). Несмотря на наличие различных методов контроля и диагностики повреждений, популярным остается метод визуального контроля. Чтобы сделать его более эффективным можно использовать сетап дрон+CV.
Подход к решению
Чтобы автоматизировать обработку данных с дрона, можно применять CV, в частности, сначала можно решать задачу сегментации (выделять изоляторы, пример на картинке к посту), а после (или вместо) решать задачу классификации (без повреждений/с повреждениями + тип повреждений).
Детально про задачу и подходы к решению с результатами можно почитать моих коллег из сколтеха по проекту здесь.
Данные
Данные с соревнования из начала поста доступны на кэггле и по ссылкам в описании, но здесь доступен еще один архив данных с разметкой для задач сегментации изоляторов и классификации дефектов.
Код
Пара блокнотов доступна на кэггле, более представительный блокнот с решением задач сегментации (Unet) и классификации (VGG) здесь.
Отличный потенциальный пет-проект или пример прикладного ресерча без научных открытий.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥7⚡3
Поздравляю всех с Новым годом!✨ ✨ ✨
Пост с подведением итогов года будет позже, а пока подобьем важные статистические показатели для канала:
🥚 В 2023 году канал появился (8 месяцев и 12 дней назад)
💪 За 8 месяцев канал вырос до 850+ подписчиков
😋 Написано 90+ содержательных постов
Благодарен каждому из вас за доверие и участие! Stay tuned
Пост с подведением итогов года будет позже, а пока подобьем важные статистические показатели для канала:
Благодарен каждому из вас за доверие и участие! Stay tuned
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33☃5🥰5🏆3❤1🔥1🍾1
Не будем задаваться вопросами, необходимо ли ставить цели, не переоценен ли эффект от этого, зачем структурировать и делать этот процесс регулярным, просто скажу, что для меня это работает. Поэтому перейду сразу к своим правилам подведения итогов и постановки целей на год.
Про мои принципы формирования краткосрочных планов на неделю/день, составление расписание и как в течение года я формирую дела, чтобы достигать больших целей напишу отдельно.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25🔥6❤🔥3👏1
Media is too big
VIEW IN TELEGRAM
Опыт преподавания в Data Science
Еще одним моим «хобби», помимо исследований, является преподавание. О моем опыте преподавания в конце поста, а сейчас немного мыслей.
Принято считать, что те, кто занимаются преподаванием либо уже не востребованы в индустрии, либо изначально являются преподавателями без особого опыта в индустрии. Хотя для ДСов, по моему опыту, такое мнение не справедливо. Я видел большое число примеров работающих и востребованных «практиков» или ученых, занимающихся преподаванием. Конечно, есть и более классические примеры преподавателей, но их не так много.
Допускаю, что в действительности картина другая, но делюсь своим опытом.
Почему в анализе данных много преподавателей-практиков?🗺
Мне кажется, что все просто: область анализа данных относительно молодая, еще не успела сформироваться большая каста преподавателей.
Но это и хорошо, так как обычно востребованных специалистов сложно затащить читать курс, максимум — гостевые редкие лекции (спойлер: я к этому и пришел). При этом польза от участия практикующих и успешных специалистов в преподавании колоссальная. Анализ данных и машинное обучение динамично развивается, и сегодня публикуются статьи, завтра появляются опен cорс разработки, а послезавтра — это уже используется в индустрии. И речь не только про чатгпт, но и про менее популярные и узконаправленные разработки.
Мой опыт👋
Опыт получился довольно обширным, хотя я и не нырнул в преподавание с головой. Начал преподавать в 2019 году, когда учился в аспирантуре. Первым был небольшой курс для школьников на тему «интернет вещей», после чего делал и читал курсы в Росатоме, МФТИ и даже делал курс для онлайн-школы на заказ (видео к посту). Получалось с переменным успехом и отнимало слишком много сил и времени, поэтому сейчас я перестал читать большие курсы где-либо. Чтобы утолять жажду делиться знаниями — пишу статьи, завел канал, иногда выступаю на конференциях, являюсь научруком и членом ГЭК, а также читаю отдельные платные лекции и вебинары (правда в последнее время нечасто).
Еще одним моим «хобби», помимо исследований, является преподавание. О моем опыте преподавания в конце поста, а сейчас немного мыслей.
Принято считать, что те, кто занимаются преподаванием либо уже не востребованы в индустрии, либо изначально являются преподавателями без особого опыта в индустрии. Хотя для ДСов, по моему опыту, такое мнение не справедливо. Я видел большое число примеров работающих и востребованных «практиков» или ученых, занимающихся преподаванием. Конечно, есть и более классические примеры преподавателей, но их не так много.
Допускаю, что в действительности картина другая, но делюсь своим опытом.
Почему в анализе данных много преподавателей-практиков?
Мне кажется, что все просто: область анализа данных относительно молодая, еще не успела сформироваться большая каста преподавателей.
Но это и хорошо, так как обычно востребованных специалистов сложно затащить читать курс, максимум — гостевые редкие лекции (спойлер: я к этому и пришел). При этом польза от участия практикующих и успешных специалистов в преподавании колоссальная. Анализ данных и машинное обучение динамично развивается, и сегодня публикуются статьи, завтра появляются опен cорс разработки, а послезавтра — это уже используется в индустрии. И речь не только про чатгпт, но и про менее популярные и узконаправленные разработки.
Мой опыт
Опыт получился довольно обширным, хотя я и не нырнул в преподавание с головой. Начал преподавать в 2019 году, когда учился в аспирантуре. Первым был небольшой курс для школьников на тему «интернет вещей», после чего делал и читал курсы в Росатоме, МФТИ и даже делал курс для онлайн-школы на заказ (видео к посту). Получалось с переменным успехом и отнимало слишком много сил и времени, поэтому сейчас я перестал читать большие курсы где-либо. Чтобы утолять жажду делиться знаниями — пишу статьи, завел канал, иногда выступаю на конференциях, являюсь научруком и членом ГЭК, а также читаю отдельные платные лекции и вебинары (правда в последнее время нечасто).
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🔥5🤓3
Важный аспект работы над решением на основе данных (AI-, ML-based) в промышленности — командировки на актив. Почти все, что я ниже отношу к командировкам, можно делать удаленно, но это никогда не работает правильно:
• Нет доступа к нужным сотрудникам. Можно просто не знать и не познакомиться с заинтересованным и вовлеченным сотрудником заказчика.
• Проблемы коммуникации в онлайне. Мало, кто будет охотно делиться реальными проблемами в работе по скайпу «с какими-то датасайентистами».
• Сотрудники физически не доступны для связи из-за занятности на активах и нахождения в цеху.
Рассказываю со стороны senior и team lead DS'а, потому что считаю, что умение общаться с заказчиком и иметь соответствующие софт скиллы — это мастхев для senior'а и выше. При этом проектные менеджеры и бизнес-аналитики имеют свои задачи в общении с заказчиком, но могут заменять и дополнять коммуникацию датасайентистов.
• На этапе обследования/PoC/в начале проекта: для лучшего знакомства с технологическим процессом, персоналом, заказчиком, ЛПР, для уточнения требований (неформальных), лучшего понимания проблем и особенностей проекта, для повышения оперативности получения данных и информации. Личный контакт в промышленности работает значительно лучше, чем онлайн общение.
• На этапе разработки решения: для повышения оперативности получения дополнительных данных и информации, получения обратной связи, брейнштормов с вовлеченными сотрудниками заказчика, и сбора эвристик/экспертных правил из головы технологов/операторов/мастеров и тд.
• На этапе пуско-наладочных работ и опытно-промышленных испытаний: для лучшего контроля работ, оперативного получения более полной обратной связи, для внесения оперативных изменений в решение при необходимости, для обеспечения прозрачности (в результатах и работе решения) перед заказчиком и снятия напряженности (да-да, придется немного подрабатывать психологом) в случае каких-либо замечаний/проблем.
• На этапе защиты результатов/эффектов: так как это очень часто один из самых коммуникационно сложных этапов проекта, то личное общение позволяет кулуарно обсудить всю поднаготную, найти компромиссы при необходимости и обеспечить прозрачность и ясность для принятия решений и подписания протоколов.
• В начале проекта и на этапе разработки решения полезно съездить в командировку всем членам проекта (ДСам любого уровня), чтобы познакомиться с тех. процессом, информацией о процессе со слов тех. персонала, посмотреть и лучше понять объект моделирования.
• Важно учиться разговаривать на языке сотрудников производства, чтобы доносить свои мысли и интервьюировать. У датасайентистов с этим бывают большие проблемы!
• Командировки стоит делать регулярными, чтобы налаживать контакт на всем протяжении проекта, регулярно получать обратную связь, обеспечивать прозрачность, отвечать на вопросы и снимать напряженность, а не пропадать, возвращаясь с новой версией непонятного решения. В идеале стоит обеспечивать практически непрерывное присутствие на активе кого-то от проектной команды.
Выводы
Интересно бы посмотреть на статистику на большой выборке (я такую не встречал), но мое мнение — вероятность уложиться в срок и бюджет и обеспечить приживаемость решения сильно зависят от командировок, а вот успешность разработки решения зависит, но не так сильно. Больше влияют другие факторы, например, качество и количество данных.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9👍6💯6❤1👏1
Картинка с методами здесь, часть 1 здесь
Делюсь любопытной статьей про аугментацию временных рядов с примерами кода.
Чем любопытна?
• Статья представляет относительно новую библиотеку для аугментации временных рядов — TSGM. Есть и github и статья на arxiv.
• Помимо распространенных методов аугментации, которые я показывал в предыдущем посте, представлен еще один — Dynamic Time Warping Barycentric Average (DTWBA). Коротко о методе: основан на минимизации осредненной метрики DTW одного ряда (заданного извне или прямо выбранного из выборки) до всех рядов выборки. Вариации и применение метода представлены в статье 1 и статье 2.
• В статье на архиве исследуется процедура оценки качества синтезированных данных или качество аугментации.
Давайте на последнем пункте остановимся подробнее.
Для начала определим основные причины аугментации:
• Очевидная и частая причина — недостаточный размер датасета для достижения необходимых метрик при обучении модели
• Еще одна причина (встречается и в промышленности) — генерация синтетических данных для передачи подрядчику/исполнителю для проведения исследований с данными. Иногда позволяет снижать риски и делиться чувствительной информацией
Чаще всего качество аугментации оценивают просто по приросту метрик модели, обученной на исходной и аугментированной выборках данных. Это справделиво, когда мы хотим повысить качество моделей: качество повысилось — аугментация удачная, все просто. Но статья предлагает еще несколько вариантов оценки:
• Посчитать для исходных и сгенерированных временных рядов схожесть/расстояние, например, Евклидово
• Predictive consistency: посчитать разницу значений метрик качества между двумя моделями на исходных данных и на сгенерированных
• Privacy: насколько исходные данные могут быть объяснены моделью, обученной только на синтетических сгенерированных данных
• Fairness: оценка снижения или устранения перекосов решений модели в сторону миноритарного класса
• Diversity: оценка соответствия распределению и рассредоточевание сгенерированных данных всем областям или бинам на кривой плотности вероятности
• Качественный анализ: визуализация и сравнение данных, например, с помощью t-SNE
• Ну и не забудем про прирост качества модели при аугментации данных
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
Иллюстрация классических методов аугментации временных рядов к предыдущему посту.
🔥16👍11👏3❤1
На прошлой неделе выступил на конференции ИЦК Химия в секции “Применение ИИ для компаний химической отрасли”.
Приятно было увидеть много бывших коллег, знакомых и друзей + завести новые знакомства!🤝
Рассказал про опыт внедрения машинного обучения в алгоритмы управления и оптимизации флотации. Кстати, для меня это был первый опыт выступления с докладом от "Рокет контрол" (ex-конандрум).
На удивление, конференция была очень насыщенная: послушал и подискутировал про APC/RTO/подсказчики, про управление промышленными проектами с data science, про эффекты и особенности решений, конечно, про флотацию (особенно интересно для меня в последнее время), ну и куда же без промышленных платформ.
Моя презентация как всегда в комментариях👇
Приятно было увидеть много бывших коллег, знакомых и друзей + завести новые знакомства!
Рассказал про опыт внедрения машинного обучения в алгоритмы управления и оптимизации флотации. Кстати, для меня это был первый опыт выступления с докладом от "Рокет контрол" (ex-конандрум).
На удивление, конференция была очень насыщенная: послушал и подискутировал про APC/RTO/подсказчики, про управление промышленными проектами с data science, про эффекты и особенности решений, конечно, про флотацию (особенно интересно для меня в последнее время), ну и куда же без промышленных платформ.
Моя презентация как всегда в комментариях
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36🔥8❤🔥3
Недавно провел очередную лекцию на тему ИИ в промышленности. Получился мягкий dive-in в индустрию. Прикрепляю запись, лекция скорее для студентов, будет интересна для начинающих в профессии.
Кстати, после лекции пробил важную отметку в 1000 подписчиков🙂
Спасибо, что читаете!
Презентация, как всегда, во вложении👇
Кстати, после лекции пробил важную отметку в 1000 подписчиков
Спасибо, что читаете!
Презентация, как всегда, во вложении
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
Открытая лекция «ИИ в промышленности» 21 марта
21 марта прошла открытая лекция «ИИ в промышленности» от Юрия Кацера. На встрече мы поговорили о задачах машинного обучения в промышленности, а также затронули вопросы проблем в индустриальных данных и особенности внедрения машинного обучения на производствах.…
👍28❤8🔥6
Кстати, в одном из первых постов на канале я уже рассказывал о том, как "попал в сколтех через хакатон". В подкасте дополнил свою историю деталями и свежей информацией.
Please open Telegram to view this post
VIEW IN TELEGRAM
Yandex Music
Юрий Кацер: Сколтех vs Бауманка, индустрия и тел...
👍10❤🔥4🔥3👏1
Еще одна интересная область практического применения алгоритмов поиска аномалий — обнаружение фрода и мошенничества.
На Datafest'е даже пару лет подряд были секции, посвященные этой и смежным темам: в 2020, в 2021.
Где популярна задача?
Задача обнаружения фрода популярна в банках, рекламе, электронной коммерции; то есть везде, где есть транзакции и платежи. Поэтому, если хотите подробнее познакомиться с примерами, то можно искать доклады банков, интернет магазинов, агрегаторов объявлений.
Какие методы применяются?
В целом подходы и методы обнаружения аномалий везде одинаковые, главное — как обработать и подготовить признаки. По моему опыту, здесь гораздо чаще применимы именно методы поиска выбросов (или точечных аномалий) в противовес changepoint detection из-за природы данных и самих аномалий. Также, при наличии должной разметки, применимы методы классического ML, а именно методы/модели классификации.
Постановка задачи как обучения с учителем обычно позволяет решать бизнес-задачу хотя бы с более высоким или необходимым качеством, поэтому всегда рекомендую к ней переходить при наличии разметки.
Вот Тинькофф вообще говорят, что методы обучения без учителя в банковском антифроде не дает нужного качества, только supervised.
Здесь интересный (но очень узкий) подход с Автоэнкодером+T-SNE на бутылочном горлышке, а потом ансамбль методов кластеризации. Все на задаче в рекламе от Яндекса.
Кстати, про работу с признаками и про характеристики доступных данных неплохо рассказано в том же видео от Тинькофф.
Больше полезных материалов по ссылкам на секции Datafest'а
П.С.
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Андрей Мельников: ML антифрод для интернет платежей
Data Fest Online 2020
Antifraud track: https://ods.ai/tracks/antifraud-df2020
Докладчик: Андрей Мельников, Тинькофф
Расскажем, как машинное обучение позволяет выявлять и блокировать транзакции, когда мошенники обманом вынуждают владельцев карт сообщать реквизиты…
Antifraud track: https://ods.ai/tracks/antifraud-df2020
Докладчик: Андрей Мельников, Тинькофф
Расскажем, как машинное обучение позволяет выявлять и блокировать транзакции, когда мошенники обманом вынуждают владельцев карт сообщать реквизиты…
👍12🔥3👏3
Предстоящий Datafest и мое присутствие на нем
В прошлом году у меня было 3 доклада на Datafest'е. В этом году — 4...😶🌫️
Подробнее про доклады:
🟡 Сегментация временных рядов: от классических подходов до ансамблей
Секция: TS & Forecasting
О чем: В докладе расскажу немного теории о задаче сегментации временных рядов, сделаю обзор методов и подходов к сегментации. Продемонстрирую сегментацию на практике на основе библиотеки ruptures. Расскажу об ансамблировании алгоритмов на основе статьи с примерами кода.
Когда: 26.05 в 17:00 по мск
🔴 Остаточный ресурс промышленного оборудования
Секция: Survival & Time-to-Event
О чем: В докладе я расскажу об одной из важнейших задач для машинного обучения в промышленности - оценка остаточного ресурса оборудования (RUL, TTF). Вы узнаете не только о существующих подходах к решению задачи, но и о том, какие данные нужны для постановки и решения задачи. Я расскажу о реальных кейсах решения задачи в различных отраслях промышленности.
Когда: 01.06 в ...
🟢 Машинное обучение для оптимизации флотации
Секция: ML in Industry
О чем: Кейс применения технологий анализа данных и машинного обучения для оптимизации процесса флотации.
Когда: 01.06 в ...
🔵 Открытые промышленные данные: зачем нужны, почему так мало и где брать?
Секция: Open Source
О чем: Наверное, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои датасеты: до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты. В докладе планирую рассказать о том, где искать открытые промышленные данные, поделюсь накопленными за мои 6+ лет опыта в промышленности и о репозитории, где собираю такие датасеты.
Когда: 27.05 в 14:20 по мск
Даты добавлю позже, как только станут известны. Stay tuned!🤓
В прошлом году у меня было 3 доклада на Datafest'е. В этом году — 4...
Подробнее про доклады:
Секция: TS & Forecasting
О чем: В докладе расскажу немного теории о задаче сегментации временных рядов, сделаю обзор методов и подходов к сегментации. Продемонстрирую сегментацию на практике на основе библиотеки ruptures. Расскажу об ансамблировании алгоритмов на основе статьи с примерами кода.
Когда: 26.05 в 17:00 по мск
Секция: Survival & Time-to-Event
О чем: В докладе я расскажу об одной из важнейших задач для машинного обучения в промышленности - оценка остаточного ресурса оборудования (RUL, TTF). Вы узнаете не только о существующих подходах к решению задачи, но и о том, какие данные нужны для постановки и решения задачи. Я расскажу о реальных кейсах решения задачи в различных отраслях промышленности.
Когда: 01.06 в ...
Секция: ML in Industry
О чем: Кейс применения технологий анализа данных и машинного обучения для оптимизации процесса флотации.
Когда: 01.06 в ...
Секция: Open Source
О чем: Наверное, ни для кого не секрет, что промышленные данные часто являются закрытыми и не публикуются в открытых источниках. Владельцы настолько ценят свои датасеты: до сих пор нет рынка промышленных данных. А область анализа данных и машинного обучения ну очень сильно опирается на открытые разработки, библиотеки, исследования и датасеты. В докладе планирую рассказать о том, где искать открытые промышленные данные, поделюсь накопленными за мои 6+ лет опыта в промышленности и о репозитории, где собираю такие датасеты.
Когда: 27.05 в 14:20 по мск
Даты добавлю позже, как только станут известны. Stay tuned!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Katser
🗣 Выступлю сразу с тремя докладами на ежегодном мероприятии сообщества Open Data Science - DataFest 2023. Можно смотреть онлайн здесь или офлайн, если вы в Ереване.
• «Диагностика нефтегазовых трубопроводов с помощью машинного обучения»
21 мая в 14:00…
• «Диагностика нефтегазовых трубопроводов с помощью машинного обучения»
21 мая в 14:00…
🔥29❤🔥5👏2
Периодически во время выступлений в виде слайда демонстрирую список библиотек для решения задач на временных рядах, который начинался с этого поста и статьи по ссылке в нем. Обновленный список библиотек ниже.
А еще я отсортировал все лайкнутые репозитории на гитхабе как на картинке!
Классная фича и еще один повод подписаться на гитхаб
• [17,9k stars] https://github.com/facebook/prophet
• [9,6k stars] https://github.com/statsmodels/statsmodels
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [7,4k stars] https://github.com/unit8co/darts
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,7k stars] https://github.com/jdb78/pytorch-forecasting
• [3,3k stars] https://github.com/salesforce/Merlion
• [1,8k stars] https://github.com/linkedin/greykite
• [840 stars] https://github.com/etna-team/etna
• [610 stars] https://github.com/aimclub/FEDOT
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [2,8k stars] https://github.com/tslearn-team/tslearn/
• [1,7k stars] https://github.com/johannfaouzi/pyts
• [1,5k stars] https://github.com/hfawaz/dl-4-tsc
• [840 stars] https://github.com/tinkoff-ai/etna
• [7,5k stars] https://github.com/alan-turing-institute/sktime
• [2,8k stars] https://github.com/tslearn-team/tslearn/
• [8,2k stars] https://github.com/blue-yonder/tsfresh
• [4,8k stars] https://github.com/facebookresearch/Kats
• [800 stars] https://github.com/fraunhoferportugal/tsfel
• [370 stars] https://github.com/predict-idlab/tsflex
• [1,5k stars] https://github.com/deepcharles/ruptures
• [17,9k stars] https://github.com/facebook/prophet
• [4,8k stars] https://github.com/facebookresearch/Kats
• [4,7k stars] https://github.com/thuml/Time-Series-Library
• [3,3k stars] https://github.com/salesforce/Merlion
• [2,1k stars] https://github.com/SeldonIO/alibi-detect
• [1,8k stars] https://github.com/linkedin/greykite
• [1,2k stars] https://github.com/linkedin/luminol
• [1k stars] https://github.com/arundo/adtk
• [8k stars] https://github.com/yzhao062/pyod
• [1,3 stars] https://github.com/datamllab/tods
• [840 stars] https://github.com/tinkoff-ai/etna
• [750 stars] https://github.com/zillow/luminaire/
• [220 stars] https://github.com/selimfirat/pysad
• [4,8k stars] https://github.com/timeseriesAI/tsai
• [630 stars] https://github.com/ratschlab/RGAN
• [330 stars] https://github.com/arundo/tsaug
• [330 stars] https://github.com/TimeSynth/TimeSynth
• [320 stars] https://github.com/uchidalab/time_series_augmentation
Если есть комментарии к указанным библиотекам или предложения по расширению списка — буду рад почитать в комментариях.
Кстати, если вам интересно познакомиться с состоянием дел в российском опен-сорсе в ИИ, то вот отличная статья от друзей из ИТМО.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥27👍17🔥8❤2👏2
Статистика значимых катастроф в энергетике за 100 лет
В докладе про диагностику АЭС ссылался на инциденты в атомной отрасли из этой статьи.
Коротко о статье: авторы собрали значительные инциденты в энергетике, произошедшие за сто лет с 1907 по 2007. Получилось 279 инцидентов с ущербом $41 миллиард и 182156 смертей. В статье есть и методолгия анализа, и разбор причин происшествий, и конкретные примеры, и даже довольно жуткое (и кинематографичное) начало статьи:
Для меня самая большая ценность статьи в агрегированной статистике и возможности ссылаться на нее, обсуждая и поднимая вопросы безопасности и надежности сложных технических систем. Картинки на эту самую статистику я прилагаю к посту, но статью рекомендую все-таки прочитать полностью, она небольшая.
Пара мыслей:
🟢 Думаю, что статистика занижена. Как минимум не все любят делиться и стараются по возможности скрыть инциденты. К тому же, довольно сложно оценить всё влияние от аварий, например, в атомной отрасли. От последствий могут страдать несколько поколений людей, у всех разная степень восприятия воздействующих факторов, воздействие может быть долгосрочным и тд.
🟡 Интересно посмотреть на вред окружающей среде, который нанесли инциденты и аварии в разных отраслях.
❓ В статистику не попала Фукусима, а из 4067 людей погибших от ядерных катастроф — 4056 погибли из-за Чернобыльской, хотя всего зарегистрировано 63 инцидента.
👻 Напоследок байка со времен учебы в бауманке на кафедре ядерных реакторов: говорят, что во время первой (из трех) катастрофы на АЭС - Three Mile Island (про которую, кстати, мало кто знает) умер только 1 человек — рыбак, который рыбачил в пруде-охладителе, услышал сирены на АЭС, испугался и получил сердечный приступ
В докладе про диагностику АЭС ссылался на инциденты в атомной отрасли из этой статьи.
Коротко о статье: авторы собрали значительные инциденты в энергетике, произошедшие за сто лет с 1907 по 2007. Получилось 279 инцидентов с ущербом $41 миллиард и 182156 смертей. В статье есть и методолгия анализа, и разбор причин происшествий, и конкретные примеры, и даже довольно жуткое (и кинематографичное) начало статьи:
On a quiet school day afternoon in March 1937, hundreds of students were preparing for the final hour of class in New London, Texas. A few minutes before the last bell, an undetected natural gas leak caused an explosion that completely destroyed the Consolidated High School and killed 294 of its students.
Для меня самая большая ценность статьи в агрегированной статистике и возможности ссылаться на нее, обсуждая и поднимая вопросы безопасности и надежности сложных технических систем. Картинки на эту самую статистику я прилагаю к посту, но статью рекомендую все-таки прочитать полностью, она небольшая.
Пара мыслей:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7👏6👻3❤1🔥1