NoML Digest
1.98K subscribers
76 photos
1 video
2 files
629 links
База знаний https://noml.club
Чат https://t.me/noml_community
YouTube https://www.youtube.com/@NoML_community

По всем вопросам к @psnurnitsyn
Download Telegram
И еще в тему, 26 мая планируется вебинар от RStudio на тему реализации отчетности средствами R: Rethink Reporting with Automation.
И напоследок, прежде чем перейдем к следующей теме, несколько туториалов по Python Dash:
1️⃣ Develop Data Visualization Interfaces in Python With Dash
2️⃣ How to Build a Reporting Dashboard using Dash and Plotly
3️⃣ Introducing JupyterDash
Во вторник, 25 мая, в 21:00 МСК встречаемся в войс чате в Telegram обсуждать продвинутую графовую аналитику 🚀🚀🚀.

В качестве интро позволю себе процитировать наш старый пост:
Графовая аналитика - это набор методов, которые ориентированы на анализ структуры связей между сущностями, а не на свойства сущностей. Примеры графов: связи между людьми в социальных сетях, связи банковских счетов через проходящие по ним переводы, структура владения группы компаний.

Методами графовой аналитики мы анализируем структуру связей и выявляем неочевидные связи.

В задачах машинного обучения графовая аналитика прежде всего позволяет строить более сильные предикторы — переменные, которые описывают окрестности интересующей нас сущности. Например мы можем получить ответы на вопросы: «Как влияет на кредитный рейтинг компании рейтинг её контрагентов или контрагентов контрагентов или в принципе всей цепочки поставок?».

Благодаря методам графовой аналитики мы можем ограничиваться не только прямыми связями, но и окрестностями по связям различной длины.


В повестке экспертной комнаты:
🔹Что дает взгляд на бизнес задачи через призму графовой парадигмы?
🔹Зачем нужны специализированные графовые движки, такие как Neo4j или ArangoDB?
🔹Что и когда работает лучше: бизнес правила на интерпретируемых графовых атрибутах или нейросети на графах?

Эксперты-спикеры:
😎 Юлия Чехлова, ВТБ
😎 Владимир Дашковский, Газпромбанк
😎 Евгений Вилков, GlowByte
(список пока не окночательный, возможно кто-то еще присоединится)

Модератор:
🧐 Наталья Тоганова, GlowByte Advanced Analytics
Forwarded from Sberloga (🇻 🇱 🇦 🇩)
Ребята привет,
Майские "не рабочие" закончились и мы снова начинаем организовывать доклады по DataScience тематикам 👍 Скоро будет анонс 🥳
А пока можете ознакомиться с видео последних докладов:

Сергей Лавриков - Трэкинг экспериментов в MLFlow
Обсудили:
* как с помощью MLflow привнести в команду порядок в проведении ML экспериментов и какие от этого плюсы;
* общий обзор возможностей фреймворка;
* наглядная демонстрация real time.

Александр Пономаренко - Поиск перекрывающихся кластеров на графах
На докладе обсуждали метод поиска перекрывающихся кластеров в графе (Link Partitioning Around Mediods) https://arxiv.org/abs/1907.08731, https://github.com/aponom84/lpam-clustering
Суть метода: кластеризуются рёбра, а не вершины. Мы считаем, что вершина принадлежит нескольким сообществам, если она смежна с рёбрами из разных кластеров. Для кластеризации рёбер строится линейный графа, и на нём решается задача о p-медианах (facility location problem). Мы изучили как работает этот метод главным образом с двумя функциями расстояния: commute distance и с одиним из вариантов её коррекции – amplified commute distance.
Одно из преимущество метода – интуитивно понятный результат. Рёбра группируются вокруг некоторых центров.

Антон Костин - Философия на графах
Разбирали блокнот с кодом построения графа поверх текстовых эмбеддингов (fasttext).
На примере Louvain посмотрим, как алгоритмы модульности находят философские школы.
В задаче Link Prediction подумаем над неочевидными связями между разными школами и философами.
А также обсудим, будут ли студенты ВУЗов делать домашку по философии с использованием NLP
и дискретной математики (спойлер: на Физтехе уже начали)? Рассказывает преподаватель философии.
Ноутбуки и данные доступы на каггле:
https://www.kaggle.com/visualcomments/philosophy-ru-large

Курс Knowledge Graphs - Обсуждение Лекции 6 часть 2
Рекомендуем всем лекцию Вадима Сафронова (@VadymSafronov) - https://www.youtube.com/watch?v=2NemwwyK9x4 - она содержит (в том числе) краткий дайджест многих моментов известного стенфордского курса cs224w (от Лесковича)

@sberloga
Небольшая подборка бизнес кейсов использования графовой аналитики. Список не полный, вошло только то, с чем сами хоть как-то сталкивались. Материалы подобраны простые и не технические, с целью просто дать намек, в чем суть применения графовой аналитики в этих бизнес задачах.

В качестве введения, почему надо преклоняться перед графовой аналитикой: Top 5 Graph Analytics Takeaways from Gartner’s Data & Analytics Summit =)

Бизнес кейсы:
1️⃣ Анти-фрод
2️⃣ Противодействие отмыванию денег
3️⃣ Real-time рекомендательные системы
4️⃣ Профиль клиента 360
5️⃣ Логистика
6️⃣ Анализ ведомости материалов
7️⃣ Графы атак в кибербезопасности
8️⃣ Data Governance & Data Lineage
9️⃣ Анализ ИТ инфраструктуры

Делитесь бизнес задачами, с которыми вы сталкивались и считаете интересными, и приходите завтра на обсуждение!


P.S.: И еще один интересный кейс, но к своему удивлению не нашел нормального текста на эту тему: применение графовой аналитики для анализа клиентских путей (Customer Journey Analytics), по этой теме есть запись вебинара Neo4j.

P.P.S.: А еще много графовых задач есть в такой области как Process Mining, но про это когда нибудь потом...
Сегодня небольшая вводная подборка про технологии графовой аналитики.

Во-первых, в качестве ответа на вопрос “зачем вообще нужны специальные графовые движки”, пример расчета центральности на NetworkX и Neo4j.

Во-вторых, немного про сравнение различных графовых БД:
Comparing Graph Databases
Part I TigerGraph, Neo4j, Amazon Neptune
Part II ArangoDB, OrientDB, AnzoGraph

В-третьих, пара практических примеров
Neo4j Graph Data Science Library
Spark GraphFrames (будьте внимательны, немного старая статья)

И в-четвертых, есть книга Needham M., Hodler A., Graph Algorithms: Practical Examples in Apache Spark and Neo4j, 2020, O’Reilly, в которой подробно описаны и Neo4j и Spark GraphX.
Сегодня небольшая подборка про графы знаний:
🔸 Кратко: Knowledge Graphs: The Third Era of Computing (есть перевод)
🔸 Подробно, от введения в графы и до приложений таких, как концепция Data Fabric в управлении данными, можно почитать в отчёте O’Reily The Rise of the Knowledge Graph (правда нужен аккаунт)
🔸 Еще есть свежая книга по теме, сам пока не читал, но выглядит интересно: Kejriwal M., Knoblock C.A., Szekely P., Knowledge Graphs: Fundamentals, Techniques, and Applications

И в качестве перехода к нашей следующей теме, пара кейсов про графы знаний и чат-боты:
🔹 Knowledge Graphs For Successful Customer Service Automation
🔹 Knowledge Graph-based ChatBot
Во вторник, 1 июня, в 21:00 МСК встречаемся в голосовом чате в Telegram и обсуждаем последние тренды в области голосовых технологий и решений.

Поговорим про задачи в анализе и синтезе речи вообще и про возможности и последние достижения сервиса Yandex SpeechKit.

Эксперты-спикеры:
😎 Игорь Куралёнок, Руководитель подразделения AI&ML, Яндекс.Облако
😎Павел Егоров, Руководитель направления Deep Learning, GlowByte Advanced Analytics
Кстати, в ближайший понедельник, 31 мая будет митап about:cloud, на котором тоже будет про SpeechKit. Регистрация еще открыта.
А еще в следующий четверг, 3 июня у нас планируется вебинар про НЛП в СХ. И речь пойдет не про НейроЛингвистическое Программирование в Сельском Хозяйстве, как вы подумали, а про Natural Language Processing в Customer eXperience)
Что-то у нас на этой неделе не сложилось с рекомендациями интересных статей и ресурсов по теме NLP, поэтому напоследок, для тех, кто смотрел наш вебинААр:

🚀 История успеха, про которую говорил Никита: Уникальный голосовой бот для МегаФона снизил стоимость эффективного диалога с клиентом в 4 раза
🚀 И другая история успеха, правда не по теме NLP, но какая есть по теме CX: Перекрёсток и GlowByte составили аналитическую карту впечатлений посетителей в супермаркете
Наша следующая тема про то, как ML и продвинутая аналитика помогают предсказывать поломки и неисправности в оборудовании на производстве и не только.

8 июня в 21:00 МСК собираемся в голосовом чате в Telegram и обсуждаем следующие вопросы.

📌 Задачи прогнозного технического обслуживания оборудования и методы ML и продвинутой аналитики для их решения.
📌 Отличие от классических подходов превентивного обслуживания оборудования, преимущества, проблемы и актуальные вызовы.
📌 Кейсы применения в различных индустриях: от нефтяной и металлургической промышленности до транспорта и FMCG.
📌 Технологические аспекты решаемых задач: Edge Computing & TinyML, технологии хранения и обработки данных временных рядов и много другое.
📌 Что и в каких случаях выбирать: предлагаемые решения от самих производителей оборудования, универсальные или нишевые решения вендоров или собственная кастомная разработка и моделирование?
📌 Адаптации подходов предиктивного обслуживания в мире и в России, роль развития цифровизации производства.
📌 Что нужно знать специалистам по анализу данных в области Predictive Maintenance и в чем отличие от других областей? (Спойлер: почему аналитику нужно быть (не)много инженером).

Наши эксперты-спикеры:
😎 Александр Собенников, Руководитель направления аналитики в производстве, Glowbyte Advanced Analytics
😎 Александр Томилов, Руководитель направления IIoT, GlowByte
😎 Роман Созонов, Data Scientist, Glowbyte Advanced Analytics
🧐 а также все желающие присоединиться к дискуссии)
Список рекомендаций к прочтению начнем фундаментально, а именно две книги по теме предиктивного обслуживания:

1️⃣ Mobley R.K., An Introduction to Predictive Maintenance
2️⃣ Levitt J., Complete Guide to Preventive and Predictive Maintenance
Интересный отчет про текущую ситуацию и перспективы использования прогнозного обслуживания в европейских компаниях: Digital Industrial Revolution with Predictive Maintenance
Вчера в обсуждении про Predictive Maintenance затрагивали тему TinyML.

Во-первых, небольшая статья нашего коллеги Романа Созонова: TinyML. Сжимаем нейросеть

Во-вторых, рекомендовали когда-то ранее
- Книгу Warden P., Situnayake D., TinyML: Machine Learning with TensorFlow Lite on Arduino and Ultra-Low-Power Microcontrollers
- Ресурс с конференциями, вебинарами и митапами по теме
Порылся в закладках и получилась подборка по теме Predictive Maintenance (PdM).

Про задачи PdM
📌Хорошее краткое введение в область и основные задачи
How to Implement Machine Learning For Predictive Maintenance
📌Про типовые подходы к задачам PdM
Machine learning for predictive maintenance: where to start?
📌Еще одно введение, больше про подходы к моделированию RUL
Data-Driven Predictive Maintenance In a Nutshell
📌Кратко про ML против бизнес правил в PdM
Predictive Maintenance: Machine Learning vs Rule-Based Algorithms
📌И еще серия вводных статей про задачи PdM: Applied Data Science Series : Solving a Predictive Maintenance Business Problem
Part 1
Part 2
Part 3

Про детектирование аномалий в PdM
📌Как применяется детектирование аномалий
How to use machine learning for anomaly detection and condition monitoring
📌Кейсы детектирования аномалий и вообще PdM в различных индустриях
Anomaly Detection Solutions for Predictive Maintenance of Industrial Equipment

Примеры с кодом
📌Пример по детектированию аномалий
Anomaly Detection in Time Series Sensor Data
📌Серия статей про различные подходы к решению задачи
Exploring Nasa Turbofan
И еще туториал от коллег из практики IIoT GlowByte: Быстрый прототип IIoT-решения на Raspberry PI и Yandex IoT
📌Часть 1
📌Часть 2
На следующей неделе обсудим, что делать если A|B тестирование провести нельзя, а понять влияние воздействия необходимо, а именно, как в таких случаях применяются методы каузальности.

Встречаемся в голосовом чате в Telegram 17 июня в 21:00 МСК. (❗️Обратите внимание, что это четверг а не вторник).

В повестке обсуждения:
📌В каких случаях применяются методы каузальности и эконометрики?
📌Что это за направление?
📌Какие методы к нему относятся?
📌Какие рабочие, а какие не очень?
📌Какие реализованы в библиотеках?
📌Какие есть сложности?

Наши эксперты-спикеры:
😎Ирина Голощапова, PhD, Head of Data Science at LENTA
😎Максим Цыганков, Руководитель проектного направления «Оценка программ и политик», Центр перспективных управленческих решений
😎Наталья Тоганова, к.э.н., Бизнес-аналитик, GlowByte Advanced Analytics
😎Александр Бородин, к.ф.-м.н., Руководитель направления аналитики в финансах и рисках, GlowByte Advanced Analytics
Рекомендовали уже когда-то ранее, пара книг по теме каузальности, почитать на выходных:
📕Pearl J., Mackenzie D., The Book of Why: The New Science of Cause and Effect
📗Peters J., Janzing D., Schölkopf B., Elements of Causal Inference: Foundations and Learning Algorithms