Клуб CDO
3.07K subscribers
379 photos
24 videos
88 files
1.44K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Всем добрый день!

Newprolab открывает осенний учебный сезон. Направляйте своих коллег, будем рады их обучить!
Ближайшие программы:
"Специалист по большим данным 13.0" (обучение 12 недель) - 90 000 руб., старт 29 сентября.
"Data Engineer 7.0" (обучение 7 недель) - 60 000 руб., старт 5 октября.
"Deep Learning 6.0" (обучение 4 недели) - 50 000 руб., старт 9 ноября.
Все программы в этом сезоне в онлайне.

Вся информация на сайте newprolab.com

Заявки можно оставлять на сайте. Если есть вопросы, то можете писать прям здесь @elenanewprolab
OpenRefine 3.4

Обратил внимание, что только что инструмент для предобработки и очистки датасетов получил обновление - вышла версия 3.4

И, кстати, если кто-то не знает про этот продукт - рекомендую обратить внимание. Он довольно удобен, бесплатен, полностью кросс-платформенный и предназначен для следующих задач:

Быстро получить представление о табличном датасете.
Перерабатывать данные в нужный формат, делать базовые расчеты.
Фильтровать и объединять данные.
Находить ошибки и неожиданности — например, слишком большие цифры, слова вместо чисел, пустые значения.
Автоматически находить потенциальные опечатки и несоответствия в названиях, позволяя приводить записи к единому виду (кластеризация текстовых записей).

Живет тут:
https://github.com/OpenRefine/OpenRefine/releases
Всем привет!

Решили, что вам может быть интересно данное бесплатное мероприятие, там будут выступать CDO разных компаний.

Онлайн-форум “INFADAY 2020. Как обеспечить готовность цифровых организаций“

Когда:
24 сентября 2020 года, с 10:00 до 17:30 по Москве.
Где: онлайн.
Стоимость: бесплатно

На форуме вас ждет 6 эмоциональных дискуссий о данных:

Создание корпоративной модели бизнес-глоссария. В ходе дискуссии вы узнаете, с чего начать внедрение бизнес-глоссария, на какие примеры ориентироваться, как понять, готова ли компания к внедрению Data Governance и многое другое.

Мастер-данные - кристаллическая решетка цифровой компании. В ходе дискуссии вы узнаете, какие процессы завязаны на мастер-данных, их место с точки зрения организационной структуры и ИТ-архитектуры и другие вопросы.

Есть ли альтернатива озеру данных? Тренды цифровой архитектуры. В ходе дискуссии вы узнаете, что вкладывается в понятие «озеро данных», какие архитектуры могут быть альтернативными.

Как получить данные без обращения в ИТ.
В ходе дискуссии вы узнаете, можно ли полностью передать работу с данными пользователям, как действуют крупнейшие компании.

Как построить корпоративную функцию качества данных. Право на качество.
В ходе дискуссии вы узнаете, как оптимально выстроить процессы проверки качества для ключевых данных, почему важно унифицировать проверку качества данных и правил для нее.

Цифровая автономия и ИТ-сервисы.
В ходе дискуссии вы узнаете, что представляет из себя автономная цифровая организация и на какие пять критически важных областей необходимо обратить внимание руководителям компаний, чтобы стать такой организацией.

Среди участников дискуссий:
Алексей Бондаренко, CDO, Газпромбанк;
Анна Мешкова, Директор программы ЦХД ПАО Уралсиб банк;
Алексей Луковников, CDO блока финансы ПАО Сбербанк;
Павел Шорохов, Руководитель направления аналитики и отчётности, Онлайн-кинотеатр ivi.
Виктор Булгаков, Руководитель службы развития систем управления данными, Банк ВТБ;
Георгий Лондаридзе, Руководитель центра анализа данных, Медси;
Нурлан Кусаинов, CIO, АО НК "КазМунайГаз"
Леонид Чёрный, CDO, Мегафон;
Сергей Золотарев, Управляющий партнер, ArenaData;
Иван Черницын, Руководитель Центра аналитических решений Дирекции региональных продаж «Газпром нефть»;
Михаил Петров, Директор департамента Цифровой трансформации, Счётная палата РФ.
Ольга Гнездилова CDO, Tele2;
Юрий Сирота, Chief Analitycs Officer, ПАО Уралсиб банк;
Виктория Краснова, CDO, Сибур;
Борис Рабинович, Старший управляющий директор департамента управления данными ПАО Сбербанк.
Наталья Третьякова, CDO, Газпром нефть;
Максат Нуриденулы, Управляющий директор и Chief Data&Operating Officer, Альфа-Банк Казахстан;
Андрей Обухов, СIO, Банк "УБРиР"
Алексей Точилов, Руководитель отдела хранения и обработки данных «Утконос»;
Александр Айваз, СDO Lamoda.

Подробности и регистрация: https://bit.ly/3brDGd6
Всем привет, ссылка на презентацию Михаила Садофьева - выступление по стратегии данных на прошлой неделе.

bit.ly/326zZ9K
Всем добрый день!

Анонс от наших партнеров:

CDO Award 2021: люди, чья сила в данных
Открыт прием заявок на получение премии для директоров по данным

Издательство «Открытые системы» и онлайн-ресурс «Директор информационной службы» объявляют о проведении ежегодного конкурса на получение премии CDO Award 2021.

CDO Award — первая в России отраслевая награда для директоров по данным (Chief Data Officer) и руководителей аналогичных должностей, доказавших профессионализм и мастерство в своей области. Конкурс проводится уже третий раз. Все больше российских компаний не только воспринимают данные как ресурс, но и используют их как полноценный актив, превращаясь в настоящий data-driven-бизнес.

Главная цель CDO Award — популяризация наиболее значимых российских достижений в области работы с данными. Премия адресована руководителям, в задачи которых входит определение стратегии работы с данными, принципов их хранения и обработки, политик их использования, а также формирование корпоративной культуры работы с данными с целью создания дополнительных ценностей для клиентов, достижения конкурентных преимуществ для организации, реализации социально значимых инициатив.

Организаторы приглашают к участию специалистов с впечатляющими проектами, готовых продемонстрировать силу данных и их возможности в трансформации бизнеса компаний.

Получив в прошлом году живой отклик профессионального сообщества на присуждение наград социально значимым проектам, организаторы расширили число номинаций премии, добавив в их перечень новую — «социальную». Также в отдельную номинацию выделены достижения в подготовке профессиональных кадров в области управления данными.

Награды будут вручаться:
• за создание новой бизнес-модели, основанной на данных,
• за повышение эффективности бизнеса,
• за реализацию инновационной идеи,
• за обеспечение качества данных,
• за достижения в подготовке специалистов по управлению данными,
• за реализацию социально значимых инициатив на основе данных.

По решению оргкомитета могут быть также учреждены специальные премии по дополнительным номинациям.

Заявки на участие в CDO Award 2021 будут приниматься до 31 января 2021 года.

Все подробности и детали: https://www.osp.ru/lp/cdoaward2021

Контакты организаторов для связи:
abramova@osp.ru, Яна Абрамова, ответственный секретарь премии CDO Award 2020

E-mail: abramova@osp.ru
Вышел очередной (пятый) выпуск Альманаха Искусственного Интеллекта, как всегда крайне рекомендую его к прочтению.

https://drive.google.com/file/d/1pSlyWCoD80svhMVLaEuMBXhk7xbJr9KV/view
Завтра будет интересное событие по теме CDI
Forwarded from HFLabs — о клиентских данных (Максим Пименов)
Продолжаем сезон вебинаров. 17 сентября мы в онлайне спроектируем мастер-систему клиентских данных. Спикером будет Михаил Берёзин, главный по CDI-платформе HFLabs «Единый клиент».

О чем пойдет речь
Вебинар будет полезен, даже если ничего не знаете о CDI и управлении клиентскими данными. Для начала Михаил даст основы. С технической стороны, но без программирования и совсем уж хардкора.

— Cначала рассмотрим основные проблемы в клиентских данных;
— спроектируем мастер-систему клиентских данных;
— разберем, откуда появляются данные и изменения в них, как на изменения должна реагировать CDI-система;
— обсудим этапы работы с клиентскими данными.

Кому будет полезно
Вебинар пригодится аналитикам, дата-инженерам и архитекторам. А также руководителям IT-подразделений, которые задумываются о своем CDI-решении.

Регистрируйтесь в Zoom
us02web.zoom.us/webinar/register/1115996498584/WN_UZbBMG-CSju8tqNNpyHCgQ.

На почту придет ссылка, а за час до события — напоминание. Мероприятие начнется в 18:00 и продлится час
Всем добрый вечер!

Мы со Светланой Бова, CDO, Управляющий директор, вице-президент Департамент трансформации ПАО «ВТБ», согласовываем мероприятие на октябрь. Светлана попросила провести опрос, чтобы понять, что вам сейчас актуальнее и интереснее. Ниже будет 5 тем, выбирать можно несколько. В комментарииях к опросу можете предложить другие темы.
Первого октября совместно с дата инженерами Dodo Pizza проводим 4-й митап DE or DIE. В этот раз одна из тем может быть интересна и для аудитории Клуба CDO: "Data governance – что это, зачем, и с чего начать". Андрей Вихров, главный системный аналитик Связного, расскажет, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся Андрею российские и мировые практики. Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.

Его выступление будет в промежутке 19:15-20:15, 1 октября. Регистрация по ссылке: https://deordie.timepad.ru/event/1435939/
Опять про DWH vs DataLake

Сегодня опять обратимся к теме отличия Data Warehouse от Data Lake, на что натолкнула статья по ссылке ниже.
В ней, как во многих других подобных сравнениях, делается попытка сравнения по таким параметрам как “тип данных: структурированный/несруктуированный”, “пользователи” и тп

Но, один из критериев мне показался самым правильным и фундаментальным - цель!
Помните, как в Матрице, “у каждой программы должна быть цель”? Каждая система написана для чего то, и именно цель определяет средства и технические особенности реализации системы.

У DWH цель - дать пользователям возможность принятия решений на основе данных, у DL - обеспечить максимально дешевое хранение данных с возможностью их дальнейшей утилизации.

И у каждой организации, которая имплементирует то, или иное решение, могут уже индивидуально определятся и структурирование/неструктурированые данные, роли пользователей, кейсы работы с данными и ETL схемы, объемы и источники данных. Главное - правильно понимать цель создания решения по хранению и обработке данных.

Статья по ссылке:

https://www.smartdatacollective.com/differentiating-between-data-lakes-and-data-warehouses/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
20 октября будет, кажется, интересное мероприятие на английском языке – Data Leaders Europe Virtual Event. Хороший шанс послушать об опыте коллег из Европы. Среди тем заявлены, например такие:
- Keynote Panel: Defining the role of the future CDO post pandemic: What skillsets and capabilities does the modern CDO need to best influence business strategy and successfully cultivate a data-driven culture?
- Panel: How can you best structure your data division to work effectively with evolving business requirements and enable agile data delivery?

Будет также и интересный кейс для любителей Формулы 1:
- Case Study: Advancing data strategies to inform decision making: Exploring how the FI are leveraging machine learning and image recognition tools to optimise track signage and maximise exposure for sponsors amidst a global pandemic

С полной программой можно ознакомиться по ссылке. Там же – пройти регистрацию.

https://www.wbresearch.com/events-data-leaders-eu-october-2020
Всем добрый день!
Рады анонсировать следующее мероприятие в рамках Клуба CDO. 💫

Когда: 29 октября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента трансформации ПАО «ВТБ»

Сохраняйте в календаре, ссылку на zoom пришлем ближе к ивенту.
Всем привет! Хочу поделиться книжкой, если вдруг кто-то думает что почитать: не книга, а восторг, особенно первая половина про 50-70 годы и зарождение автоматизации. Если в приводимым там цитатах пионеров кибернетики чуть-чуть поменять слова, то вообще не будет ничем отличаться ситуация от того, что пишут про ИИ и роботов в современной прессе :))
вот так оно все и начиналось

https://www.litres.ru/tomas-rid-18380362/rozhdenie-mashin-neizvestnaya-istoriya-kibernetiki/
Всем привет! Сегодня небольшой обзор полезной тулы.

Важным элементом управления данными в организации является орагнизация функции Discovery - то есть обеспечение доступности данных с точки зрения следующих вопросов:

- Эти данные существуют? Где это находится? Каков источник достоверности этих данных? Есть ли у меня к нему доступ?
- Кто и/или какая команда является владельцем? Кто обычные пользователи?
- Могу ли я использовать существующие работы для своих задач?
- Могу ли я доверять этим данным?

Для того чтобы пользователи могли отвечать на эти вопросы, в организации необходимо создать управление meta-данными и для этого обычно используют специализированные решения типа Data Catalog.

На рынке появляются все больше решений такого рода и одно из них показалось мне интересным. Это open-source продукт Amundsen, созданный компанией Lyft.

Проект написан на Python, поставляется в удобном Docker-контейнере, имеет довольно много интеграций с популярными системами обработки данных.

Рекомендую обратить внимание:

https://www.amundsen.io
Всем привет! Меня тут один товарищ попросил поделиться с ним материалами по теме Distributed systems. Я какое-то время назад проходил соответствующий курс, и у меня такие материалы накопились с тех пор, я их немного систематизировал и структурировал.

Может быть, кому-то тут эти материалы могут быть также полезны и интересны, поэтому решил поделиться.

Что внутри:

Во-первых, файл ddms.xml, в котором собрано оглавление темы в целом: какие надо знать и понимать термины и определения, основные алгоритмы, примеры систем и платформ, устройство и функционирование которых надо понимать в деталях любому инженеру, который имеет дело с распределенными системами обработки данных, что сегодня равно вообще всему понятию BigData в частности.

Во-вторых, сами материалы: книги, статьи, научные публикации, лекции, презентации + мои собственные заметки по теме.

Все материалы взяты из открытых источников и каждый по отдельности можно найти в Интернете, тут они просто собраны в одно место.

Ну и если у кого то есть чем дополнить этот сет – буду рад добавлениям.

https://www.dropbox.com/sh/ypg2vuhi04uocvk/AAC41ojyts9tsaIqJsxTwOZUa?dl=0