Вышел очередной (пятый) выпуск Альманаха Искусственного Интеллекта, как всегда крайне рекомендую его к прочтению.
https://drive.google.com/file/d/1pSlyWCoD80svhMVLaEuMBXhk7xbJr9KV/view
https://drive.google.com/file/d/1pSlyWCoD80svhMVLaEuMBXhk7xbJr9KV/view
Google Docs
Альманах ИИ №5_Web_v.1.7.pdf
Forwarded from HFLabs — о клиентских данных (Максим Пименов)
Продолжаем сезон вебинаров. 17 сентября мы в онлайне спроектируем мастер-систему клиентских данных. Спикером будет Михаил Берёзин, главный по CDI-платформе HFLabs «Единый клиент».
О чем пойдет речь
Вебинар будет полезен, даже если ничего не знаете о CDI и управлении клиентскими данными. Для начала Михаил даст основы. С технической стороны, но без программирования и совсем уж хардкора.
— Cначала рассмотрим основные проблемы в клиентских данных;
— спроектируем мастер-систему клиентских данных;
— разберем, откуда появляются данные и изменения в них, как на изменения должна реагировать CDI-система;
— обсудим этапы работы с клиентскими данными.
Кому будет полезно
Вебинар пригодится аналитикам, дата-инженерам и архитекторам. А также руководителям IT-подразделений, которые задумываются о своем CDI-решении.
Регистрируйтесь в Zoom
us02web.zoom.us/webinar/register/1115996498584/WN_UZbBMG-CSju8tqNNpyHCgQ.
На почту придет ссылка, а за час до события — напоминание. Мероприятие начнется в 18:00 и продлится час
О чем пойдет речь
Вебинар будет полезен, даже если ничего не знаете о CDI и управлении клиентскими данными. Для начала Михаил даст основы. С технической стороны, но без программирования и совсем уж хардкора.
— Cначала рассмотрим основные проблемы в клиентских данных;
— спроектируем мастер-систему клиентских данных;
— разберем, откуда появляются данные и изменения в них, как на изменения должна реагировать CDI-система;
— обсудим этапы работы с клиентскими данными.
Кому будет полезно
Вебинар пригодится аналитикам, дата-инженерам и архитекторам. А также руководителям IT-подразделений, которые задумываются о своем CDI-решении.
Регистрируйтесь в Zoom
us02web.zoom.us/webinar/register/1115996498584/WN_UZbBMG-CSju8tqNNpyHCgQ.
На почту придет ссылка, а за час до события — напоминание. Мероприятие начнется в 18:00 и продлится час
Всем добрый вечер!
Мы со Светланой Бова, CDO, Управляющий директор, вице-президент Департамент трансформации ПАО «ВТБ», согласовываем мероприятие на октябрь. Светлана попросила провести опрос, чтобы понять, что вам сейчас актуальнее и интереснее. Ниже будет 5 тем, выбирать можно несколько. В комментарииях к опросу можете предложить другие темы.
Мы со Светланой Бова, CDO, Управляющий директор, вице-президент Департамент трансформации ПАО «ВТБ», согласовываем мероприятие на октябрь. Светлана попросила провести опрос, чтобы понять, что вам сейчас актуальнее и интереснее. Ниже будет 5 тем, выбирать можно несколько. В комментарииях к опросу можете предложить другие темы.
Какая тема (-ы) вам наиболее интересны:
Anonymous Poll
46%
1. Как выстроить эффективные процессы управления качеством данных? Теория и практика
22%
2. Подготовка к продаже проекта по данным
44%
3. Cdo: иллюзии и реальность. Что ожидается от cdo и каков конкретный состав функций
30%
4. Первые 100 дней cdo
27%
5. Практикующий cdo как практикующий хирург: больно, но жизненно необходимо😁
Всем привет! Стали доступны записи и презентации конференции Kafka Summit 2020
https://www.confluent.io/resources/kafka-summit-2020/
https://www.confluent.io/resources/kafka-summit-2020/
Confluent
Kafka Summit 2020 - Confluent
Confluent is building the foundational platform for data in motion so any organization can innovate and win in a digital-first world.
Материалы форума INFADAY 2020 - мероприятия компании Informatica по теме управления данными (Data Governance) стали доступны для оффлайн просмотра.
https://infaday.ru/?utm_campaign=%D0%9C%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%B0%D0%BB%D1%8B+%D0%B2%D0%B5%D0%B1%D0%B8%D0%BD%D0%B0%D1%80%D0%B0+Data+Governance+%D0%B4%D0%BB%D1%8F+%D1%80%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE+%D1%81%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%B0&utm_content=%D0%94%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D0%B8%D0%B8+%D1%84%D0%BE%D1%80%D1%83%D0%BC%D0%B0+INFADAY2020+%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%BD%D1%8B+%D0%B2+%D0%B7%D0%B0%D0%BF%D0%B8%D1%81%D0%B8+&utm_medium=dis_group&utm_source=getresponse
https://infaday.ru/?utm_campaign=%D0%9C%D0%B0%D1%82%D0%B5%D1%80%D0%B8%D0%B0%D0%BB%D1%8B+%D0%B2%D0%B5%D0%B1%D0%B8%D0%BD%D0%B0%D1%80%D0%B0+Data+Governance+%D0%B4%D0%BB%D1%8F+%D1%80%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%B3%D0%BE+%D1%81%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%B0&utm_content=%D0%94%D0%B8%D1%81%D0%BA%D1%83%D1%81%D1%81%D0%B8%D0%B8+%D1%84%D0%BE%D1%80%D1%83%D0%BC%D0%B0+INFADAY2020+%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%BD%D1%8B+%D0%B2+%D0%B7%D0%B0%D0%BF%D0%B8%D1%81%D0%B8+&utm_medium=dis_group&utm_source=getresponse
Первого октября совместно с дата инженерами Dodo Pizza проводим 4-й митап DE or DIE. В этот раз одна из тем может быть интересна и для аудитории Клуба CDO: "Data governance – что это, зачем, и с чего начать". Андрей Вихров, главный системный аналитик Связного, расскажет, в чем практическая суть этой функции, как минимальными усилиями начать использовать ее там, где это принесет первоочередную выгоду, а также куда потом развиваться. В докладе будет рассмотрен опыт построения DG в ОМК и Связном, а также наиболее запомнившиеся Андрею российские и мировые практики. Основное внимание будет уделено построению бизнес-глоссария, а также базовым приемам обеспечения качества данных.
Его выступление будет в промежутке 19:15-20:15, 1 октября. Регистрация по ссылке: https://deordie.timepad.ru/event/1435939/
Его выступление будет в промежутке 19:15-20:15, 1 октября. Регистрация по ссылке: https://deordie.timepad.ru/event/1435939/
deordie.timepad.ru
DE or DIE #4 / События на TimePad.ru
DE or DIE – митап, сделанный дата инженерами для дата инженеров
Опять про DWH vs DataLake
Сегодня опять обратимся к теме отличия Data Warehouse от Data Lake, на что натолкнула статья по ссылке ниже.
В ней, как во многих других подобных сравнениях, делается попытка сравнения по таким параметрам как “тип данных: структурированный/несруктуированный”, “пользователи” и тп
Но, один из критериев мне показался самым правильным и фундаментальным - цель!
Помните, как в Матрице, “у каждой программы должна быть цель”? Каждая система написана для чего то, и именно цель определяет средства и технические особенности реализации системы.
У DWH цель - дать пользователям возможность принятия решений на основе данных, у DL - обеспечить максимально дешевое хранение данных с возможностью их дальнейшей утилизации.
И у каждой организации, которая имплементирует то, или иное решение, могут уже индивидуально определятся и структурирование/неструктурированые данные, роли пользователей, кейсы работы с данными и ETL схемы, объемы и источники данных. Главное - правильно понимать цель создания решения по хранению и обработке данных.
Статья по ссылке:
https://www.smartdatacollective.com/differentiating-between-data-lakes-and-data-warehouses/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
Сегодня опять обратимся к теме отличия Data Warehouse от Data Lake, на что натолкнула статья по ссылке ниже.
В ней, как во многих других подобных сравнениях, делается попытка сравнения по таким параметрам как “тип данных: структурированный/несруктуированный”, “пользователи” и тп
Но, один из критериев мне показался самым правильным и фундаментальным - цель!
Помните, как в Матрице, “у каждой программы должна быть цель”? Каждая система написана для чего то, и именно цель определяет средства и технические особенности реализации системы.
У DWH цель - дать пользователям возможность принятия решений на основе данных, у DL - обеспечить максимально дешевое хранение данных с возможностью их дальнейшей утилизации.
И у каждой организации, которая имплементирует то, или иное решение, могут уже индивидуально определятся и структурирование/неструктурированые данные, роли пользователей, кейсы работы с данными и ETL схемы, объемы и источники данных. Главное - правильно понимать цель создания решения по хранению и обработке данных.
Статья по ссылке:
https://www.smartdatacollective.com/differentiating-between-data-lakes-and-data-warehouses/?utm_source=feedburner&utm_medium=feed&utm_campaign=Smart+Data+Collective+%28all+posts%29
SmartData Collective
Data Lake Vs. Data Warehouse: What Is The Difference?
When it comes to the question of data lake vs. data warehouse, it's often forgotten that they're very different components with varied roles.
20 октября будет, кажется, интересное мероприятие на английском языке – Data Leaders Europe Virtual Event. Хороший шанс послушать об опыте коллег из Европы. Среди тем заявлены, например такие:
- Keynote Panel: Defining the role of the future CDO post pandemic: What skillsets and capabilities does the modern CDO need to best influence business strategy and successfully cultivate a data-driven culture?
- Panel: How can you best structure your data division to work effectively with evolving business requirements and enable agile data delivery?
Будет также и интересный кейс для любителей Формулы 1:
- Case Study: Advancing data strategies to inform decision making: Exploring how the FI are leveraging machine learning and image recognition tools to optimise track signage and maximise exposure for sponsors amidst a global pandemic
С полной программой можно ознакомиться по ссылке. Там же – пройти регистрацию.
https://www.wbresearch.com/events-data-leaders-eu-october-2020
- Keynote Panel: Defining the role of the future CDO post pandemic: What skillsets and capabilities does the modern CDO need to best influence business strategy and successfully cultivate a data-driven culture?
- Panel: How can you best structure your data division to work effectively with evolving business requirements and enable agile data delivery?
Будет также и интересный кейс для любителей Формулы 1:
- Case Study: Advancing data strategies to inform decision making: Exploring how the FI are leveraging machine learning and image recognition tools to optimise track signage and maximise exposure for sponsors amidst a global pandemic
С полной программой можно ознакомиться по ссылке. Там же – пройти регистрацию.
https://www.wbresearch.com/events-data-leaders-eu-october-2020
Всем добрый день!
Рады анонсировать следующее мероприятие в рамках Клуба CDO. 💫
Когда: 29 октября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента трансформации ПАО «ВТБ»
Сохраняйте в календаре, ссылку на zoom пришлем ближе к ивенту.
Рады анонсировать следующее мероприятие в рамках Клуба CDO. 💫
Когда: 29 октября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента трансформации ПАО «ВТБ»
Сохраняйте в календаре, ссылку на zoom пришлем ближе к ивенту.
Всем привет! Хочу поделиться книжкой, если вдруг кто-то думает что почитать: не книга, а восторг, особенно первая половина про 50-70 годы и зарождение автоматизации. Если в приводимым там цитатах пионеров кибернетики чуть-чуть поменять слова, то вообще не будет ничем отличаться ситуация от того, что пишут про ИИ и роботов в современной прессе :))
вот так оно все и начиналось
https://www.litres.ru/tomas-rid-18380362/rozhdenie-mashin-neizvestnaya-istoriya-kibernetiki/
вот так оно все и начиналось
https://www.litres.ru/tomas-rid-18380362/rozhdenie-mashin-neizvestnaya-istoriya-kibernetiki/
ЛитРес
Рождение машин. Неизвестная история кибернетики – Томас Рид
Альтернативная история кибернетики, проливающая свет на процессы и силы, на самом деле стоявшие за компьютерными разработками. Начиная с 40-х годов XX века и заканчивая нашими днями, автор приводит полные, достоверные, а поро…
Всем привет! Сегодня небольшой обзор полезной тулы.
Важным элементом управления данными в организации является орагнизация функции Discovery - то есть обеспечение доступности данных с точки зрения следующих вопросов:
- Эти данные существуют? Где это находится? Каков источник достоверности этих данных? Есть ли у меня к нему доступ?
- Кто и/или какая команда является владельцем? Кто обычные пользователи?
- Могу ли я использовать существующие работы для своих задач?
- Могу ли я доверять этим данным?
Для того чтобы пользователи могли отвечать на эти вопросы, в организации необходимо создать управление meta-данными и для этого обычно используют специализированные решения типа Data Catalog.
На рынке появляются все больше решений такого рода и одно из них показалось мне интересным. Это open-source продукт Amundsen, созданный компанией Lyft.
Проект написан на Python, поставляется в удобном Docker-контейнере, имеет довольно много интеграций с популярными системами обработки данных.
Рекомендую обратить внимание:
https://www.amundsen.io
Важным элементом управления данными в организации является орагнизация функции Discovery - то есть обеспечение доступности данных с точки зрения следующих вопросов:
- Эти данные существуют? Где это находится? Каков источник достоверности этих данных? Есть ли у меня к нему доступ?
- Кто и/или какая команда является владельцем? Кто обычные пользователи?
- Могу ли я использовать существующие работы для своих задач?
- Могу ли я доверять этим данным?
Для того чтобы пользователи могли отвечать на эти вопросы, в организации необходимо создать управление meta-данными и для этого обычно используют специализированные решения типа Data Catalog.
На рынке появляются все больше решений такого рода и одно из них показалось мне интересным. Это open-source продукт Amundsen, созданный компанией Lyft.
Проект написан на Python, поставляется в удобном Docker-контейнере, имеет довольно много интеграций с популярными системами обработки данных.
Рекомендую обратить внимание:
https://www.amundsen.io
www.amundsen.io
Amundsen, the leading open source data catalog
Всем привет! Меня тут один товарищ попросил поделиться с ним материалами по теме Distributed systems. Я какое-то время назад проходил соответствующий курс, и у меня такие материалы накопились с тех пор, я их немного систематизировал и структурировал.
Может быть, кому-то тут эти материалы могут быть также полезны и интересны, поэтому решил поделиться.
Что внутри:
Во-первых, файл ddms.xml, в котором собрано оглавление темы в целом: какие надо знать и понимать термины и определения, основные алгоритмы, примеры систем и платформ, устройство и функционирование которых надо понимать в деталях любому инженеру, который имеет дело с распределенными системами обработки данных, что сегодня равно вообще всему понятию BigData в частности.
Во-вторых, сами материалы: книги, статьи, научные публикации, лекции, презентации + мои собственные заметки по теме.
Все материалы взяты из открытых источников и каждый по отдельности можно найти в Интернете, тут они просто собраны в одно место.
Ну и если у кого то есть чем дополнить этот сет – буду рад добавлениям.
https://www.dropbox.com/sh/ypg2vuhi04uocvk/AAC41ojyts9tsaIqJsxTwOZUa?dl=0
Может быть, кому-то тут эти материалы могут быть также полезны и интересны, поэтому решил поделиться.
Что внутри:
Во-первых, файл ddms.xml, в котором собрано оглавление темы в целом: какие надо знать и понимать термины и определения, основные алгоритмы, примеры систем и платформ, устройство и функционирование которых надо понимать в деталях любому инженеру, который имеет дело с распределенными системами обработки данных, что сегодня равно вообще всему понятию BigData в частности.
Во-вторых, сами материалы: книги, статьи, научные публикации, лекции, презентации + мои собственные заметки по теме.
Все материалы взяты из открытых источников и каждый по отдельности можно найти в Интернете, тут они просто собраны в одно место.
Ну и если у кого то есть чем дополнить этот сет – буду рад добавлениям.
https://www.dropbox.com/sh/ypg2vuhi04uocvk/AAC41ojyts9tsaIqJsxTwOZUa?dl=0
Dropbox
DDMS
Shared with Dropbox
Forwarded from Ivan Begtin (Ivan Begtin)
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.
По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.
Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
#data #bigdata #report
По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.
Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/
#data #bigdata #report