Клуб CDO – Telegram

Клуб CDO

3.08K subscribers

380 photos

24 videos

88 files

1.44K links

Сообщество профессионалов в области работы с данными и искуственным интеллектом

Download Telegram

About

Blog

Apps

Platform

3.08K subscribers

Всем привет! Сегодня небольшой обзор полезной тулы.

Важным элементом управления данными в организации является орагнизация функции Discovery - то есть обеспечение доступности данных с точки зрения следующих вопросов:

- Эти данные существуют? Где это находится? Каков источник достоверности этих данных? Есть ли у меня к нему доступ?
- Кто и/или какая команда является владельцем? Кто обычные пользователи?
- Могу ли я использовать существующие работы для своих задач?
- Могу ли я доверять этим данным?

Для того чтобы пользователи могли отвечать на эти вопросы, в организации необходимо создать управление meta-данными и для этого обычно используют специализированные решения типа Data Catalog.

На рынке появляются все больше решений такого рода и одно из них показалось мне интересным. Это open-source продукт Amundsen, созданный компанией Lyft.

Проект написан на Python, поставляется в удобном Docker-контейнере, имеет довольно много интеграций с популярными системами обработки данных.

Рекомендую обратить внимание:

https://www.amundsen.io

www.amundsen.io

Amundsen, the leading open source data catalog

1.0K viewsDenis Afanasev, edited 19:41

👍 12 👎💬

Всем привет! Меня тут один товарищ попросил поделиться с ним материалами по теме Distributed systems. Я какое-то время назад проходил соответствующий курс, и у меня такие материалы накопились с тех пор, я их немного систематизировал и структурировал.

Может быть, кому-то тут эти материалы могут быть также полезны и интересны, поэтому решил поделиться.

Что внутри:

Во-первых, файл ddms.xml, в котором собрано оглавление темы в целом: какие надо знать и понимать термины и определения, основные алгоритмы, примеры систем и платформ, устройство и функционирование которых надо понимать в деталях любому инженеру, который имеет дело с распределенными системами обработки данных, что сегодня равно вообще всему понятию BigData в частности.

Во-вторых, сами материалы: книги, статьи, научные публикации, лекции, презентации + мои собственные заметки по теме.

Все материалы взяты из открытых источников и каждый по отдельности можно найти в Интернете, тут они просто собраны в одно место.

Ну и если у кого то есть чем дополнить этот сет – буду рад добавлениям.

https://www.dropbox.com/sh/ypg2vuhi04uocvk/AAC41ojyts9tsaIqJsxTwOZUa?dl=0

Shared with Dropbox

785 viewsDenis Afanasev, edited 14:17

👍 13 👎💬 2

Forwarded from Ivan Begtin (Ivan Begtin)

Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.

Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report

949 viewsDenis Afanasev, 04:38

Всем добрый день!

❗️Перенос даты мероприятия.

Когда: 5 ноября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента ИТ-архитектуры ПАО «ВТБ»

Сохраняйте в календаре, ссылку на zoom пришлем ближе к ивенту.

Изменения внесли в связи с проведением профильного мероприятия, которое вам может быть интересно 🙂

https://cdosummit.ru/?yclid=6307659164335509826

II Российский Саммит и Премия CDTO 2021 | 17 ноября 2021 | Москва

Конференция, посвященная обсуждению лучших digital-продуктов, практик, стратегий и бизнес моделей, которые позволяют современным компаниям отвечать вызовам цифровой экономики.

1.4K viewsElena Tretyakova, 11:52

👍 9 👎 1 💬

Всем добрый день!

Напоминаем про завтрашний онлайн ивент в рамках Клуба CDO.

Когда: 5 ноября, 19:00-20:30
Тема: «Как выстроить эффективные процессы управления качеством данных? Теория и практика»
Спикер: Светлана Бова, Управляющий директор, Вице-президент Департамента ИТ-архитектуры ПАО «ВТБ»

Ссылку на zoom запостим здесь завтра днём.

842 viewsElena Tretyakova, 08:02

👍 22 👎💬 3

❗️Друзья, нашу конференцию атаковали, мы вынуждены были прервать выступление Светланы.
Выступление перенесем на следующую неделю.

Если у вас есть предложения, как обезопаситься от атак, пожалуйста, напишите в комментариях.

Видимо, нам придется отказаться от размещения ссылки здесь, в публичном канале, чтобы больше такого не повторялось.

Светлана, сожалеем, что так произошло, будем искать более надежные варианты проведения онлайн ивента.

841 viewsElena Tretyakova, edited 16:46

👍 17 👎💬

Мероприятие наших друзей

722 viewsDenis Afanasev, 12:36

👍 3 👎💬

Forwarded from Цифровая экономика

🔺Организация «Цифровая экономика» и Gartner 9 ноября 2020 года с 13:00 до 15:00 (мск) проведут онлайн-встречу с лидерами цифровой трансформации.

🔺В ходе мероприятия предусмотрена трансляция из Барселоны сессии «Gartner Opening Keynote: Seize the Moment to Compose a Resilient Future» и обсуждение топ-10 технологических трендов 2021 года.

🔺Вместе с CDO ведущих компаний и государства мы обсудим тренды цифровой трансформации в мире и в России в 2021 году.

🔺К участию в дискуссии приглашены ведущие лидеры цифровой трансформации России, а также представители федеральных органов исполнительной власти.

🔺Модераторы встречи: Евгений Ковнир, генеральный директор организации «Цифровая экономика», и Максим Григорьев, исполнительный партнер Gartner.

👉Посмотреть прямую трансляцию можно по ссылке (https://bit.ly/353cM9J) на YouTube-канале «Цифровая экономика».

#цифроваяэкономика
#цифроваясреда

CDO Leaders Meeting

Тренды цифровой трансформации от Gartner в мире и в России в 2021 году.Вместе с CDO ведущих компаний и государства мы обсудим тренды цифровой трансформации в...

985 viewsDenis Afanasev, 12:36

Всем привет! Не могу не отметить оффтопик, но близкую мне новость 🙂

Проект “Цифровой профиль” стал лауреатом премии CNews AWARDS в номинации «Цифровой сервис года»

https://www.cnews.ru/news/line/2020-11-11_mintsifry_i_rt_labs_poluchili

Минцифры и «РТ Лабс» получили приз за лучший цифровой сервис года

Сервис запущен в мае 2020 г. совместно с Банком России

823 viewsDenis Afanasev, 16:18

👍 9 👎💬

Я уже ранее писал про один из инструментов управления meta данными от компании Lyft и вот еще интересный обзор похожего инструмента от компании LinkedIn.

Не буду тут повторять то, что хорошо описано в статье, но замечу, что управление meta данными является важнейшей частью процесса управления данными в целом и обеспечивает возможность повторного использования данных, их систематизацию, dicoverability и тд.

Инструменты, подобные Amudsen и DataHub замечены практически в любой крупной компании. Четко видно, что “единороги” сами разрабатывают такие инструменты под себя, в то время как традиционные корпорации выбирают известных вендоров, по типу Informatica, лидеров Gartner и тд.

https://habr.com/ru/post/520930/

DataHub: универсальный инструмент поиска и обнаружения метаданных

DataHub: универсальный инструмент поиска и обнаружения метаданных. Как оператор крупнейшей в мире профессиональной сети и экономического графика, отдел данных Li...

751 viewsDenis Afanasev, 07:17

👍 8 👎💬

CDO Award 2020 - Платформа больших данных

Началась публикация серии интервью номинантов премии CDO Award и первый материал от Банка ВТБ и Ростелеком о совместном проекте “Платформа Больших Данных” (ПБД).

Пока информации относительно проделанной работы и достигнутых результатов крайне мало. Самым значимым результатом является намерение об инвестиции 1 млрд р в данное СП со стороны основных акционеров. Пока у СП нет выручки, защищенной стратегии (она разрабатывается в течении этого года) и конкретных продуктов. Так же нет информации, собственно, об “управлении данными”, методиках, практиках и результатах.

Из интересных планов можно отметить: ПБД это в первую очередь “бизнес”, а не “технология” (что бы не смущало слово Платформа в названии) и основная задача - генерация выручки в областях рекламы, геомаркетинга, финансовых продуктов и облачных сервисов. Есть планы по разработке платформы обмена данными и маркетплейса моделей.

В качестве технологий будут ориентироваться на OpenStack, такие как Apache Kafka, Airflow, Hadoop, HBASE, Kudu, Ignite, Tableu и прочие (хотя Tableau проприетарный продукт).

Продолжаем следить за развитием событий и ждем основных результатов в 2021 году!

https://www.computerworld.ru/cio/articles/061120-Platforma-bolshih-dannyh-tandem-VTB-i-Rostelekoma-na-rynke-big-data?fbclid=IwAR0oKyueXB5pH-S1KpSMfn1ffdXBSlZcWaJoUedn4Ayohm-0isypgZaWTaI

Вестник цифровой трансформации | «Директор информационной службы»

«Платформа больших данных»: тандем ВТБ и «Ростелекома» на рынке big data

Максим Коновалихин, старший вице-президент, руководитель департамента анализа данных и моделирования банка «ВТБ», номинант премии CDO Award 2021, — о совместном предприятии с «Ростелекомом», его перспективах на рынке больших данных и о потенциальных возможностях…

816 viewsDenis Afanasev, 10:33

👍 6 👎💬

очень хороший доклад о практическом опыте внедрения подходов Data Governance

https://youtu.be/Dx7eyYW-dYo

Наталья Хапаева: Data Governance на минималках

Data Fest Online 2020
Data Governance track https://ods.ai/tracks/data-governance-df2020

Спикер: Наталья Хапаева, product owner в МТС

- Продуктовый подход к data governance ининциативе
- GovernanceOps и какие ops-подходы можно тут применить
- Как оценивать…

873 viewsDenis Afanasev, 12:38

👍 6 👎 2 💬

Forwarded from CDO2Day

🔄Нерегулируемое прилагательное

Попытки регулирования big data сталкиваются с естественным препятствием - определением больших данных. Кто и как будет решать, стали ли обрабатываемые компанией данные уже "большими" или все еще "маленькие"?

Президент Ассоциации больших данных Анна Серебряникова в своей колонке для @cdo2day замечает, что «большие данные» – это не категория информации, а ее признак, который предполагает большое количество различных и несовместимых друг с другом категорий данных.

Она призывает не пытаться создавать новые понятия для регулирования, а сосредоточиться на конкретных мерах по защите интересов граждан и бизнеса.

Как регулировать развивающийся рынок данных или почему большие данные не нужно определять — CDO2DAY

842 viewsDenis Afanasev, 07:56

a16z Podcast: The Great Data Debate

Довольно интересный подкаст обнаружил в блоге a16z (вообще, очень рекомендую этот ресурс) - дискуссия на тему трендов дата-архитектур. Вот, что из интересного отметил в ходе изучения.

Первый вопрос был на тему - кто в конечном счете победит: Data Lake или Data Warehouse. Спикеры отметили общий момент, что архитектура решений обработки данных и выбор технологий для их реализации должны, в первую очередь, определяться теми примерами использования данных, которые предполагаются к реализации. Тем не менее есть версия, что SQL и DWH быстро разовьются на горизонте 5 лет смогут ничем не уступать по удобству работы с полу-структурироваными данных. А за счет того, что SQL сам по себе очень удобен для работы с данными, Data Lake и технологии, на которых сейчас базируется эта архитектура, уйдут в прошлое. Тем не менее спикеры отмечают, что все больше и больше сейчас появляются примеров работы со сложными типами данных, какими как видео и изображения. Например, очень много такого рода данных обрабатываются в медицине. И Data Lake, как технология, направленная в первую очередь на поддержку AI и сложной аналитики данных, займет свое место в этой области. Не исключено, что SQL догонит NoSQL и в этой области, но спикеры ожидают это в перспективе 8-10 лет.

Исторический пример, к которому аппелируют спикеры, довольно нагляден. Когда BI, отчетность и dashboard стали набирать популярность в бизнесе, появился OLAP, как технология, которая лучше подходила для таких задач, чем традиционные базы данных. Тем не менее прошли годы и, с появлением колоночных баз данных, MPP и тд, про OLAP уже мало кто вспоминает. Ждет ли такая же участь современный NoSQL стек? Hadoop это уже настигло.

Обработка сложных данных набирает обороты и все больше кейсов их использования появляются в бизнесе, что требует усиления технологий в этой области и может ожидать появления крупных поставщиков в этой области технологий обработки данных.

Следует ожидает и усиление SQL в области Machine Leaning, но в течении следующих 3-х - 5 -ти лет будут доминировать гибридные подходы.

Кроме этого, спикеры отмечают Data Mesh как перспективную технологию децентрализации, которая продиктована организационными особенностями крупных организаций, где трудно централизовать все данные, а так же тренд в области архитектуры приложений, архитектура которых развивается в область создания целостных приложений, который могут как обрабатывать, так и применять данные. Сейчас, по классике, мы делаем обработку данных в DWH/DL и далее передает результаты в прикладное приложение для использования.

Далее был вопрос про скорость обработки данных - но тут ничего интересного озвучено не было. Да, надо определять компромис между скоростью и объемом, но разнообразность технологий позволяет реализовать любой такой компромис.

Полный текст и запись тут:

https://a16z.com/2020/11/12/a16z-podcast-the-great-data-debate/

The Great Data Debate

The future of data lakes, the new use cases for the modern data stack, and whether decentralization of teams and tools is the future.

889 viewsDenis Afanasev, 18:31

👍 13 👎💬

Forwarded from Технооптимисты

Привет, коллеги.

Кто следит за нашей деятельностью, тот, конечно же, знает, что мы в Агентстве Искусственного Интеллекта запустили новый проект — VIR Person. Да, мы замахнулись на высокое. И мы, так или иначе, добьёмся результатов. Несмотря на то, что из Топ-10 Архипелага 20.35 нас выгнали, мы не унываем, а воспринимаем как добрый знак.

А причину изгнания можете посмотреть на официальном канале проекта на Youtube. Ролик «Архипелаг 20.35. VIR Person». Если говорить фигурально, то нам позвонили из Администрации президента и сказали буквально следующее: «Блин, вы там офигели? В нашей стране магия по оживлению мёртвых запрещена! Кончайте там с этим!» Смотреть можно с 07:40. Такие дела...

Подписывайтесь на канал проекта.

768 viewsDenis Afanasev, 12:04

Интересный кейс выше - навел меня на мысль, что он ставил новые этические проблемы перед обществом - можно ли использовать цифровые копии умерших людей, кому принадлежат “права на образ” и тд. Вель уже сегодня ничего не мешает использовать образы актеров в новых фильмах и тд. Есть о чем подумать законодателям 🙂

817 viewsDenis Afanasev, 12:05

👍 3 👎 1 💬