Клуб CDO – Telegram

Клуб CDO

2.89K subscribers

360 photos

23 videos

85 files

1.4K links

Сообщество профессионалов в области работы с данными и искуственным интеллектом

Download Telegram

About

Blog

Apps

Platform

2.89K subscribers

Data Mesh в «Леруа Мерлен»: DIY в работе с данными

В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.

Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).

Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.

Полный текст интервью по ссылке:

https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0

843 viewsDenis Afanasev, 18:44

👍 18 👎💬

Миру нужна новая операционная система для обмена данными

Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.

Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.

Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных

Полный текст стаьи:

https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/

Миру нужна новая операционная система для обмена данными — CDO2DAY

О ценности данных в современном мире свидетельствует хотя бы стоимость технологических компаний, которая превышает ВВП многих стран мира. Как разработать прозрачный и честный механизм, который позволит людям и компаниям использовать экономический потенциал…

681 viewsDenis Afanasev, 13:05

👍 5 👎 6 💬

Небольшой оффтоп, но может быть кому-то окажется полезным

Мой список "лучших книг года" 🙂

Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!

Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.

Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:

Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin

Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan

Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker

Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков

Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson

822 viewsDenis Afanasev, 08:00

👍 18 👎 1 💬 1

Друзья, поздравляю всех с наступающим Новым годом! Здоровья, удачи, много денег, интересных задач и проектов!

679 viewsDenis Afanasev, 14:22

👍 27 👎 1 💬

Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl

AI Report - Обучение с подкреплением

Альманах Искусственный Интеллект №7. Обучение с подкреплением

881 viewsDenis Afanasev, 07:06

👍 8 👎💬

State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде

733 viewsDenis Afanasev, 10:48

👍 5 👎💬

State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM

788 viewsDenis Afanasev, 10:48

👍 5 👎💬

State of AI Report 2020 - ONLINE.pdf

1.1K viewsDenis Afanasev, 10:50

👍 9 👎💬

Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.

Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)

https://link.medium.com/1awxDAR8Rcb

829 viewsDenis Afanasev, 08:55

👍 9 👎 1 💬

Стратегия совершенства_summary.pdf

OFFTOP: хочу порекомендовать всем отличную книгу "Стратегия совершенства" Тома Питерса в ее последней, адаптированной редакции. Это по сути сборник бизнес-мудростей, который автор собирал годами. ИМХО отличный заменитель десятка совеременных бизнес-книг.

Для тех, кому лень читать самим - делюсь моими заметками.

https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030&param_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE

1.1K viewsDenis Afanasev, edited 09:00

👍 17 👎 1 💬

Forwarded from Мишин Лернинг 🇺🇦🇮🇱

Привет Switch Transformers от Google Brain, пока GPT-3 от OpenAi

Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.

Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.

📄 Paper
💻 Код Switch Transformer

626 viewsDenis Afanasev, 17:59

Metadata management

Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.

Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?

Что планируется к обзору:

• Uber: https://eng.uber.com/databook/
• Lyft: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
• LinkedIn: https://engineering.linkedin.com/blog/2019/data-hub
• Apache Atlas: https://atlas.apache.org/#/

А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata

801 viewsDenis Afanasev, 19:00

👍 25 👎💬 4

Хочу обратить ваше внимание на статью подписчика этого канала Алексея Артемова о его опыте развертывания и настройки портала управления данными Atlas.

https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db

Apache Atlas- Quick start (part I — REST & UI)

The article aims to show base steps to work with Apache Atlas

825 viewsDenis Afanasev, 19:27

👍 7 👎💬

не в рамках рекламы - обратите внимание на концеренцию "Качество данных 2021"

https://www.osp.ru/lp/dataquality2021?utm_source=osp&utm_medium=email&utm_campaign=dataquality

Качество данных 2021

Конференция о том, как обеспечить качество данных в соответствии с целями использования, гарантировав их полноту, точность, корректность и актуальность.

1.2K viewsDenis Afanasev, 08:38

👍 5 👎💬

обнаружил тут в списках "посмотреть позже" записи с конференции Ростелекома DataTalks 2.0, которая прошла в ноябре прошлого года. в 2019 эта конференция очень понравилась, была сфокусирована максимально на темах управления качеством данных и максимально практичных вещах. Надеюсь, что и в этом году повестка осталась соответствующей. К сожалению записи не "нарезаны" на отдельные выступления, поэтому придется смотреть целиком 🙂

День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU

День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s

Онлайн конференция Ростелекома DataTalks 2.0. День 1

DataTalks 2.0 – это два дня в течение которых мы поговорим обо всех аспектах управления данными в современном мире. Вы узнаете, как эффективно управлять данными, какие есть подходы к работе с большими данными, поймете, как строят хранилища данных и какие…

694 viewsDenis Afanasev, 08:41

👍 7 👎💬

DataRobot_MLOps_101_Guide.pdf

MLOps

Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.

Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд

952 viewsDenis Afanasev, 12:50

👍 11 👎💬

Всем привет! Мы начинаем подготовку очередной встречи Клуба CDO, планируем ее на февраль. Проводить будем в онлайн формате.

Если есть какие-то темы, которые хочется/важно обсудить, или если кто то хочет рассказать о своих практиках и кейсах - напишите в комментарии или админам группы!

Спасибо!

1.1K viewsDenis Afanasev, 11:03

👍 21 👎💬

попался на глаза интересный список блогов/каналов по теме анализа данных, BI и тд. рекомендую посмотреть, могут быть интересные.

http://datalytics.ru/all/kogo-chitat-po-teme-analitiki-dannyh/?fbclid=IwAR03gW5KoWKaNqqN1jhYgqputU1-EsEoHAsDSgpPKgLsONf1xPk05GjX9xk

www.datalytics.ru

Кого читать по теме аналитики данных

«Мы видим больше и дальше, чем они, не потому, что взгляд у нас острее и сами мы выше...

875 viewsDenis Afanasev, 15:35

👍 10 👎💬

Интресная статья на Хабре об аналитической инфраструктуре Wheely.

Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов

Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3

Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):

- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift

https://m.habr.com/ru/company/wheely/blog/539154/

Аналитический движок Amazon Redshift + преимущества Облака

Привет, Хабр!
На связи Артемий Козырь из команды Аналитики, и я продолжаю знакомить вас с Wheely. В этом выпуске:

Основы гибких кластерных вычислений
Колоночное хранение и компрессия...

684 viewsDenis Afanasev, 19:57

👍 2 👎 1 💬

Выложена запись конфереции Privacy Day 2021

https://www.youtube.com/watch?v=9LaOJUYQKfc&list=WL&index=1&t=69s

Privacy Day 2021

28 января, в День защиты персональных данных, «РосКомСвобода» совместно с Digital Rights Center и Privacy Accelerator провела ежегодную Международную конференцию Privacy Day 2021 — о защите персональных данных и приватности. Мероприятие прошло уже в третий…

618 viewsDenis Afanasev, 12:14

👍 4 👎💬