Клуб CDO
2.89K subscribers
360 photos
23 videos
85 files
1.4K links
Сообщество профессионалов в области работы с данными и искуственным интеллектом
Download Telegram
Data Mesh в «Леруа Мерлен»: DIY в работе с данными

В журнале Computerworld опубликована очередная статья из серий интервью в рамках премии CDO Award 2021. В статье Дмитрий Шостко, CDO компании Леруа Мерлен, описывает подход компании к работе с данными. Основной особенностью является полная децентрализация не только организационной структуры функции DS, но и реализация технологической платформы работы с данными по принципу Data Mesh.

Так же хочу отметить актине использование компанией облачных технологий. Главное требование к платформе было горизонтальное масштабирование платформы. Поэтому ориентировались на работу в облаке (быть cloud ready), проектировали платформу с учетом этого (быть cloud native) и даже предусмотрели возможность платформы работать в нескольких облаках одновременно (быть cloud agnostic).

Аналитическое хранилище начали строить на платформе Greenplum, и результаты подтвердили правильность этого выбора. Но данные, которые туда загружаются, должны быть доступны в реальном времени. Так платформа была дополнена решениями Apache Kafka, а также NiFi, AirFlow и Debezium, отвечающие за процесс загрузки.


Полный текст интервью по ссылке:

https://www.computerworld.ru/cio/articles/251220-Data-Mesh-v-Lerua-Merlen-DIY-v-rabote-s-dannymi?fbclid=IwAR1K1kle_vlcjJsDU0sooRAprv3dNW1Cfk39torfX6HGPoI2i80Pu6G9rz0
Миру нужна новая операционная система для обмена данными

Интересное предложение высказано в статье Мурата Сонмез, главы Центра четвертой промышленной революции и управляющего директора Всемирного экономического форума.
Идея относиться к организации защиты данных, а точнее даже знаний, которые мы из них получаем. Проблема связана с тем, что данные очень тяжело защитить от переиспользования. Как только мы какими-то данными/знаниями с кем то поделились - мы утрачиваем возможность дальнейшего контроля и это является большим барьером для развития тем совместного использования данных. На этой проблеме пытаются взлететь криптомерии-энтузиасты с блокчейном, а так же разные провайдеры, предлагают всегда-защитные “анклавы данных” (что бы это не значило. Почему я тут использую термин псевдо? Потому что природу не обманешь и использование таких решений ограничивается периметром самих этих решений. Короче, как только данные оказываются в периметре какой то другой системы - контроль теряется. То есть вся экосистема связанных систем, обеспечивающих цепочку сырые данные - обработанные- информация-знания-действие-обратная связь-сырые данные - должны быть в одном периметре контроля. Что на практике нереально если мы говорим о том, что в цепочке используется решения разных компаний.

Так вот в статье делается фундаментальное предложение, что нужно делать отдельную операционную системы, в которой реализовать специальные функции контроля доступа к данным и на базе которой уже делать разработку прикладных решений. Собственно, общая операционная система и будет обеспечивать идею, что все прикладные решения будут находиться в едином “виртуальном” контуре контроля.

Такая операционная система должны иметь:
⁃ механизмы уведомления и запроса согласия, с помощью которых владельцы данных смогут устанавливать способы и сроки использования информации, а также возможность ее платного или бесплатного применения.
⁃ механизм сертификации приложений, использующих различные пакеты данных
⁃ прозрачный механизм для оценки данных

Полный текст стаьи:

https://cdo2day.ru/mir-dannyh/miru-nuzhna-novaja-operacionnaja-sistema-dlja-obmena-dannymi/
Небольшой оффтоп, но может быть кому-то окажется полезным

Мой список "лучших книг года" 🙂

Итак, в номинации "Книга года" побеждает: роман "Дорога" Маккарти Кормака!

Несмотря свой небольшой объем именно она вызвала наибольший эмоциональный отклик и оставила отпечаток в душе.

Из оставшихся 99 книг, прочитанных в этом году, однозначно повторного прочтения заслуживают:

Номинация "Библия программиста":
- Чистый код: создание, анализ и рефакторинг by Robert C. Martin

Номинация "Художественная литература":
- Вспоминая моих грустных шлюх by Gabriel García Márquez
- Нейромант by William Gibson
- Видоизмененный углерод by Richard K. Morgan

Номинация "Научно-популярная литература":
- Человек и компьютер: Взгляд в будущее by Гарри Каспаров
- Структура реальности by David Deutsch
- Рождение машин. Неизвестная история кибернетики by Thomas Rid
- Искусственный Интеллект by Роман Душкин
- Язык как инстинкт by Steven Pinker

Номинация "Бизнес литература":
- Scrum на практике. Высокая продуктивность и результаты — прямо сейчас by Джей Джей Сазерленд
- Зона победы. Управление в эпоху цифровой трансформации by Джеффри Мур
- Бесконечная игра. В бизнесе побеждает тот, кто не участвует в гонке by Саймон Синек
- Principle-Centered Leadership by Stephen R. Covey
- Между клизмой и харизмой by Самвел Аветисян
- 45 Татуировок личности by Максим Батырев
- Ген директора. 17 правил позитивного менеджмента по-русски by Владимир Моженков

Номинация "Саморазвитие":
- Выбор: О свободе и внутренней силе человека by Edith Eger
- Просто делай! Делай просто! by Oskar Hartmann
- Как быть стоиком: Античная философия и современная жизнь by Massimo Pigliucci
- Наедине с собой. Максимы by Marcus Aurelius
- 12 Rules for Life: An Antidote to Chaos by Jordan B. Peterson
Друзья, поздравляю всех с наступающим Новым годом! Здоровья, удачи, много денег, интересных задач и проектов!
Обратите внимание, что прямо перед новым годом вышел очередной аналитический сборник "Альманах искусственный интеллект". Очередной выпуск посвящен теме обучению с подкреплением. Самые громкие результаты последнего времени связаны именно с ней: AlphaGo, AlphaZero, Dota2 и Starcraft. И, хотя сейчас в этой области в России очень мало работ, авторы считают, что это самая перспективная область для исследования.

https://aireport.ru/rl
State of AI 2020 - краткие выводы (часть 1)

Раннее публиковал новость о выходе отчета State of AI от 01/10/20 - ниже краткие тезисы по результатам прочтения:

⁃ NLP - самая горячая тема этого года, чему способствовали появление новых языковых моделей (GPT-3) и то, что крупные компании тратят свои ресурсы на обучение таких больших моделей
⁃ AI начинает трансформировать область биологии. Уже после выхода отчета появился AlphaFold - алгоритм моделирования структуры белка, который может существенно помочь в разработке новых лекарств. И COVID-19 был тут не последним катализатором.
⁃ Область AI продолжает “закрываться”. Только 15% опубликованных научных работ раскрывают программный код.
⁃ США продолжают доминировать в научной среде, открываются новые, специализированные под AI институты
⁃ Квантовые вычисления пока еще развиваются, за 20 год сильных прорывов не было
⁃ Проблемы AI Governance оказались не так сильны, как прогнозировалось
⁃ PyTorch побеждает Tensoflow в исследованиях, но Tensoflow остается силен в продакшене
⁃ Стоимость обучения GPT-3 - около $10М
⁃ Большим нейронным сетям надо меньше данных, чем маленьким, для достижения того же уровня качества обучения
⁃ Объяснимость выводов аналитических моделей является очень важным фактором для распространения AI, особенно в медицине
⁃ Механизмы внимания активно внедряются в задачи компьютерного зрения
⁃ Китай старается в области AI, но 54% ученых, которые после окончания университета в Китае публикуются на NeurIPS, переезжают в США
⁃ Сильно возрастает важность MLOps, что является сигналом того, что индустрия переходит от стадии RnD к стадии промышленной эксплуатации
⁃ RPA является самой востребованной технологией в Enterprise среде
State of AI 2020 - краткие выводы (часть 2)

Основные предсказания на следующие 8-12 месяцев:
⁃ Продолжение появления новых, еще более сложных языковых моделей
⁃ Новые достижения в области компьютерного зрения за счет применения методов внимания
⁃ Усиление инвестиций в AI со стороны военных
⁃ Закрытие корпоративных AI лабораторий за счет изменения стратегий компаний
⁃ Nvidia все таки купит ARM
Хорошее саммари самых основных вещей на тему Datawarehouse. Основные тезисы что это, зачем, как и тд.

Автор все довольно четко раскладывает по полочкам. Полезно освежить знания :)

https://link.medium.com/1awxDAR8Rcb
Стратегия совершенства_summary.pdf
8.4 MB
OFFTOP: хочу порекомендовать всем отличную книгу "Стратегия совершенства" Тома Питерса в ее последней, адаптированной редакции. Это по сути сборник бизнес-мудростей, который автор собирал годами. ИМХО отличный заменитель десятка совеременных бизнес-книг.

Для тех, кому лень читать самим - делюсь моими заметками.

https://www.litres.ru/tom-piters/strategiya-sovershenstva/?utm_source=google&utm_medium=cpc&utm_campaign=search_dsa_ohvat_f%7C2087774395&utm_term=&utm_content=375733693663%7Bphrase_id%7D_%7Bsource%7D_%7Bsource_type%7D_%7Bregion_name%7D_9047030&param_2=987239&gclid=EAIaIQobChMI5P6Stv2Q7gIVEdayCh3iWwRxEAAYASAAEgJ-m_D_BwE
Привет Switch Transformers от Google Brain, пока GPT-3 от OpenAi

Ресерчеры из Google Brain предложили метод, благодаря которому можно обучать языковые модели с более чем триллионом обучаемых параметров. Что на порядок превосходит вышедшую в 2020, и наделавшую много шума, модель GPT-3 от OpenAI.

Основное новшество — Switch Transformer, базирование на котором снижает вычислительную сложность языковой модели (ускорение в ~7х раз) в сравнении с предыдущим подходом: T5-Base.

📄 Paper
💻 Код Switch Transformer
Metadata management

Я тут все планирую сделать обзоры ряда решений типа “Data Portal” от ряда крупных компаний, поскольку мне тема управления мета-данными кажется очень важной и актуальной для текущей повестки. Тема новая для рынка, хороших и проверенных решений мало, лидеры квадранта Gartner стоят много денег и очень много компаний (Uber) просто начинают писать такие решения “под себя”. При этом эти платформы предлагаются в режиме OpenSource, что делает их особенно привлекательными.

Но тут возник вопрос ко всем: может быть кто-то, кто уже внедрил у себя в компании что то подобное, хочет поделиться своим опытом со всеми? Дайте знать, если готовы поделиться материалами или хотя-бы напиши в комментариях, что используете (всем будет интересно)?

Что планируется к обзору:

Uber: https://eng.uber.com/databook/
Lyft: https://eng.lyft.com/amundsen-lyfts-data-discovery-metadata-engine-62d27254fbb9
LinkedIn: https://engineering.linkedin.com/blog/2019/data-hub
Apache Atlas: https://atlas.apache.org/#/

А вообще количество решений довольно уже большое: https://awesomeopensource.com/projects/metadata
Хочу обратить ваше внимание на статью подписчика этого канала Алексея Артемова о его опыте развертывания и настройки портала управления данными Atlas.

https://medium.com/@lexaneon/apache-atlas-quick-start-part-i-rest-ui-9084e46fa5db
обнаружил тут в списках "посмотреть позже" записи с конференции Ростелекома DataTalks 2.0, которая прошла в ноябре прошлого года. в 2019 эта конференция очень понравилась, была сфокусирована максимально на темах управления качеством данных и максимально практичных вещах. Надеюсь, что и в этом году повестка осталась соответствующей. К сожалению записи не "нарезаны" на отдельные выступления, поэтому придется смотреть целиком 🙂

День первый: https://www.youtube.com/watch?v=MmG2W8u7mUU

День второй: https://www.youtube.com/watch?v=YHWPyKnZs_k&t=8524s
DataRobot_MLOps_101_Guide.pdf
8.9 MB
MLOps

Еще одна тема, которая становиться супер важной в области работы с данными - MLOps. Это набирающий популярность термин обозначает организацию процесса взаимодействия людей, практик и базовых технологий, которые автоматизируют развертывание, мониторинг и управление моделями машинного обучения (ML) в промышленном режиме работы масштабируемым и полностью управляемым способом, чтобы обеспечить измеримую ценность для бизнеса от машинного обучения. Важность и необходимость заниматься этой дисциплиной диктуются тем, что все больше ML экспериментов переходят в стадию коммерческой эксплуатации. Как всегда, при этом выявляется, что затраты непосредственно на разработку ML модели это, условно, те же 20% от всех затрат, связанных с промышленной реализацией.

Компания DataRobot выпустила хороший обзор MLOps 101: The Foundation for Your AI Strategy в котором описывает основные аспекты этой тематики: зачем нужен MlOps, что такое мониторинг и развертывание ML моделей, что какое Product Model Governance и тд
Всем привет! Мы начинаем подготовку очередной встречи Клуба CDO, планируем ее на февраль. Проводить будем в онлайн формате.

Если есть какие-то темы, которые хочется/важно обсудить, или если кто то хочет рассказать о своих практиках и кейсах - напишите в комментарии или админам группы!

Спасибо!
Интресная статья на Хабре об аналитической инфраструктуре Wheely.

Что особенного:
- используют эластичные сервисы Amazon Redshift, за счет чего могут легко масштабировать хранилище
- Concurrency Scaling позволит поднять временный кластер для того чтобы справиться с пиковой нагрузкой (автоматически добавляет вычислительные мощности в виде временных compute nodes, которые "гасятся" после спада нагрузки)
- Redshift имеет встроенные (но расширяемые) механизмы сжатия данных и автоматическое управление параллелизмом запросов и выделением ресурсов


Вместе с расширением Redshift Spectrum кластер приобритает возможности полноценного Data Lake и Wheely использует это для:
- Data Quality Pipeline
- Архивирование холодных данных в S3

Есть крутые фичи Amazon Redshift, которые уже находятся в статусе preview (пока доступны для тестовых кластеров):

- Using machine learning in Amazon Redshift
- Ingesting and querying semistructured data in Amazon Redshift


https://m.habr.com/ru/company/wheely/blog/539154/