Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто следит за современными технологиями и инструментами работы с данными, подборка материалов для чтения, подписки:
- Data Stack News - ежемесячная рассылка от команды Meltano о том как развивается их open source проект по управлению потоками данных и с материалами по современным стекам обработки данных.
- Open Source Data Stack Conference - материалы конференции по инструментам сборки собственного стека данных из решений с открытым кодом. Обзор таких продуктов как dbt, Meltano, Superset, Dagster и многих других.
- The Modern Data Stack - большая коллекция инструментов, ресурсов, вебинаров и иных полезных материалов по современному стеку данных
- Modern Data Experience и Devops and the Modern Data Experience - две полезные заметки в стиле Writing is thinking (писать - это думать) о том как меняется современное воприятие данных в компаниях/командах работающих с данными непрерывно. Мыслей много, поговорить о них и подумать вслух тоже стоит.
- Emerging Architectures for Modern Data Infrastructure - большой обзор современных инструментов экосистемы работы с данными от команды a16z.
- Headless Business Intelligence - интересная концепция построения BI систем без GUI/UI, по аналогии с headless CMS. По той же теме полезный для изучения инструмент Supergrain созданнфй по модели API-first BI platform.
- The State of Data Quality Monitoring in 2021 - обзор инструментов контроля качества данных за 2021 год от Metaplane.
- The Modern Data Stack: Open-source Edition - взгляд на современный стек данных от компании Datafold.

Особенность большей части инструментов в теме Modern Data Stack что у них почти нет аналогов для импортозамещения, только много инструментов с открытым кодом. Отчасти потому что российский рынок не так велик как хотелось бы, отчасти потому что если есть команда делающая инструменты по работе с данными то проще сразу делать его на мировую аудиторию, а не на внутренний рынок.

#moderndatastack #datastack #data #reading
У DataIKU [1], платформы для совместной работы над Data Science проектами, вышел небольшой обзор 3 Keys to a Modern Data Architecture Strategy Fit For Scaling AI [2].

Как и практически все продукты на текущем рынке работы с данными, ML/AI они пишут про своё место в Modern Data Stack определяя его в блоках трансформации данных (Transform) и Data Science.

Тут важно понимать что DataIKU - это дорогая платформа для крупных компаний ещё и с сильным акцентом на ИТ безопасность, потому они и пишут в своём обзоре что миграция в облако не так уж небезопасна. Год назад я пытался у продавцов DataIKU выяснить стоимость их продукта, но даже 5 писем и 3-х созвонов с ними не хватило и ответа я так и не получил, хотя и сам продукт интересный и его бесплатную версию интересно посмотреть хотя бы для понимания как такие продукты устроены и можно ли сделать более дешёвую, дружелюбную альтернативу.

Ссылки:
[1] https://www.dataiku.com
[2] https://content.dataiku.com/modern-data-architecture/modern-data-architecture

#datascience #moderndatastack #data #dataproducts
Подборка свежих, новых или интересных open source инструментов по работе с данными.
- Tapestry Pipeline [1] - система управления данными с открытым кодом. Управления не в смысле management, а в смысле orchestration. Более точным переводом будет оркестровка, но по русски это звучит немного странно. Сам же движок. Выполняет те же задачи что и другие data orchestration frameworks [2] такие как Flyte, Prefect, Dagster и др. Интегрируется в dbt, Airbyte и другими инструментами.
- Prefect Orion [3] как пишут сами авторы the second-generation workflow orchestration engine. А то есть система управления потоками данных второго поколения. О нем же в блоге Prefect [4] с акцентом на то что можно не разделять обработку данных пачками и потоками.
- Prefect Artifact API [5] те же Prefect добавили Artifact API в последний open-source релиз. Это API для визуализации данных проходящих оркестровку и с демо использования Great Expectations как движка по контролю качества данных.
- Guardian [6] система управления доступом к базам данным и инструментам их обработки. Сейчас поддерживает Google BigQuery, Metabase, Airflow и облачные хранилища. Нет UI, но есть продвинутая командная строка и управление через yaml конфигурационные файлы. Проект делает команда ODPF (Open DataOps Foundation) из Индии и у них же большая подборка проектов на open source для разных аспектов работы с данными [7]
- Optimus [8] ещё один проект по оркестровке данных, от той же команды ODPF. Без UI, всё с командной строки. Сосредоточено вокруг Google Big Query, полезно тем кто создает продукты в этой среде. Но, находится в состоянии "глубокой разработки", API может часто меняться. Надо отдать должное, в ODPF любят и умеют документировать продукты.
- DataX [9] инструмент от команды Alibaba по синхронизации данных между разными СУБД, в том числе принципиально разными SQL и NoSQL. Такими как Postgres, Oracle, MongoDB, TSDB и другие. Почти всё на китайском языке. А также AddaX [10] построенный на DataX и чуть более развитый, как обещает автор. Тоже почти всё на китайском. Все учим китайский!

Ссылки:
[1] https://tapestry-pipeline.github.io
[2] https://www.moderndatastack.xyz/companies/Data-Orchestration
[3] https://orion-docs.prefect.io
[4] https://medium.com/the-prefect-blog/you-no-longer-need-two-separate-systems-for-batch-processing-and-streaming-88b3b9c1a203
[5] https://medium.com/the-prefect-blog/introducing-the-artifacts-api-b9e5972db043
[6] https://github.com/odpf/guardian
[7] https://github.com/odpf
[8] https://github.com/odpf/optimus
[9] https://github.com/alibaba/DataX
[10] https://github.com/wgzhao/Addax

#data #datatools #opensource #datapipelines #moderndatastack
У ORelly свежий отчет What Is Data Observability? [1] написанный Andy Petrella, основателем платформы Kensu.io, как раз по data observability. Отчёт, при этом, совершенно не рекламный, а как раз с разъяснением что такое наблюдаемость данных, кому это нужно и в каких ситуациях. Сравнений платформ, продуктов и решений нет, но есть аргументы, архитектура и описание DataOps без упоминания термина, вместо него, Applying DevOps Practices to Data, но смысл не меняется.

Если передать своими словами и как я понимаю, то Data Observability - это система/подход в мониторинге данных и всех происходящих с ними процессов: хранилищ, пайплайнов, дашбордов, преобразований, контроля качества, потоков и так далее. Остро актуально для больших корпораций со множеством команд работающих с данными и большим числом источников данных, продуктов на данных, хранилищ и так далее. Чуть менее актуально для средних компаний и совсем не так сильно актуально для небольших дата-команд и небольших стартапов потому и так всё на виду, процессов мало, хранилищ тоже.

Во многом продукты по Data Observability проистекает из нарастающей сложности систем из которых создаётся современный стек данных и позволяет эту сложность хотя бы переводить в управляемое состояние.


Ссылки:
[1] https://www.kensu.io/oreilly-report-what-is-data-observability

#data #moderndatastack
dbt Labs привлекли рекордные $222M инвестиций [1] при общей оценке в $4.2B (миллиардов долларов США) на свой продукт dbt Cloud. Сумма очень большая, но совершенно не удивительно что это произошло. Я ранее писал о том что dbt в каком-то смысле уникальный продукт давший второе рождение SQL. Если ранее каждый продукт по сбору или оркестрации данных обеспечивал самостоятельные механизмы их преобразования, то сейчас многие заменяют или подключают dbt под эти задачи. Фактически dbt становится индустриальным стандартом де-факто, действительно не так много альтернатив пригодных к немедленной промышленной эксплуатации.

Главный же недостаток dbt в "убийстве NoSQL". Многие продукты которые подчеркивали свои NoSQL языки запросов сейчас оказываются периферийными, находящимися за пределами Modern Data Stack или же определяемые как унаследованные базы данных, за пределами основных операционных процессов.

В любом случае, тем кто изучает SQL и работает с базами хотя бы от сотен таблиц, знание dbt есть и будет крайне полезным для профессионального развития и позиционирования себя на рынке труда.

Ссылки:
[1] https://blog.getdbt.com/next-layer-of-the-modern-data-stack/

#moderndatastack #startups #data #dbt
A different way to "bundle" Data Platforms [1] заметка от Petr Janda о другом подходе к категоризации современного стека данных. К существующим категориям Ingestion, Storage, Transformation, Virtualization, он добавляет кросс-категории перекрывающие эти: Provisioning, Scheduling, Access Management, Logging, Alerting.
Классификация вполне полезная, покрывающая многие задачи решаемые этими инструментами и то какие возможности ожидаются от продуктов.

Команда продукта Atlan по каталогизации данных привлекла $50M инвестиций в его развитие. По многим критериям это один из наиболее интересных продуктов по data lineage, отслеживания происхождения данных и каталогизации данных и метаданных [2].

Canner, тайваньский продукт построения data mesh, получил $3.5M инвестиций [3]. Они обещают, по сути, единую платформу с интеграцией с десятком видов хранилищ данных и с инструментами для потребления данных. Странно что при этом инвестиции невелики, впрочем это серия A инвестиций. Плюс вся документация на китайском языке [4]. Общедоступного продукта у них нет, только по запросу. Но документация весьма подробна.

Ссылки:
[1] https://petrjanda.substack.com/p/data-platform-bundle
[2] https://humansofdata.atlan.com/2022/03/atlan-raises-series-b/
[3] https://cannerdata.com/product
[4] https://docs.cannerdata.com/

#data #startups #moderndatastack
Полезное чтение про modern data stack

- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно

Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1

#datatools #opensource #reading #data #moderndatastack
Вышла обновление к публикации Emerging Architectures for Modern Data Infrastructure [1] к оригинальной публикации Matt Bornstein, Jennifer Li, Martin Casado вышедшей в 2020 году.

Структура и описания стали ещё четче, контур Modern Data Stack понятнее. Полезное для всех кто хочет понять свою текущую или будущую нишу на рынке данных. Как объяснить инвесторам где твой проект? Открыть эту схему и ткнуть в прямоугольник.

Ссылки:
[1] https://future.a16z.com/emerging-architectures-modern-data-infrastructure/

#moderndatastack #data #dataarchitecture
Graphana Labs, разработчики продуктов с открытым кодом и облачного сервиса по мониторингу всякого, в основном связанного с DevOps привлекли $240 миллионов инвестиций [1]. Причём их хотя и можно отнести к DevOps, но у них в интеграциях заложено, например, подключение к Snowflake, и продукт позиционируется всё больше как observability platform, а тут естественное развитие в сторону интеграции в modern data stack.


Ссылки:
[1] https://grafana.com/about/press/2022/04/06/grafana-labs-announces-240-million-investment-round-led-by-gic-and-welcomes-new-investor-j.p.-morgan/

#data #startups #devops #moderndatastack
Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.

Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]

Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.

Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/

#data #reading #tools #moderndatastack