Свежий обзор The Modern Data Stack Ecosystem: Spring 2022 Edition [1] от Continual.ai, Конечно, как и все, они описывают Modern Data Stack с точки зрения их места в экосистеме, но, собственно и сам термин так активно используется стартапами именно для того чтобы показать позиционирование своего продукта. Удивительно что для MDS ещё нет холста в популярных системах проектирования вроде Miro и т.д.
Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]
Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.
Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/
#data #reading #tools #moderndatastack
Обзор полезный, например, автор отмечает отход от SQL-only подхода в преобразовании данных и в dbt рассматривают вариант включить поддержку non-SQL [2] и Snowflake рассматривают добавление Python-in-DB через Snowpark [3]
Главный недостаток именно этого обзора с слабом покрытии инструментов с открытым кодом, их там совсем немного упомянуто. Зато роли и применение продуктов стартапов довольно много.
Ссылки:
[1] https://continual.ai/post/the-modern-data-stack-ecosystem-spring-2022-edition
[2] https://roundup.getdbt.com/p/disjointed-lineage
[3] https://www.snowflake.com/blog/snowpark-is-now-generally-available/
#data #reading #tools #moderndatastack
continual.ai
The Modern Data Stack Ecosystem: Spring 2022 Edition
In this article, we take a peek at what is developing in the modern data stack ecosystem and summarize the main tools and vendors to consider when reaching for new functionality.
Написал очередной текст на английском про будущее NoSQL в Modern Data Stack [1]. В этот раз не писал с нуля, а перевел свою февральскую статью [2] с русского на английский.
Заметка о том почему NoSQL продукты вроде MongoDB выпадают из современного стека данных и что с этим можно поделать.
Ссылки:
[1] https://medium.com/@ibegtin/future-of-nosql-in-modern-data-stack-f39303bc61e8
[2] https://begtin.substack.com/p/23
#data #datacatalogs #nosql #moderndatastack
Заметка о том почему NoSQL продукты вроде MongoDB выпадают из современного стека данных и что с этим можно поделать.
Ссылки:
[1] https://medium.com/@ibegtin/future-of-nosql-in-modern-data-stack-f39303bc61e8
[2] https://begtin.substack.com/p/23
#data #datacatalogs #nosql #moderndatastack
Medium
Future of NoSQL in Modern Data Stack
Modern data stack is a new concept of interconnected data products. It has a different architecture than enterprise all-in-one data…
В рубрике полезных инструментов по работе с данными сервис My MLOps Stack [1] позволяет собрать собственный стек технологий для Machine Learning выбрав инструменты под определенные задачи. К инструментам есть пояснения, их категоризация и целевое назначение. Также сильный акцент на open-source инструменты, без упоминания больших платформ. Но как один из инструментов моделирования технологического стека весьма полезный инструмент.
Ссылки:
[1] https://mymlops.com/
#datatools #moderndatastack #mlops
Ссылки:
[1] https://mymlops.com/
#datatools #moderndatastack #mlops
Для тех кто интересуется тем что такое Modern Data Stack [1] у вики сервиса дата каталога Castor собрана большая подборка технологий / стека данных используемых многими компаниями и стартапами такими как Coca-Cola, Airbnb, Amazon, Canva, Uber и другие. Стартапы чаще рассказывают о своих технологиях чтобы привлечь инженеров к решению интересных задач используя современные технологии, так что стартапов там будет больше.
Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․
И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]
Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.
Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin
#moderndatastack #datatools
Другой интересный источник того чтобы понимать какие технологии в компаниях используются - это сервис StackShare [2] где разработчики/команды делятся впечатлениями от использования сервисов и программных продуктов и там же описаны многие технологические стеки стартапов, компаний, проектов и не только в части данных. Например, стек образовательного сервиса Udemy [3]․
И, наконец, сайт Modern Data Stack [4] с каталогом именно современных стеков данных разных компаний. Здесь всё расписано по группам продуктов и сфокусировано только на данных. Стеков описано меньше, зато фокус чётче. К примеру, стек данных LinkedIn [5]
Конечно, воспроизводить один в один чужой стек данных - занятие довольно бессмысленное, у большинства нетиповых компаний нетиповые потребности и свой технический долг под который собирает стек данных. Но регулярно изучать что делают компании на рынке схожего с Вашей бизнес моделью и размером - всегда полезно.
Ссылки:
[1] https://castordoc.notion.site/15b14f305db6416f9e6d4772ffaeef07?v=c9fd105e248c4feca587b0462e066b4d
[2] https://stackshare.io
[3] https://stackshare.io/udemy/udemy
[4] https://www.moderndatastack.xyz
[5] https://www.moderndatastack.xyz/stacks/linkedin
#moderndatastack #datatools
Castor on Notion
Who uses what?
A new tool for teams & individuals that blends everyday work apps into one.
Вышла версия 2.0 Meltano [1] ELT движка интегрированного в Modern Data Stack, все изменения как раз про эту интеграцию. В частности там поддерживается:
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики
И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.
Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/
#opensource #datatools #etl #elt #moderndatastack
- dbt для трансформации данных
- Great Expectations для качества данных
- Airflow для управления потоками данных
- Superset для аналитики
И ещё много чего. На поляне ELT у Meltano сейчас возможно наилучший потенциал, растущее сообщество и хорошее развитие продукта. Если думать с каким ELT движком интегрировать свои продукты то Meltano - это хороший вариант.
Ссылки:
[1] https://meltano.com/blog/meet-meltano-2-0/
#opensource #datatools #etl #elt #moderndatastack
Meltano
Meet Meltano 2.0: Your End-to-end, Open Source DataOps Platform Infrastructure | Meltano
Meltano 2.0 represents a major step toward our vision of becoming the foundation of every team’s ideal data stack.
Критический разбор понятия Lakehouse [1] когда-то представленный в научной статье сотрудниками Databricks [2]․ Lakehouse декларируется как замена озер данных и хранилищ данных со специализацией на машинном обучении и data science. Одна из ключевых особенностей в хранении данных в форматах ORC и Parquet․ Но, в целом, автор критикует статью с акцентом на отсутствие вызовов которые решались бы предлагаемым подходом что всё это больше похоже на маркетинг, а не на новый подход.
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Lakehouse было придумано в Databricks и Databricks, как и многие продукты в Modern Data Stack, всё более агрессивно продвигают свои архитектуру и маркетинговые термины.
На близкую тему у Benn Stancil очередная отличная заметка про "пороховую бочку в modern data stack" [3] о том что как бы создатели продуктов не играли в кооперацию и не пытались следовать совету Питера Тиля "не соревнуйтесь" [4], тем не менее многие компании уже действуют так словно они сражаются с конкурентами [5].
У того же было Benn Stancil хорошее определение Modern Data Stack [6] с точки зрения конечного выгодоприобретателя. Во многом оно сводится к решению о том как ... всем делать свою работу вместо того чтобы ожидать от них работу аналитиками.
Ссылки:
[1] https://0x0fff.com/lakehouse/
[2] https://www.cidrdb.org/cidr2021/papers/cidr2021_paper17.pdf
[3] https://benn.substack.com/p/powder-keg
[4] https://www.wsj.com/articles/peter-thiel-competition-is-for-losers-1410535536
[5] https://news.yahoo.com/snowflake-ceo-why-you-must-declare-war-on-your-competitors-183109540.html
[6] https://benn.substack.com/p/the-modern-data-experience
#moderndatastack #data
Distributed Systems Architecture
Lakehouse
I have just read the “Lakehouse: A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics” paper and decided to write a short blog post going through some of the key moments of the paper’s motivation. Let’s start. A decade ago…
Такое чувство что всех дата продуктами интересуется, пользуется и развивается как аналитик данных и дата инженер не обошла тема modern data stack. Я регулярно писал о том как эта концепция набирала обороты последние 2-3 года и сейчас превратилась в какой-то непрерывный хайп. Вот и автор текста Is It Time To Rebrand (or Rethink) the Modern Data Stack? [1] соучредитель стартапа Validio задаётся тем же вопросом.
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Не пора переосмыслить само это понятие?
А с другой стороны интервью с основателем dbt по поводу партнерств в Modern data stack [2].
Лично я бы сказал так, что для применения в гос продуктах modern data stack пока, практически, невозможен или крайне ограничен, поскольку все танцы с бубном тут вокруг облачных хранилищ и их экосистемы.
А для стартапов и корпоративных продуктов и дата инфраструктуры это актуально, но надо делить на 10 все обещания "серебрянных пуль". И отдавать себе отчет в рисках и моделировании инфраструктуры из десятков компонентов вне своего прямого контроля.
Ссылки:
[1] https://betterprogramming.pub/is-it-time-to-rebrand-or-rethink-the-modern-data-stack-5d76366e3c95
[2] https://www.madrona.com/dbt-labs-founder-tristan-handy-on-the-modern-data-stack-partnerships-and-creating-community/
#moderndatastack #data #readings
Полезное про данные, технологии и не только։
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.
Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable
#opensource #data #startups #moderndatastack
- glidesort [1] презентация и открытый код для Rust [2] по ускоренному алгоритму сортировки данных от Orson Peters студента Phd в Database Architecture group at CWI Amsterdam. По многим оценкам может быть гораздо эффективнее на современных процессорах через использование параллельных вычислений.
- What's the Modern Data Stack? [3] очередная попытка найти ответ на вопрос что такое современный стек данных. Небесполезная для внутреннего понимания и использования продуктов по работе с данными
- 2023 State of Databases for Serverless & Edge [4] обзор сервисов для работы с СУБД без серверов, довольно большой спектр услуг и активно растущий
- Select Star Raises $15 Million in Series A Funding Led by Lightspeed Venture Partners [5] стартап Select Star получил $15M на следующий раунд, что интересно продукт у них можно сказать уже типовой, каталог метаданных/данных. Таких довольно много, но инвесторы, похоже, всё ещё видят в этом рынке потенциал
- APITable [6] очередная попытка создать продукт с открытым кодом с возможностями как у AirTable. Выглядит интересно, но надо тестировать. В области low-code продуктов именно альтернативы AirTable имеют хороший потенциал, потому что применение почти универсально.
Ссылки։
[1] https://fosdem.org/2023/schedule/event/rust_glidesort/
[2] https://github.com/orlp/glidesort
[3] https://technically.substack.com/p/whats-the-modern-data-stack
[4] https://leerob.substack.com/p/databases-serverless-edge
[5] https://www.businesswire.com/news/home/20230131005354/en/Select-Star-Raises-15-Million-in-Series-A-Funding-Led-by-Lightspeed-Venture-Partners
[6] https://github.com/apitable/apitable
#opensource #data #startups #moderndatastack
archive.fosdem.org
FOSDEM 2023 - Glidesort
По всему миру неприятные новости по стартапы и увольнения, помимо того что теперь стало значительно сложнее найти венчурные средства, так ещё и увольнения идут не только в и бигтехе, но и в, казалось бы, очень неплохо чувствующим себя стартапам. И вот оказывается в dbt Labs увольнения [1] и это при том что год назад они привлекли $222M инвестиций и, в принципе, обладают одним из наиболее востребованных продуктов интегрированным в большую часть инфраструктуры входящей в Modern Data Stack.
Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.
Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials
#itmarket #it #moderndatastack #dbt
Но, теперь они сокращают 15% сотрудников, а то есть дела не так хороши как хотелось бы.
Несмотря на это надо оговориться что рынок ИТ и рынок данных по прежнему остаётся рынком соискателя, а не работодателя. Сокращения уменьшают число комфортных и особенно интересных мест работы, но работы много и даже очень много.
Ссылки:
[1] https://www.getdbt.com/blog/dbt-labs-update-a-message-from-ceo-tristan-handy/
[2] https://www.crunchbase.com/organization/dbt-labs/company_financials
#itmarket #it #moderndatastack #dbt
dbt Labs
dbt Labs Update: a Message from CEO Tristan Handy | dbt Labs
dbt is a data transformation tool that enables data analysts and engineers to transform, test and document data in the cloud data warehouse.
Свежий доклад State of Data Engineering 2024 от команды LakeFS.
Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.
Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.
Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.
И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.
А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.
#datatools #opensource #stateof #dataengineering #moderndatastack #readings
Подмечают три ключевых тренда:
1. Генеративный ИИ влияет на инструментарий в Modern Data Stack
2. Конкуренция дата продуктов растёт и, соответственно, моё дополнение, цена выхода на рынок с новым продуктом.
3. Открытые форматы создают закрытые заборы. В центре конфликт между Databricks и Snowflake.
Последнее утверждение спорное, скорее речь о том что есть такой конфликт на рынке, а уж каким образом и что используется при нем - не это в его основе.
Что характерно в таких обзорах State of ... так то что от 75 до 95 процентов инструментов, по разным категориям, это облачные продукты. К российским реалиям, к примеру, они не применимы. Как и ко многим особо закрытым не-российским стекам данных.
И, кстати, чтобы не забыть, составители таких State of продолжают путать открытые данные и каталоги открытых данных и корпоративные каталоги. А это очень разные продукты под очень разные задачи.
А если бы я выпускал свой State of data ... то делал бы два отдельных. Один для облака, а другой для корп оффлайна. А может быть даже и три. Ещё один для корп оффлайна открытого кода.
#datatools #opensource #stateof #dataengineering #moderndatastack #readings