Инжиниринг Данных

State of the art - замечательный Landing Page, судя по-всему сделан Airbyte. Не знаю насколько можно ему верить, но зарплата в 600к в наши дни для "честных" инженеров, мне кажется, редкость, даже в долине. Хотя после массовых увольнений акции Meta, Microsoft, Amazon пошли вверх. В Канаде, по моим подсчетам, можно за год заработать 600к+ канадских, но как было сказано в видео выше, про стоимость жизни в Канаде, очень обидно отдавать 50% на налоги, при этом содержать бомжей и дармоедов и на дом мечты, да и просто на дом, все равно не хватит. Не будем о грустном, лучше про опрос.

В нем поучаствовало 886 человек. Я думаю, что это определенная аудитория, которая использует популярные решения, то есть высокая вероятность bias.

Сразу видно вывод - Insight 1: Airbyte and Fivetran are clear leaders for Data Ingestion layer. Ну, понятно же, за счёт счет банкет. Fivetran использую, работает Окей.

Как же без dbt - Insight 2: dbt has most positive sentiment for Data Transformation, but pandas is actually most used. Вообще сравнивать dbt и pandas, ну такое. Наверно где-то потерялся Excel, тем более dbt for Excel существует.

Insight 3: Snowflake and BigQuery clearly at the top for Data Warehouses; Azure Synapse lagging behind badly - я даже больше сажу, Snowflake явно лидирует. А Synapse уже заменили на Fabric. И Microsoft не будет тягаться в категории хранилищ, у них платформа, у других даже шансов нет. Обычно сравнивают Databricks vs Snowflake, ну тут решили не палить конкурента.

Insight 4: For Data Orchestration, most people are still using self hosted Airflow, but Dagster is coming up the ranks - действительно Airflow очень популярен. Про dagster не знаю, а вотPrefect используем. Да и с Airflow open source очень много проблем, никакой стабильности.

Insight 5: For Business Intelligence, the giants Looker and Tableau are still ruling the roost, but there is also significant churn from Tableau to the newer set of solutions - Power BI явно не популярен среди тех, кто использует dbt, snowflake, aiflow. Оно и понятно, это совсем другая аудитория.

Insight 6: For Data Quality, Great Expectations and Monte Carlo are leading the pack, but more people have not yet tried or explored the tools than have - мне тоже очень нравится MonteCarlo. Не раз уже спасал своими алертами. Там свои алгоритмы, которые собирают различную статистику по использованию, загрузки таблиц. Действительно полезная вещь. Но можно тоже самое и бесплатно сделать.

Insight 7: For Reverse ETL, Hightouch and Census are neck and neck, but the vast majority of the market is still up for grabs. Использую только Hightouch. До сих пор не очень понял ценность этих игрушек дорогих, все можно сделать через API, но время сокращает.

Insight 8: For Data Catalogs, DataHub, Atlan and Amundsen are leading for now, but the vast majority of the market is also up for grabs - Я сейчас работаю с Alation. И в другом месте добавляем DataHub. Все каталоги бесполезные без кураторства.

Еще из интересного список podcasts&youtube channels&data communities.

Чего не хватает:
- Решений по стримингу и возможно use cases по стримингу
- предпочтения по языку для работы с данными, не у всех же Python
- соотношения code vs SQL для работы с данными
- вообще кто-то среди них использует облачный hadoop?
- DevOps для аналитики (terraform bicep, cloud formation), git, CI/CD

State of data 2023

❤‍🔥26🗿3

7.1K viewsDmitry, edited 20:49