Инжиниринг Данных

У python огромное количество библиотек, которые упрощают нашу жизнь. А вот у SQL совсем нет. В статье - Why SQL Needs Software Libraries, авторы как раз и обсуждают вопрос экосистемы вокруг SQL.

Future

Why SQL Needs Software Libraries

Fivetran CEO George Fraser discusses the lack of software libraries for SQL, and how their emergence could change the nature of data analysis.

👍22🔥5

9.16K viewsDmitry, 01:33

Инжиниринг Данных

Недавно был idea day, на котором я сделал прототип решения для сбора логов о работе data pipelines. Тут стоит сказать, что я это делал для Databricks на Azure, но это можно сделать на любом решении.

Идея простая - у меня есть pipeline, который читает данные, трансформирует и пишет. По умолчанию, если pipeline упадет я получу Email. Но у меня нет информации о работе кода - сколько времени грузил таблицу, сколько строк, сколько файлов в партиции и тп. А это важная информация для мониторинга. Вообще есть термин - data observability.

На одном из проектов, уже в AWS, я как раз использую продукт Datadog и у них на сайте есть информация о 3х столпах observability:
Monitor metrics, traces, and logs in one unified place.
- Collect and visualize metrics and set up alerts for potential issues for insights into the performance and health of your systems
- Optimize your application performance with end-to-end visibility into real requests and code with distributed tracing
- Cost-efficiently debug, audit, and analyze logs from all your services, applications, and platforms at scale
Track the three pillars of observability across your stack

В целом data dog это тот же Splunk, ElasticSearch или Azure Data Explorer (про который мы даже делали вебинар).

Возвращаюсь к Azure. Я хотел начать собирать дополнительные метрики о работе моих data pipelines, и было целых 3 варианта:
1) самый просто - после отработки операции я могу делать INSERT INTO audit_table все метрики прям в delta lake. Это такой простой вариант, которые подойдет вообще для всего.
2) так как мы используем Azure Data Factory, то я могу использовать ADF и после отработки activity передать значения в следующую activity, которая сделает INSERT INTO Azure SQL базу данных тех же метрик.
3) Использовать LOGGER и через него писать все в Log Analytics (Azure Data Explorer) и потом уже визуализировать и добавлять Alert.

Я выбрал именно вариант 3 по 2м причинам:
1) Это наше стандартное решение для операционной аналитики (ADX)
2) С точки зрения engineering excellence это топчик

Мне очень помогло вот это видео - Azure Databricks Monitoring with Log Analytics, в котором как раз показывает как сгенерить jars и закинуть их в Spark Cluster. А еще мне помог Леша из Северного Ванкувера, с которым мы пили сидр и генерили jars в docker, так что Леше привет🍻Осталось CI/CD добить в Devops и Gitlab;)

И чтобы знания о python decorators (о которых я писал ранее) не пропали, я добавил wrapper для функции write, которые и пишет в Log Analytics.

YouTube

Azure Databricks Monitoring with Log Analytics

* Updated video is available for Databricks Runtime 11.3 and above - https://www.youtube.com/watch?v=CVzGWWSGWGg

Log Analytics provides a way to easily query logs and setup alerts in Azure. This provides a huge help when monitoring Apache Spark. In this…

👍35🔥5👏1

9.76K viewsDmitry, 16:45

Инжиниринг Данных

Дата Менеджер из Амазона рассказывает чем он занимается в роли менеджера https://insightextractor.com/2022/04/08/analytics/

Insight Extractor - Blog

What does Analytics People Manager spend their time on? - Insight Extractor - Blog

Few folks recently asked me on where do I allocate my team as a people manager of a double-digit (10+) analytics (data engineers, BI engineers, data science) team at Amazon. There are 5 buckets and the allocation varies week to week depending on priorities:…

👍11👏1

9.68K viewsDmitry, 14:59

Инжиниринг Данных

Не все же про аналитику писать, можете почитать в журнале Сафари про животный мир Британской Колумбии, который написал мой отец кандидат наук. Кстати мои родители работают в Московском Зоопарке и мама там уже работает больше 40ка лет с птицами, теперь вы знаете где я провел детство🤗

👍176🔥53🥰24👏5

10.5K viewsDmitry, 17:15

Инжиниринг Данных

Немножко новостей из статей из мира аналитики🦧

Modern Data Stack: Looking into the Crystal Ball - автор рассуждает о трендах. Я уже говорил, что я "переболел" обсуждением трендов и современных дата ~~табуреток~~ стеков. Но возможно у вас найдутся силы прочитать.

11 concepts to sharpen your analytical thinking - автор делится своим опытом про аналитические скилы. Странная, конечно, мода на посты в твитере. Пока не понял как читать, снизу вверх или сверху вниз😳

Introducing MetricFlow: Your powerful, open source metric framework - очередной Open Source продукт для создания метрик. Если вы любите бесплатное ПО, то почему бы не ознакомиться.

Building Data Products For Data Engineers - Firebolt продолжает развивать свой продукт, они делают его на основе ClickHouse.

Database on Fire: Reflections on Embedding ClickHouse in Firebolt - ну вот, собственно, и статья про это. Будет теперь 2 Clickhouse на западе, один оригинальный и другой измененный.

The role of a technical program manager in AI projects - Microsoft продолжает публикации про роль менеджера на дата проектах, в данном случае обсуждают задачи программного менеджера для AI

Analytics Engineering vs. Data Engineering - если вы еще не определились кто это такие и что они делают, то в статье вам расскажут и покажут. Я сам уже окончательно определился, дата инженер строит инфраструктуру (DW, Data Lake, Pipelines, Data Models),а Analytics Engineer уже делает BI, и в 95% случает будет использовать dbt, чтобы создавать SQL модели (можно сказать это BI инженер со знанием dimension modelling). Есть пример: компания 600 человек 6x Unicorn, дата команда это 10 человек - 1 начальник, 5 data engineers, 4 analytics engineers. И всем хватает работы😉

Key Learnings on Using Apache HUDI in building Lakehouse Architecture @ Halodoc - hudi это способ хранения данных в Data Lake, когда у нас появляется возможность использовать команды UPDATE, DELETE, MERGE и другие плюшки классического хранилища данных. Есть и альтернатива - Iceberg и Delta Lake. Я лично за Delta, так как это у Databricks и Synapse.

What Skills Do You Need to Become a Data Engineer - вдруг вы не знаете🤓

Аналитика рынка профессии в три клика - маленькая статья от нашего читателя и ученика.

PS Я пока занят миграцией HDInsight+Hive и SQL Server SSIS на Azure Databricks и заодно ковыряю AWS на тему использования Open Source и создания аналитических решений - Docker, dbt, prefect, terraform, gitlab. И записался на курс по C# от 0 до уровня бог за 4 занятия😭

👍56🎉5🤔3👏2🥰1🐳1

9.8K viewsDmitry, edited 03:18

Инжиниринг Данных

Data Council - это конференция и community для разработчиков, инженеров и аналитиков, которые создают аналитические решения на Open Source. У них на youtube канале довольно много хороших видео с недавних мероприятий.

Для меня самый главный challenge в Open Source это знание и понимание вещей, которые совсем не относятся к аналитики. Например, множество решений хостится в Docker. Помимо самого docker нужно знать CLI, shell, linux и множество других вспомогательных вещей.

Вот пример простой задачи - выгрузить данные из SalesForce и загрузить их в S3. Задача тривиальная. Но если я решу использовать open source инструменты типа Airbyte или Meltano, которые будут деплоится в docker, через docker compose в AWS ECS (Container Registry), то задачка из простой превращается в очень непростую.

Как же быть? Для себя я выработал план:
1) Я разберусь и пойму как работает решение end to end и сделаю его как можно проще, даже если это no code/low code
2) Я посмотрю best practices для open source решения и возможно я найду там упоминание Docker, CI/CD, Terraform и еще чего. Попробую что-нибудь сделать кое-как.
3) Я возьму книгу, например Docker Up and Running, Learning Terraform и тп (с подписки O’Reilly) и начну изучать эту область более детально.

Есть конечно и другой вариант, как правило есть команда DevOps кто может для вас все сделать, и это тоже вариант, но лучше разобраться самому.

Мне кажется хороший пример всей этой Open Source истории - data-engineering-zoomcamp, они там используют open source, можно попробовать сделать без понимания как все это работает и потом вернуться к пункту (3). Таким образом вы получите важные навыки, особенно на рынках импортзамещения.

👍50

8.64K viewsDmitry, edited 18:11

Инжиниринг Данных

Practical SQL.pdf

1.3 MB

When people ask which programming language I learned first, I often absent-mindedly reply, “Python,” forgetting that it was actually with SQL that I first
learned to write code.

This is probably because learning SQL felt so intuitive after spending years running formulas in Excel spreadsheets. I didn’t have a
technical background, but I found SQL’s syntax, unlike that of many other
programming languages, straightforward and easy to implement.

For example, you run SELECT * on a SQL table to make every row and column
appear. You simply use the JOIN keyword to return rows of data from different related tables, which you can then further group, sort, and analyze.

👍41❤6

9.6K viewsDmitry, 19:13

Инжиниринг Данных

Learning SQL OReilly.pdf

4.1 MB

From the basics SQL to advanced topics such as analytical functions and working with large databases/

👍35❤5

9.94K viewsDmitry, 19:16

Инжиниринг Данных

Я скинул sample 2х самых популярных книг про SQL на английском, при желании вы можете найти и скачать PDF полной версии этих книг бесплатно😉

🔥43👍12❤5👏5

9.44K viewsDmitry, 19:17

Инжиниринг Данных

Автор сравнивает зарплаты в Европе и Штатах в совей статье - Move to the US, work for Netflix, get rich. (ну вы поняли). В нетфликсе даже отпуск безлимитный, он вам все равно не понадобится😂.

Все проще, нужно иметь 2 средненьких работы, одну full time, чтобы были хорошие бенефиты, а вторую через юр лицо (контракт), тогда будет и зп как в Netflix и отпуск хороший.

Я посмотрел hh, и особо ничего не поменялось, все так же много вакансий и хорошие зарплаты по дата вакансиям. Уверен, что упор теперь на Open Source.

👍52🤔2

9.72K viewsDmitry, 17:07

Инжиниринг Данных

Пройди опрос кому не сложно, если сложно все равно пройдите пожалуйста:
https://forms.gle/oso67ADeXjyQZnU16

Google Docs

Опрос на актуальность вебинара

👍15😢10❤1🔥1

9.13K viewsRoman Ponomarev, 18:52

Инжиниринг Данных

Новости из мира аналитики.

Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared - в этой статье сравнивают 3 популярных open source решения для озера данных - Hudi, Iceberg, Delta lake.

Monte Carlo раздает маркетинговые материалы, в данном случае ebook из которого вы узнаете, что такое Data Observability - The Big Book of Data Observability

Open Source BI Preset написали статью про The Case for Dataset-Centric Visualization.

Uber в своем блоге написал про Presto (SQL Engine open source) для Apache Kafka- Presto® on Apache Kafka® At Uber Scale

Если вы на AWS, можно посмотреть про best practices для AWS Analytics - Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3

И еще есть статья про dbt на AWS data lake - Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core

Prefect (Open source ETL, ближайший конкурент Airflow) написали о Continuous Data Validation with Great Expectations and Prefect

dbt продолжает развивать партнерство с Databricks - dbt Labs and Databricks: An expanding partnership. Я, например, сейчас делаю delta lake на databricks и data lake на AWS с Athena/Redshift и dbt. И вообще не понимаю, зачем нужен ~~козе боян~~ dbt databricks. Наверно, для ленивых, возможно, если в databricks все делать на Spark SQL будет очень неудобно.

Яндекс Облако рассказало о своих новинках для платформ данных в своем блоге.

👍33🔥12

9.9K viewsDmitry, edited 23:29

Инжиниринг Данных

Два типа Инженера Данных - запись моего доклада в прошлом году.

👍35🤬1

9.53K viewsDmitry, 19:37

Инжиниринг Данных

https://habr.com/ru/post/662746/

👍67🤬5

8.47K viewsDmitry, 22:20

Инжиниринг Данных

Вышла новая книга - Data Analysis with Python and PySpark, по ней можно очень хорошо прокачаться в PySpark. Это своего рода альтернатива SQL при работе со Spark. Так же вы узнаете и попробуете популярные питон библиотеки для работы с данными.

Data Analysis with Python and PySpark helps you solve the daily challenges of data science with PySpark. You’ll learn how to scale your processing capabilities across multiple machines while ingesting data from any source—whether that’s Hadoop clusters, cloud data storage, or local data files. Once you’ve covered the fundamentals, you’ll explore the full versatility of PySpark by building machine learning pipelines, and blending Python, pandas, and PySpark code.

👍91🔥19🤬3

9.35K viewsDmitry, 17:28

Инжиниринг Данных

жизненно🤨

👍109😁35🤔18🤬1

9.2K viewsDmitry, 17:03

Инжиниринг Данных

data science alert🤓

Вышла книга - The Kaggle Book

Get a step ahead of your competitors with insights from over 30 Kaggle Masters and Grandmasters. Discover tips, tricks, and best practices for competing effectively on Kaggle and becoming a better data scientist.

What you will learn
-Get acquainted with Kaggle as a competition platform
-Make the most of Kaggle Notebooks, —Datasets, and Discussion forums
-Create a portfolio of projects and ideas to get further in your career
-Design k-fold and probabilistic validation schemes
-Get to grips with common and never-before-seen evaluation metrics
-Understand binary and multi-class classification and object detection
-Approach NLP and time series tasks more effectively

👍58

9.06K viewsDmitry, 17:20

Инжиниринг Данных

😁65👍2🤔1

8.43K viewsDmitry, 15:49

Инжиниринг Данных

Эх табло попало под санкции и теперь непонятно, что будет дальше, может на торенте появится “таблеточка” для активации сервера, а может все перейдут на open source или китайские аналоги.

На всякий случай, скоро будет конференция по табло - TC 2022. Вот некоторые ссылочки:
Register for TC22 tableau.com/conference
Snap a photo on - tc22.virtualbooth.co/

Я состою в Vancouver Tableau User Group и я все жду, когда же мы встретимся offline на user group в местно офисе Табло. Я к ним даже откликался на вакансию Principal Data Engineer зимой, но потом понял, что не потяну, там нужны были java и C.

Я еще откликался в Rivian (электро машины из Seattle) на Staff Data Engineer, тоже не получилось, даже никто не написал. Было еще 2 собеседования с Amazon, один с Ванкувер и другой с Сиэтл, тоже зимой, но оба не дошел до конца, сам отказался. Решил окончательно разобраться с Open Source решениями для аналитики (сейчас очень активно ковыряю meltano - это аналог airbyte, бесплатные коннекторы). Скоро лето и нужно будет больше отдыхать на природе, а осенью будет видно.

Лекции по Databricks/Spark уже созрели в голове и скоро начну их записывать.

В идеале хочу потом сделать курс/уроки по Open Source решениями с docker, terraform, prefect, dbt, meltano и тп, но эти темы сложные для меня. Главная проблема, что оказывается сложно изучать этот предмет, имея свой багаж знаний по low code/no code приложений.

Salesforce

Tableau Conference | #TC25

Viz-ualize yourself at the data and analytics event of the year: April 15–17, 2025 | San Diego and Salesforce+ | #TC25

👍71🔥17😢6😁2

10.5K viewsDmitry, 16:10

About

Blog

Apps

Platform