[RU] Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни
Итак, Вы работаете с Большими Данными:
— Обработка этих данных требует значительного времени (и затрат 💰)
— Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты
— Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты
#dbt #incremental #dwh
Читать на Хабр →
🌐 @data_apps | Навигация по каналу
Итак, Вы работаете с Большими Данными:
— Обработка этих данных требует значительного времени (и затрат 💰)
— Исторические данные не меняются (или не должны меняться) - как правило, это свершившиеся факты
— Если Вам удается не делать повторную обработку исторических данных - Вы экономите время и затраты
#dbt #incremental #dwh
Читать на Хабр →
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Стратегия инкрементального наполнения витрин: необходимость, реализация, подводные камни
Зачем нужна инкрементальная стратегия? Итак, Вы работаете с Большими Данными: Обработка этих данных требует значительного времени (и затрат ?) Исторические данные не меняются (или не должны меняться)...
Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect
Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.
Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:
— Требования и ожидаемые результаты.
— Функциональные возможности.
— Сценарии использования и бизнес-ценность.
— Планы развития, продвинутое моделирование и BI.
Читать на Хабр →
#pipelines #ELT #dwh
Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect, опираясь на который я реализовал с десяток аналитических проектов за последние несколько лет.
Отмечу, что с конца февраля ребята сделали значительные шаги в сторону развития отказоустойчивости и масштабируемости своего решения. Заглядывайте под кат, если стоите перед выбором коннектора или хотите выжимать максимум из доступного:
— Требования и ожидаемые результаты.
— Функциональные возможности.
— Сценарии использования и бизнес-ценность.
— Планы развития, продвинутое моделирование и BI.
Читать на Хабр →
#pipelines #ELT #dwh
Хабр
Требования к ETL-сервисам – построение аналитических решений на базе myBI Connect
Привет от Technology Enthusiast ! Сегодня речь пойдет о сервисах интеграции данных, их функциональных возможностях и ограничениях. Рассмотрение будем вести на примере сервиса myBI Connect...
Excerpt from Python for DevOps / What Does DevOps Mean to the Authors?
At one company, Noah had a project that was over a year late, and the web application had been rewritten three times in multiple languages. This next release only needed a “performance engineer” to get it finished. I remember being the only one brave or stupid enough to say, “What is a performance engineer?” This engineer made everything work at scale. He realized at that point that they were looking for a superhero to save them. Superhero hiring syndrome is the best way to pick up on something being very wrong on a new product or a new startup. No employee will save a company unless they first save themselves.
it turned out that the real issue was inadequate technical supervision. The wrong people were in charge (and verbally shouting down the people who could fix it). By removing a poor performer, listening to an existing team member who knew how to fix the problem all along, deleting that job listing, doing one right thing at a time, and inserting qualified engineering management, the issue resolved itself without a superhero hire.
The solution to the problem isn’t a new hire; it is being honest and mindful about the situation you are in, how you got there, and doing one right thing at a time until you work your way out. There is no superhero unless it is you.
At one company, Noah had a project that was over a year late, and the web application had been rewritten three times in multiple languages. This next release only needed a “performance engineer” to get it finished. I remember being the only one brave or stupid enough to say, “What is a performance engineer?” This engineer made everything work at scale. He realized at that point that they were looking for a superhero to save them. Superhero hiring syndrome is the best way to pick up on something being very wrong on a new product or a new startup. No employee will save a company unless they first save themselves.
it turned out that the real issue was inadequate technical supervision. The wrong people were in charge (and verbally shouting down the people who could fix it). By removing a poor performer, listening to an existing team member who knew how to fix the problem all along, deleting that job listing, doing one right thing at a time, and inserting qualified engineering management, the issue resolved itself without a superhero hire.
The solution to the problem isn’t a new hire; it is being honest and mindful about the situation you are in, how you got there, and doing one right thing at a time until you work your way out. There is no superhero unless it is you.
O’Reilly Online Learning
Python for DevOps
Preface One time Noah was in the ocean, and a wave crashed on top of him and took his breath away as it pulled him deeper into the sea. Just as he started to recover his breath,... - Selection from Python for DevOps [Book]
Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.
В этой публикации:
— Что значит решение End-to-End и в чем его ценность?
— Организация Extract & Load данных из асинхронного API MaestroQA
— Моделирование витрин данных с помощью dbt
— Поставка ценности для пользователей с помощью Looker
Читать на Хабр →
#pipelines #ELT #dwh #modeling #bi
В этой публикации:
— Что значит решение End-to-End и в чем его ценность?
— Организация Extract & Load данных из асинхронного API MaestroQA
— Моделирование витрин данных с помощью dbt
— Поставка ценности для пользователей с помощью Looker
Читать на Хабр →
#pipelines #ELT #dwh #modeling #bi
Хабр
Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker
Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely. Мы могли бы долго и нудно обсуждать, кто такой Analytics ( Data / Backend ) Engineer, какими инструментами он должен владеть, какие...
Одна из самых важных идей заключается в том, что заказчик, кем бы он ни был (Manager, Product Owner, CEO), почти никогда не ставит задачу в инженерных терминах:
— Налить 100500 гигабайт в Хранилище
— Добавить multithreading в код
— Написать супероптимальный запрос
— Создать 15 dbt-моделей
За любой инженерной задачей стоит решение конкретных бизнес-проблем. Для нас это:
— Прозрачность Customer Support (фиксируем все оценки, инциденты)
— Результативность на ладони (отслеживаем динамику показателей во времени)
— Отчитываемся о KPI команд поддержки (агрегирующие показатели по командам, городам, странам и т.д.)
— Получаем обратную связь и исправляем ошибки (идентификация слабых/проблемных мест и быстрый feedback)
— Постоянно учимся и разбираем кейсы (категоризация тем, организация тренингов и разборов)
И это ключевой фокус, который отличает Analytics Engineer от, например, классических Data Engineer, Backend Engineer.
— Налить 100500 гигабайт в Хранилище
— Добавить multithreading в код
— Написать супероптимальный запрос
— Создать 15 dbt-моделей
За любой инженерной задачей стоит решение конкретных бизнес-проблем. Для нас это:
— Прозрачность Customer Support (фиксируем все оценки, инциденты)
— Результативность на ладони (отслеживаем динамику показателей во времени)
— Отчитываемся о KPI команд поддержки (агрегирующие показатели по командам, городам, странам и т.д.)
— Получаем обратную связь и исправляем ошибки (идентификация слабых/проблемных мест и быстрый feedback)
— Постоянно учимся и разбираем кейсы (категоризация тем, организация тренингов и разборов)
И это ключевой фокус, который отличает Analytics Engineer от, например, классических Data Engineer, Backend Engineer.
[RU] Вебинар – End-to-End решение для аналитики на примере источника MaestroQA
– Extract-Load через API-вызовы и автоматизация в Airflow
– Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
– Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down
Слайды вебинара: https://docs.google.com/presentation/d/1K72UiPjy1ljVRKieLPQdeilC75zZ2N4QszH_XKhR3kM/edit?usp=sharing
🌐 @data_apps | Навигация по каналу
– Extract-Load через API-вызовы и автоматизация в Airflow
– Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
– Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down
Слайды вебинара: https://docs.google.com/presentation/d/1K72UiPjy1ljVRKieLPQdeilC75zZ2N4QszH_XKhR3kM/edit?usp=sharing
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
End-to-end решение для аналитики на примере источника MaestroQA // курс «Data Warehouse Analyst»
На занятии разберем:
- Extract-Load через API-вызовы и автоматизация в Airflow
- Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
- Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down
«Data Warehouse…
- Extract-Load через API-вызовы и автоматизация в Airflow
- Трансформация данных с dbt: обогащение, дедупликация, суррогатные ключи, приведение типов
- Моделирование метрик в Looker BI: слой доступа, визуализация, drill-down
«Data Warehouse…
Привет! Сегодня и завтра 23-24 мая в 20.00 приглашаю на вебинар из 2-х частей (интенсив).
Extract - Load как сервис и как собственное решение. Поиск баланса и дзен
– SaaS решения и их ограничения
– Выгрузки через API-вызовы – оптимальные способы реализации
– Гибридные подходы
– Автоматизация выгрузки, retries, notifications с помощью Airflow
– Накопление истории и организация Data Lake в S3 перед DWH
Рассмотрим опыт построения production pipelines, взвесим плюсы и минусы, сделаем выводы.
Ссылка на регистрацию: https://otus.ru/lessons/data-engineer/#event-2024
Ссылка на YouTube-трансляцию будет опубликована здесь за 5 минут до начала.
🌐 @data_apps | Навигация по каналу
Extract - Load как сервис и как собственное решение. Поиск баланса и дзен
– SaaS решения и их ограничения
– Выгрузки через API-вызовы – оптимальные способы реализации
– Гибридные подходы
– Автоматизация выгрузки, retries, notifications с помощью Airflow
– Накопление истории и организация Data Lake в S3 перед DWH
Рассмотрим опыт построения production pipelines, взвесим плюсы и минусы, сделаем выводы.
Ссылка на регистрацию: https://otus.ru/lessons/data-engineer/#event-2024
Ссылка на YouTube-трансляцию будет опубликована здесь за 5 минут до начала.
Please open Telegram to view this post
VIEW IN TELEGRAM
Data Apps Design
Привет! Сегодня и завтра 23-24 мая в 20.00 приглашаю на вебинар из 2-х частей (интенсив). Extract - Load как сервис и как собственное решение. Поиск баланса и дзен – SaaS решения и их ограничения – Выгрузки через API-вызовы – оптимальные способы реализации…
Запустил трансляцию, присоединяйтесь!
https://www.youtube.com/watch?v=AN__n3xefv8
https://www.youtube.com/watch?v=AN__n3xefv8
YouTube
Демо-занятие курса «Data Engineer». День 1
Extract - Load с помощью SaaS-сервиса vs. Cобственное решение. Поиск баланса и дзен.
– Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения
– Extract-Load через API-вызовы, обращения к СУБД и CDC – оптимальные способы…
– Extract-Load через SaaS решения. Возможности готовых сервисов, их надежность и ограничения
– Extract-Load через API-вызовы, обращения к СУБД и CDC – оптимальные способы…
Привет! Сегодня продолжаем – 2 часть вебинара:
Extract - Load как сервис и как собственное решение. Поиск баланса и дзен
– 1. In-house EL + LIVE MaestroQA + Airflow
– 2. Гибридные подходы + LIVE Airbyte
– 3. Жизнь после EL – Transform & Deliver – dbt + Looker
Опыт production pipelines, взвесим, сравним плюсы и минусы.
Ссылка на YouTube-трансляцию: https://youtu.be/hoqM7gfqQNg
Extract - Load как сервис и как собственное решение. Поиск баланса и дзен
– 1. In-house EL + LIVE MaestroQA + Airflow
– 2. Гибридные подходы + LIVE Airbyte
– 3. Жизнь после EL – Transform & Deliver – dbt + Looker
Опыт production pipelines, взвесим, сравним плюсы и минусы.
Ссылка на YouTube-трансляцию: https://youtu.be/hoqM7gfqQNg
Data Apps Design
Привет! Сегодня продолжаем – 2 часть вебинара: Extract - Load как сервис и как собственное решение. Поиск баланса и дзен – 1. In-house EL + LIVE MaestroQA + Airflow – 2. Гибридные подходы + LIVE Airbyte – 3. Жизнь после EL – Transform & Deliver – dbt + Looker…
Посмотреть слайды обоих дней можно по ссылке:
https://docs.google.com/presentation/d/1S3H02t8plk_XbZVKvWfWy6ZY36QTPO3FDbZMeYO4n9U/edit?usp=sharing
https://docs.google.com/presentation/d/1S3H02t8plk_XbZVKvWfWy6ZY36QTPO3FDbZMeYO4n9U/edit?usp=sharing
Google Docs
DE Intensive – Extract - Load как сервис и как собственное решение
Онлайн образование otus.ru
Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt.
Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds:
– dbt + Clickhouse: кластер, версионирование данных и другие сложности реализации
– Data Quality в Modern Data Stack
– Зрелость dbt-проекта. Есть, куда расти?
– dbt в etl-командах: снимаем типовые боли байтовозов
Слоты фиксированы по времени, можно подключаться на любой доклад. После каждого доклада есть время на вопросы-ответы и общение.
Ссылка на ютуб придет как обычно перед началом митапа. До встречи 😉
https://space307.team/dbtmeetup
Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds:
– dbt + Clickhouse: кластер, версионирование данных и другие сложности реализации
– Data Quality в Modern Data Stack
– Зрелость dbt-проекта. Есть, куда расти?
– dbt в etl-командах: снимаем типовые боли байтовозов
Слоты фиксированы по времени, можно подключаться на любой доклад. После каждого доклада есть время на вопросы-ответы и общение.
Ссылка на ютуб придет как обычно перед началом митапа. До встречи 😉
https://space307.team/dbtmeetup
Мой доклад стартует в 19.05:
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
Data Apps Design
Во вторник 14 июня в 19.00 в рамках развития сообщества @dbt_users будет проведен второй митап, посвященный инструменту dbt. Интереснейшие доклады ребят из Wheely, ADV/web-engineering co., Space307 и NabuMinds: – dbt + Clickhouse: кластер, версионирование…
Начинаем, подключайтесь:
https://www.youtube.com/watch?v=AxXv-988B1A
https://www.youtube.com/watch?v=AxXv-988B1A
YouTube
Dbt Meetup 2022-06-14
Митап для специалистов, использующих инструмент dbt для решения своих задач.
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Таймкоды:
00:00 Приветствие
1:53–32:35 Артемий Козырь, Analytics engineer at Wheely — Зрелость DBT-проекта. Есть, куда расти?
36:05–59:45 Никита Баканчев, Senior data engineer…
Слайды моего доклада с [dbt meetup]
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
#meetup
🌐 @data_apps | Навигация по каналу
Зрелость DBT-проекта. Есть, куда расти?
– К чему стремимся, используя dbt?
– Матрица зрелости dbt-проекта
– Кейс Wheely + dbt
– Что дальше и как это использовать у себя
#meetup
Please open Telegram to view this post
VIEW IN TELEGRAM
Google Docs
[dbt meetup] 2022-06-14 Зрелость dbt-проекта
Зрелость dbt-проекта Есть, куда расти?
A very useful and handy implementation of Load step from ELT acronym.
Use this example to build your own Extract - Load solution and take into account all the possible outcomes and issues you may face in advance:
– Handling duplicate rows (even when uniqueness constraint is not enforced)
– Coping with DELETEs on source side (hard deletes)
– Allowing data inspection and time travel with metadata attributes
– Examples for Amazon Redshift, Google BigQuery, Snowflake
https://docs.hevodata.com/data-loading/loading-data-to-warehouse/
#elt #pipelines
Use this example to build your own Extract - Load solution and take into account all the possible outcomes and issues you may face in advance:
– Handling duplicate rows (even when uniqueness constraint is not enforced)
– Coping with DELETEs on source side (hard deletes)
– Allowing data inspection and time travel with metadata attributes
– Examples for Amazon Redshift, Google BigQuery, Snowflake
https://docs.hevodata.com/data-loading/loading-data-to-warehouse/
#elt #pipelines