Непутевые Заметки Data Steward ‘а
Кейс №2: «Молчаливая поломка» Контекст: Вы отвечаете за пайплайн данных, поставляющий данные для управленческую отчетность. В понедельник утром на оперативном совещании гендир заявляет, что «продажи рухнули на 30% в выходные» и требует наказания команды.…
Вариант ответа:
1. Перевести разговор из эмоциональной плоскости в техническую: «Давайте разберемся, данные требуют верификации».
2. Маршрут данных (Data Lineage): Показать, как строится пайалайн. Использовать концепцию родословной данных, чтобы найти точку сбоя (source -> staging -> mart).
3. Иногда нужно иметь План Б: Быстрый запуск пересчета данных за выходные из сырого бакета (raw data) в обход сломанного API, если есть снапшоты. Оценка времени на исправление.
4. Управление ожиданиями: Предложить гендиру метрику "SLA по качеству данных" и создать протокол оповещения топ-менеджмента о "ненадежных данных" на дашбордах (например, раскрашивать плитки желтым, пока идет верификация).
1. Перевести разговор из эмоциональной плоскости в техническую: «Давайте разберемся, данные требуют верификации».
2. Маршрут данных (Data Lineage): Показать, как строится пайалайн. Использовать концепцию родословной данных, чтобы найти точку сбоя (source -> staging -> mart).
3. Иногда нужно иметь План Б: Быстрый запуск пересчета данных за выходные из сырого бакета (raw data) в обход сломанного API, если есть снапшоты. Оценка времени на исправление.
4. Управление ожиданиями: Предложить гендиру метрику "SLA по качеству данных" и создать протокол оповещения топ-менеджмента о "ненадежных данных" на дашбордах (например, раскрашивать плитки желтым, пока идет верификация).
Короткая заметка на тему
Рисуем архитектуру данных бесплатно:
5 инструментов, которые не стоят ничего.
ситуация: нужно спроектировать модель данных, показать ее заказчику или согласовать с командой. Бюджета и времени за закупку нет, либо есть желание попробовать open-source.
Open-source дает не просто возможность рисовать квадратики. Он предлагают современные подходы: хранение моделей в Git, генерацию кода, интеграцию с CI/CD и теперь уже AI.
Нашел для себя интересные бесплатные решений, делюсь).
❓Что и для кого:
1️⃣ DrawDB
Быстро набросать схему, сгенерировать SQL, развернуть на своем сервере Self-hosted / Railway
2️⃣ ChartDB
Импортировать существующую БД и получить диаграмму "в один клик" Облако (бесплатно) / Self-hosted
3️⃣ Diagrams Хранить архитектуру в коде, интегрировать в DevOps, версионировать в Git Python-библиотека. Писать схемы как код (DSL), удобно для разработчиков Облако (freemium)
4️⃣ ERD Plus Образовательные цели, быстрая конвертация ER в реляционные схемы Облако (бесплатно).
🪄 Как выбрать:
1. Если нужно быстро нарисовать концепт и показать бизнесу — берите DrawDB или dbdiagram.io.
2. Если нужно задокументировать уже работающую базу — ChartDB справится лучше всех.
3. Если вы DevOps и хотите автоматизации — ваш выбор Diagrams.
4. Если это разовая задача для курсовой или пет-проекта — хватит ERD Plus.
Рисуем архитектуру данных бесплатно:
5 инструментов, которые не стоят ничего.
ситуация: нужно спроектировать модель данных, показать ее заказчику или согласовать с командой. Бюджета и времени за закупку нет, либо есть желание попробовать open-source.
Open-source дает не просто возможность рисовать квадратики. Он предлагают современные подходы: хранение моделей в Git, генерацию кода, интеграцию с CI/CD и теперь уже AI.
Нашел для себя интересные бесплатные решений, делюсь).
❓Что и для кого:
1️⃣ DrawDB
Быстро набросать схему, сгенерировать SQL, развернуть на своем сервере Self-hosted / Railway
2️⃣ ChartDB
Импортировать существующую БД и получить диаграмму "в один клик" Облако (бесплатно) / Self-hosted
3️⃣ Diagrams Хранить архитектуру в коде, интегрировать в DevOps, версионировать в Git Python-библиотека. Писать схемы как код (DSL), удобно для разработчиков Облако (freemium)
4️⃣ ERD Plus Образовательные цели, быстрая конвертация ER в реляционные схемы Облако (бесплатно).
🪄 Как выбрать:
1. Если нужно быстро нарисовать концепт и показать бизнесу — берите DrawDB или dbdiagram.io.
2. Если нужно задокументировать уже работающую базу — ChartDB справится лучше всех.
3. Если вы DevOps и хотите автоматизации — ваш выбор Diagrams.
4. Если это разовая задача для курсовой или пет-проекта — хватит ERD Plus.
❤2👍2🔥1
Напомнило случай, когда показатели делают ради самих показателей:
Forwarded from Comedy Radio
🤓 В МФЦ можно поставить негативную оценку за работу, но она не учитывается в общей статистке
👉Подписаться на Comedy Radio
👉Подписаться на Comedy Radio
😁3🥰1
Цена проверки
Стоимость запуска одной проверки качества данных в DWH складывается из переменных затрат, зависящих от:
архитектуры (On-Premise / Cloud),
инструментария (dbt, Spark, DG-платформы)
объема данных.
В частности затраты:
1. Железо:
- Стоимость CPU и RAM: Чем сложнее проверка (например сложная аномалия на основе скользящего окна или сравнение с ML-моделью), тем дольше она работает. Можно почитать так:
- Затраты на оркестрацию: Если проверка запускается через Airflow или Dagster, учитывается время работы воркера, который держит соединение и мониторит выполнение.
2. Хранилище
- Сканирование данных в системах с раздельной оплатой хранения и вычислений (Snowflake, BigQuery, Redshift) оплата за гигабайт. Если проверка делает полное сканирование многолетней таблицы без партиций, стоимость одной проверки может равняться стоимости хранения всей таблицы за месяц.
- Запись промежуточных результатов. Если проверка создает временные таблицы (например, для дедупликации или сравнения), то плата взимается за хранение этих временных данных.
3. Инструмент проверки.
Нативная проверка (dbt test, Snowflake Streams). Цена обычно включена в стоимость вычислительных ресурсов. Но если вы используете dbt Cloud, то стоимость может рассчитываться по количеству “разработчиков” или джебов.
Сторонние платформы (Great Expectations, Soda). SaaS модель: плата взимается за сканирование. Один запуск проверки = один сканируемый столбец или одна таблица в тарифе.
4. Сетевая передача данных (чаще для МРР).
Если DQ-инструмент (например, Python-скрипт с Great Expectations) запущен вне кластера DWH (в Kubernetes или на EC2), и он тянет данные через ODBC/JDBC наружу из DWH, вы платите за исходящий трафик.
Если DQ-инструмент запускает SQL внутри DWH (Snowflake Task, BigQuery Routine), сетевых затрат нет.
5. Логирование, мониторинг и хранение истории
Каждый запуск проверки записывает строку в таблицу логов.
Затраты на хранение этой истории со временем растут линейно от количества запусков.
Стоимость запуска одной проверки качества данных в DWH складывается из переменных затрат, зависящих от:
архитектуры (On-Premise / Cloud),
инструментария (dbt, Spark, DG-платформы)
объема данных.
В частности затраты:
1. Железо:
- Стоимость CPU и RAM: Чем сложнее проверка (например сложная аномалия на основе скользящего окна или сравнение с ML-моделью), тем дольше она работает. Можно почитать так:
время выполнения запроса × Стоимость единицы вычислительной мощности (vCPU/час или $/час)
- Затраты на оркестрацию: Если проверка запускается через Airflow или Dagster, учитывается время работы воркера, который держит соединение и мониторит выполнение.
2. Хранилище
- Сканирование данных в системах с раздельной оплатой хранения и вычислений (Snowflake, BigQuery, Redshift) оплата за гигабайт. Если проверка делает полное сканирование многолетней таблицы без партиций, стоимость одной проверки может равняться стоимости хранения всей таблицы за месяц.
- Запись промежуточных результатов. Если проверка создает временные таблицы (например, для дедупликации или сравнения), то плата взимается за хранение этих временных данных.
3. Инструмент проверки.
Нативная проверка (dbt test, Snowflake Streams). Цена обычно включена в стоимость вычислительных ресурсов. Но если вы используете dbt Cloud, то стоимость может рассчитываться по количеству “разработчиков” или джебов.
Сторонние платформы (Great Expectations, Soda). SaaS модель: плата взимается за сканирование. Один запуск проверки = один сканируемый столбец или одна таблица в тарифе.
4. Сетевая передача данных (чаще для МРР).
Если DQ-инструмент (например, Python-скрипт с Great Expectations) запущен вне кластера DWH (в Kubernetes или на EC2), и он тянет данные через ODBC/JDBC наружу из DWH, вы платите за исходящий трафик.
Если DQ-инструмент запускает SQL внутри DWH (Snowflake Task, BigQuery Routine), сетевых затрат нет.
5. Логирование, мониторинг и хранение истории
Каждый запуск проверки записывает строку в таблицу логов.
Затраты на хранение этой истории со временем растут линейно от количества запусков.
❤2🤝1
С каждым разом все поражает , когда без выстроенной системы данных, без внятной методологии мы хотим внедрять AI и надеемся что он нам все полечит. Заменит и DE и DS,разрабов, Тим лидов.
Останется работать только Ванька, который будет лихо вайб кодить.
Красота ж.
Останется работать только Ванька, который будет лихо вайб кодить.
Красота ж.
👍1