— Путь становления одного из самых популярных сервисов SaaS аналитики в РФ
— Что представляет из себя сервис изнутри? Самые популярные коннекторы
— Белые пятна и пробелы на рынке. Запросы клиентов, тренды
— Жизнь после санкций. Переезд в Y.Cloud. Будущее PowerBI. Трудности и бенефиты
— Планы экспансии. Ликбез и культура данных. Продвинутые аналитические паттерны в легкой доступности
Please open Telegram to view this post
VIEW IN TELEGRAM
connect.mybi.ru
mybi connect — ETL-сервис и платформа бизнес аналитики данных
Для автоматизации получения данных в единой аналитической БД, преобразования и визуализации их в отчетах
🔥13⚡7👎1
Не удивлен, не расстроен, но воодушевлен.
Никогда не любил PowerBI в силу ряда причин:
— Нет клиента для Mac / Linux
— Нет версионирования (вроде что-то завезли, но это не полноценный git)
— Всё необходимо щелкать мышью
— Какие-то сложносочиненные навороты с DAX / MDX, погружаться в которые нет желания
— Gateways и прочие сложности с публикацией и регулярным обновлением
— И конечно же тесная связь с Microsoft и их софтом
— RU Clouds: Y.Cloud / Cloud.ru
— EL: Kafka + Debezium, Airbyte (Connectors)
— Database: Clickhouse / Greenplum / Starrocks
— Transformations: dbt (SQL code)
— Semantic layer: Cube
— BI: Superset / Metabase / Datalens
— Orchestration: Airflow / Dagster / Prefect
— Monitoring: Prometheus, Grafana
Напишите мне в ЛС @kzzzr:
— Для чего вы использовали PowerBI
— Какие у вас источники данных
— Какие объемы данных
— Примерный перечень и сложность расчета метрик (показателей)
— Комментарий по срокам и необходимости видеть актуальные отчеты
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Microsoft и Amazon с 20 марта 2024 года приостанавливают доступ к своим облачным продуктам на территории РФ
15 марта 2024 года компания Softline сообщила , что Microsoft и Amazon с 20 марта 2024 года приостанавливают доступ к своим облачным продуктам на территории РФ, включая Power BI и Dynamics CRM....
🔥8👍3🤡3🤯1🌚1
❄️ Финализирую Redshift to Snowflake transition
Да! Процесс длился с Июля 2023 с разной степенью интенсивности, но я сделал это.
Чеклист коротко:
🔵 Data Integration (EL)
— Create WH and user for EL (Hevo)
— Create empty schema landing
— Create EL pipelines from scratch (Hevo)
— Configure EXTERNAL STAGES and TABLES
— UNLOAD from Redshift (S3 Parquet) and COPY into Snowflake full history of largest tables
🔵 Data modeling with dbt (T)
— Create distinct WH for workloads: EL, T, DEV, BI, CI
— Set up Resource monitors for credit usage
— Adapt dbt project to Snowflake syntax
— Configure essential dbt packages
— Adapt JSON parsing code to LATERAL FLATTEN
— Enable Carto extension (H3 indexing + geo-joins)
— Snapshots for most dimensions
—
— Optimize warehouse size dynamically for heavy models
🔵 Orchestration
— Set up dbtCloud jobs
— Configure Slim CI job
🔵 Data serving
— RBAC: Roles, Users, Groups, Privileges
— Connect Snowflake to Looker and Metabase
— Test Dashboards
— Connect reverse ETL, Jupyter, Airflow to Snowflake
🔵 Paperwork
— Launch procurement process with Vendr
— Notion Page on Snowflake transition
— JIRA tasks, approvals, 30+ emails
🟣 Наблюдения:
— Всё работает красиво и довольно шустро
— Радует то, что я разделил все нагрузки на разные Warehouses
— Для сложных моделей dbt и full-refreshes я динамически назначаю более мощные WH
— Snowflake очень удобная СУБД, всё сделано для людей, включая UI
— Много простых и крайне полезных мета-команда (SHOW, DESCRIBE, USE, LIST, ...)
Конечно, есть и обратная сторона медали. Буду работать над подробным обзором и заметками о переезде. Всё интересное еще впереди.
А пока можете поздравить меня.
🌐 @data_apps | Навигация по каналу
Да! Процесс длился с Июля 2023 с разной степенью интенсивности, но я сделал это.
Чеклист коротко:
— Create WH and user for EL (Hevo)
— Create empty schema landing
— Create EL pipelines from scratch (Hevo)
— Configure EXTERNAL STAGES and TABLES
— UNLOAD from Redshift (S3 Parquet) and COPY into Snowflake full history of largest tables
— Create distinct WH for workloads: EL, T, DEV, BI, CI
— Set up Resource monitors for credit usage
— Adapt dbt project to Snowflake syntax
— Configure essential dbt packages
— Adapt JSON parsing code to LATERAL FLATTEN
— Enable Carto extension (H3 indexing + geo-joins)
— Snapshots for most dimensions
—
dbt build --full-refresh— Optimize warehouse size dynamically for heavy models
— Set up dbtCloud jobs
— Configure Slim CI job
— RBAC: Roles, Users, Groups, Privileges
— Connect Snowflake to Looker and Metabase
— Test Dashboards
— Connect reverse ETL, Jupyter, Airflow to Snowflake
— Launch procurement process with Vendr
— Notion Page on Snowflake transition
— JIRA tasks, approvals, 30+ emails
— Всё работает красиво и довольно шустро
— Радует то, что я разделил все нагрузки на разные Warehouses
— Для сложных моделей dbt и full-refreshes я динамически назначаю более мощные WH
— Snowflake очень удобная СУБД, всё сделано для людей, включая UI
— Много простых и крайне полезных мета-команда (SHOW, DESCRIBE, USE, LIST, ...)
Конечно, есть и обратная сторона медали. Буду работать над подробным обзором и заметками о переезде. Всё интересное еще впереди.
А пока можете поздравить меня.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍12❤1
Активная фаза transition завершена, самые острые проблемы и вопросы решены, сломанные дашборды и интеграции исправлены.
И первое, на что хочется обратить внимание – это траты.
Пока рано делать полноценные выводы, но давайте посмотрим на факты:
— Кластер Amazon Redshift из 2 x ra3.4xlarge nodes обходился примерно в $3700 / мес. (~ $925 / нед. ~ $125 / день)
— Траты Snowflake за неделю 19 - 26 марта составляют ~ $760 (на картинке)
При этом:
— 20 марта – подготовка к transition, запуски dbtCloud jobs
— 21 марта – день, когда я полноценно переключил все нагрузки на Snowflake и делал history backfill (COPY / INSERT) + full-refreshes (повышенные траты)
— 23-24 марта – выходные
— 25 марта – пользователи начинают находить ошибки, выпускаю фиксы и делаю full-refreshes
— 26 марта – день в разгаре
Ключевые выводы:
—
—
—
—
—
—
—
—
— Первая неделя использования Snowflake внушает оптимизм относительно того, что траты, возможно, будут немного меньше, чем на Redshift, при всех полученных преимуществах
Каждый из перечисленных пунктов достоин отдельной публикации и раскрытия подробностей.
Я продолжаю экспериментировать и постепенно внедрять и другие отмеченные мной Snowflake features.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🤔2❤1❤🔥1💯1
Ура! Релиз моего первого интервью на YouTube с Алексеем Сидоровым из mybi connect
Ключевые идеи и мысли в беседе:
— В бизнесе побеждает тот, кто создает и использует конкурентные преимущества, в т.ч. основанные на данных
— Делегировать базовые задачи и создавать ценность на прочной основе выгоднее, чем изобретать свой велосипед (писать и поддерживать коннекторы)
— PowerBI – мощный и удобный инструмент, но заметен рост интереса к стеку dbt + Clickhouse + Cube + любой BI
— Модель данных Звезда / Снежинка позволяет отвечать требованиям гибкости и изменчивости данных
— Работа в рамках SaaS позволяет эффективно выстраивать процессы силами небольшой команды. Консалтинг и внедрения успешно реализуются через Marketplace и сеть партнеров
— Все клиенты делятся на две группы: in-house аналитика и партнеры, делающие внедрения на заказ
— Платформы, обещающие обучить профессии бизнес-аналитика за 2 месяца продают иллюзии. Навыки приобретаются в реальном бою и не всегда красивых и удобных бизнес-кейсах
— Лучшие продажи – "изнутри", когда аналитик компании сообщает о необходимости сервиса для решения задач
Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Успешный SaaS на рынке Аналитики – cтановление и планы развития / Алексей Сидоров из mybi connect
Ключевые идеи и мысли в беседе:
— В бизнесе побеждает тот, кто создает и использует конкурентные преимущества, в т.ч. основанные на данных
— Делегировать и создавать ценность на прочной основе выгоднее, чем изобретать свой велосипед (писать и поддерживать…
— В бизнесе побеждает тот, кто создает и использует конкурентные преимущества, в т.ч. основанные на данных
— Делегировать и создавать ценность на прочной основе выгоднее, чем изобретать свой велосипед (писать и поддерживать…
🔥11👍6❤2
Помните пост 🚀 Ключевые метрики компании на дашборде - путь от hardcoded cube к live calculated measures?
Задача трансформировалась и для нее давно найдено красивое решение.
Планирую выступить на Апрельском бигдатнике sql-ninja (Москва, 27.04)
🔺 SQL + dbt = God Mode Data Modeling
На кейсе создания витрины корпоративных метрик рассмотрим:
— Элементы functional programming c dbt macros
— Интерактивный UX с dbt Power User + CLI
— Импорт и переиспользование кода с dbt packages
— Универсальный код и окружения с dbt adapters
А еще новые знания, нетворкинг, общение.
Регистрация: https://sql-ninja.ru/ticket/
🌐 @data_apps | Навигация по каналу
Задача трансформировалась и для нее давно найдено красивое решение.
Планирую выступить на Апрельском бигдатнике sql-ninja (Москва, 27.04)
На кейсе создания витрины корпоративных метрик рассмотрим:
— Элементы functional programming c dbt macros
— Интерактивный UX с dbt Power User + CLI
— Импорт и переиспользование кода с dbt packages
— Универсальный код и окружения с dbt adapters
А еще новые знания, нетворкинг, общение.
Регистрация: https://sql-ninja.ru/ticket/
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8❤2👍1
Использовал базовую VM в Я.Облаке (это совсем недорого).
— Download the latest runner package
— Extract the installer
— Create the runner and start the configuration experience
— Last step, run it!
— Все тулы нужно поставить на VM самостоятельно (либо взять boot disk за основу): Docker, git, curl, etc.
— Права. Нужно выдать права на чтение, запись и запуск (rwx), ловил ошибки, пока не выдал необходимые права
buildx failed with: ERROR: permission denied while trying to connect to the Docker daemon socket at unix:///var/run/docker.sock: Get "http://%2Fvar%2Frun%2Fdocker.sock/_ping": dial unix /var/run/docker.sock: connect: permission denied
— После завершения SSH-сессии, runner становится недоступен. Процесс нужно запустить как сервис через systemd. Configuring the self-hosted runner application as a service
— Имеем всю мощь Github Actions и набор поддерживаемых фичей
— Богатство решений и автоматизаций в Marketplace
— С замечательной документацией
— В качестве отличной замены динозаврам automation server типа Jenkins (и прочим подобным тулам)
— По цене базовой виртуалки
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5👍4🍓2🤩1
Скоро будет открыта сочная вакансия ко мне в команду в Wheely
— Двигаемся в сторону Near real time data sync: Debezium + Kafka
Источники: MongoDB, PostgreSQL, CockroachDB, Snowplow, Braze, etc.
— Tuning Snowflake + dbt - доводим до совершенства трансформации данных и DAG
— Semantic Layer + BI (Looker + Metabase) – метрики и показатели как код, в планах Cube
— DataOps + MLOps – управление Data Services, Code Quality, CI/CD, Observability
Поиск аномалий и отклонений в метриках и данных
Помогаем DS выводить модельки и управлять их ЖЦ
— Работать непосредственно со мной, буду обучать и отвечать на все вопросы
— Напрямую влияем на бизнес и показатели, общаемся с C-level guys
— Возможность предлагать новые подходы, тулы и сервисы
— По salary обид не будет точно
— Возможность поехать на Кипр (relocation support package!)
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21👍8😱2
Доклады на Апрельском бигдатнике sql-ninja (Москва, 27.04)
Я готовлю practice-oriented доклад🔺 SQL + dbt = God Mode Data Modeling
☕️ Буду доступен для живого общения и нетворкинга:
— Мнения насчет Snowflake, dbt, Looker, Cube и других
— Консалтинг в сфере Data
— Обучающий цикл DMDA
🛡 Сам заинтересован в следующих докладах:
— Что правда из того, что говорят про Clickhouse
— Как отбалансировать десятки брокеров с миллионом rps с помощью Cruise-Control
— Airflow dbt integration
— Как мы расширяем возможности open-source решений на примере Arenadata DB
Регистрируйтесь: https://sql-ninja.ru/ticket/
До встречи!
🌐 @data_apps | Навигация по каналу
Я готовлю practice-oriented доклад
— Мнения насчет Snowflake, dbt, Looker, Cube и других
— Консалтинг в сфере Data
— Обучающий цикл DMDA
— Что правда из того, что говорят про Clickhouse
— Как отбалансировать десятки брокеров с миллионом rps с помощью Cruise-Control
— Airflow dbt integration
— Как мы расширяем возможности open-source решений на примере Arenadata DB
Регистрируйтесь: https://sql-ninja.ru/ticket/
До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Data Apps Design
Помните пост 🚀 Ключевые метрики компании на дашборде - путь от hardcoded cube к live calculated measures?
Задача трансформировалась и для нее давно найдено красивое решение.
Планирую выступить на Апрельском бигдатнике sql-ninja (Москва, 27.04)
🔺 SQL +…
Задача трансформировалась и для нее давно найдено красивое решение.
Планирую выступить на Апрельском бигдатнике sql-ninja (Москва, 27.04)
🔺 SQL +…
🔥8❤3👍2
Data Apps Design
Ссылка на вакансию: Data Infrastructure Engineer
Стек, технические навыки и особенности описал в прошлом посте.
Локация: Кипр / Москва.
Дополнительно обращаю внимание на то, что нужен хороший английский язык.
We are looking for a Data Infrastructure Engineer to strengthen our Data Team at Wheely, proactively seeking and providing Business Users and Data Scientists with best-in-class and seamless experience.
Responsibilities
— Enhance Data team with architectural best practices and low-level optimizations
— Help refactor and improve codebase (dbt for data transformations, LookML for semantic layer)
— Support on evolving Data Integration pipelines (Airbyte, Debezium, Kafka), Database engines (Snowflake), BI tools (Looker, Metabase), reverse ETL syncs (Census)
— Cover up business units with feature requests / bugfixes / data quality issues
— Enforce code quality, automated testing and code style
Please open Telegram to view this post
VIEW IN TELEGRAM
Wheely
Working at Wheely
We’re looking for extraordinary people who can solve complex problems and thrive as part of an ambitious, talented team. Learn more about what it's like to work at Wheely.
⚡6🔥6
Everything you could ever know about dbt, all in one canvas.
Некоторое время назад получил письмо от Sales rep Count на тему демо их продукта. Стал изучать сайт и наткнулся на вполне приличный гайд в формате canvas по dbt и связанному с ним toolset, чем считаю необходимым поделиться.
Рекомендую тем кто изучает dbt, структурирует информацию, любит красивые визуализации а-ля mindmaps.
Из интересного, что я отметил:
— dbt core ecosystem
dev tools / data observability / documentation
— deployment
Environments / CI-CD / orchestration / testing
— suggested packages
useful dbt packages
— command syntax
commands, CLI flags, selection syntax
— dimensional modeling guide
design process, data modeling flow, normalization - denormalization
— dbt alternatives
К сожалению, потыкать на ссылки вам придется самим из canvas map / table of contents
Итого: неплохой ресурс, чтобы достаточно быстро войти в курс дела и при желании углубляться в конкретные темы.
Но считать, что вы знаете о dbt всё, просто посмотрев эти картинки я бы не стал 😄
Кое-что из этих материалов буду рассматривать на ближайшем запуске DMDA
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡9❤6🔥3👍1
— Бизнес-задача: Дашборд для Weekly Business Review (WBR)
— Решение «Hardcore Cube» 🗿
— Решение «Direct Runtime» 🦅
— Aggregate awareness (Looker) как оптимизация производительности
— Решение «Godlike modeling» 👑
— Как отразилась смена СУБД с Amazon Redshift на Snowflake на решении?
— Находите повторяющиеся паттерны и переиспользуйте код (DRY)
— Пишите универсальный код с dbt
— Не изобретайте велосипед - используйте packages
— Ищите баланс между материализацией и runtime queries
— Чем меньше кода, тем лучше
Слайды доклада: https://drive.google.com/file/d/1_KGuLGWksWBHz0SKUEOW1MO4Acxea0s3/view?usp=sharing
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
SQL + dbt = God Mode Data Modeling / Подходы к созданию витрины корпоративных метрик
На кейсе создания витрины корпоративных метрик рассмотрим:
— Элементы functional programming c dbt macros
— Интерактивный UX с dbt Power User + CLI
— Импорт и переиспользование кода с dbt packages
— Универсальный код и окружения с dbt adapters
Бизнес-задача:…
— Элементы functional programming c dbt macros
— Интерактивный UX с dbt Power User + CLI
— Импорт и переиспользование кода с dbt packages
— Универсальный код и окружения с dbt adapters
Бизнес-задача:…
👍9🔥6⚡2
Последнее время начал глубже погружаться в Superset – тул класса Business Intelligence для визуализации и дашбординга.
git clone --depth=1 https://github.com/apache/superset.git
export TAG=3.1.1
docker compose -f docker-compose-image-tag.yml up
Есть варианты с Kubernetes, PyPI
Выполняется как добавление русского языка в список доступных:
LANGUAGES = {
"ru": {"flag": "ru", "name": "Русский"},
"en": {"flag": "us", "name": "English"}
}Из коробки в Superset нет возможности подключиться к Clickhouse.
В моем случае, я выполнил скрипт установки в одном из контейнеров:
pip install clickhouse-connect
Возможно собирать готовые образы с предустановленными драйверами и пользовательскими конфигурациями.
Всё работает замечательно.
Cube показывает Postgres-подобный SQL API, который можно использовать в Superset из коробки.
.2% - доля в процентах до двух знаков после запятой), то вам придется задать METRICS (формула + название) и в Superset, т.е. по сути выполнить задать метрику дважды, что не очень хорошо.Почему Apache ECharts? Коротко:
— large library of visualization types
— high performance, ideally supporting canvas rendering
— powerful declarative API for customizing and theming charts
— internationalization support
— an active and growing community
Итак, порой у пользователей дашбордов возникают странные и на первый взгляд неосуществимые требования
— Применение особенного форматирования - stacked bar chart values alignment (center)
— Добавление строк, колонок в визуализацию (пустые строки-разделители Excel-like) - попробуем Custom CSS
— Новые (недоступные из коробки) визуализации - обратимся к библиотеке Apache ECharts
— Расширенное редактирование имеющихся графиков
Мне еще многое предстоит выяcнить в этих моментах, но учитывая наличие материалов, думаю, что это будет осуществимо.
— Многие вопросы находятся в поиске по ключевым словам
— Ранее не обсуждавшийся вопрос можно сформулировать и задать коллективному разуму
Не всё получается сделать сразу, быстро и просто. Но пока впечатления положительные.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍5🔥2👾1