Data Apps Design
1.54K subscribers
143 photos
2 videos
41 files
231 links
В этом блоге я публикую свои выводы и мнения на работу в Data:

— Data Integration
— Database engines
— Data Modeling
— Business Intelligence
— Semantic Layer
— DataOps and DevOps
— Orchestrating jobs & DAGs
— Business Impact and Value
Download Telegram
Data Engineering in the AI Era: Building a Robust Foundation for AI Applications

Готовлю доклад на Data Science Conference Europe.

Поехать лично, к сожалению, не получилось. Но нашелся слот для онлайн-выступления.

Data is the foundational layer for any AI application. In this talk, we will explore ways of building robust data pipelines and employing advanced data modeling techniques:

— Enabling Data Streaming: Transitioning to near real-time and event-driven applications using Debezium and Snowplow.
— Reducing third-party vendor dependencies by leveraging open-source software, resulting in annual savings of $20K.
— Achieving full control over data flow and transformations using dbt and Kafka SMT.
— Optimizing compute and storage costs with Snowflake, achieving a 30% reduction compared to Amazon Redshift.
— Ensuring complete data ownership with zero processing outside the company perimeter.
— Securing data access through RBAC, data masking policies, and PII handling.

This talk distills key knowledge, revealing multiple challenges and pitfalls, and provides practical insights for building a solid data foundation for AI applications.



Дайте реакций, если заинтересованы, и я попробую сделать запись и выложить на YouTube.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2414👍7🙏2
Осенний бигдатник от SQL Ninja 30 Ноября (совсем скоро)

Еще недавно я выступал на апрельском бигдатнике:

SQL + dbt = God Mode Data Modeling / Подходы к созданию витрины корпоративных метрик

Много работал за последние месяцы с Kafka, Debezium, real-time streaming, поэтому меня в особенности заинтересовали доклады:

— Введение в потоковую обработку данных с примерами на Apache Flink
— Streamhouse Architecture - единообразный способ работы с пакетными и потоковыми данными
— Опыт эксплуатации Apache Iceberg на петабайтных таблицах. Проблемы и решения
— Debezium — инструмент получения данных с источников, используя паттерн CDC

В этот раз подключусь зрителем онлайн.

Но рекомендую посетить меропритие offline и завести новые знакомства и контакты.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103👍1
Data Apps Design
Data Engineering in the AI Era: Building a Robust Foundation for AI Applications Готовлю доклад на Data Science Conference Europe. Поехать лично, к сожалению, не получилось. Но нашелся слот для онлайн-выступления. Data is the foundational layer for any…
Data Engineering in the AI Era: Building a Robust Foundation for AI Applications

Слайды доклада: https://drive.google.com/file/d/1U3vm2jZlz9GHlM0dsRhmUwZQzM9rgS8k/view?usp=sharing

Запись на YouTube скоро будет 🔸

Основные секции доклада:

🟡 BUSINESS DELIVERABLES AND OUTCOMES

🔵 DATA INGESTION

🟢 DATA TRANSFORMATION

🟤 DATA OPERATIONS


Следующими сообщениями опубликую ключевые идеи доклада


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
7🔥2
Artemiy Kozyr
🟡 BUSINESS DELIVERABLES AND OUTCOMES
🟡 BUSINESS DELIVERABLES AND OUTCOMES

When it comes to AI, the most important things are:

📈 Opportunities you can identify (competitive advantages)
🛠 The way you can do it (technical capabilities)
⏱️ How fast you can ship it (time to market)

Start with business deliverables and outcomes:

📊 Summarizing data on dashboards to report key metrics and their dynamics.
🤖 Leveraging AI to query DWH data through BI tools using natural language.
🔍 Identifying potential PII and notifying for action to ensure compliance.
📧 Tailoring communications via CRM platforms based on customer attributes.
🎯 Next best offer or recommendation systems for customers.
🕒 Creating smart queues and fair order distribution to improve utilization.
🚨 Detecting fraudulent orders and transactions at an early stage (near real-time).

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍1
Data Apps Design pinned « Data Engineering in the AI Era: Building a Robust Foundation for AI Applications Слайды доклада: https://drive.google.com/file/d/1U3vm2jZlz9GHlM0dsRhmUwZQzM9rgS8k/view?usp=sharing Запись на YouTube скоро будет 🔸 Основные секции доклада: 🟡 BUSINESS DELIVERABLES…»
Artemiy Kozyr
🔵 DATA INGESTION
🔵 DATA INGESTION

There are several types of data sources:

🗄 Databases
📈 Events (Clickstream)
🌐 3rd party APIs
📄 Files


CDC SYNC FOR DATABASES WITH DEBEZIUM

💡 Debezium is an open-source distributed platform for change data capture (CDC)

⏱️ Real-time data streaming
🗃 Support for various databases
⚙️ Fault-tolerant and scalable architecture
📜 Schema evolution handling
🔗 Integration with Apache Kafka


Setup hints for Debezium source connectors

⚙️ Leverage distributed and parallel sync mode
🎯 Only sync relevant data
🛠 Configure topics auto-create feature
🚫 Do not trigger initial snapshots on production databases
🔔 Enable signaling (very powerful feature)
🔄 Configure retries in case of (transient) errors
📝 Tolerate errors but capture/log them


Setup hints for sink connector (Snowflake)

🏷 Ensure a consistent naming convention for topics
⚙️ Adjust settings for optimal performance
🆕 New record state extraction for Debezium messages
📝 Include relevant metadata fields
📐 Apply schematization
🗃 Ensure arrays are handled correctly to avoid data issues
🎛 Use Single Message Transforms (SMT) selectively
📨 Configure a dead letter queue to capture and debug errors effectively


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
3👍3
Artemiy Kozyr
Data Engineering in the AI Era: Building a Robust Foundation for AI Applications Слайды доклада: https://drive.google.com/file/d/1U3vm2jZlz9GHlM0dsRhmUwZQzM9rgS8k/view?usp=sharing Запись на YouTube скоро будет 🔸 Основные секции доклада: 🟡 BUSINESS DELIVERABLES…
🔵 DATA INGESTION

DATA INGESTION: EVENT TRACKING

📊 I have chosen Snowplow for event tracking

— Real-time event tracking: Capture and process events in real-time.
— Customizable event schema: Define custom event schemas to fit your specific needs.
— Cross-platform tracking: Track events across web, mobile, and server-side applications.
— Scalability: Handle large volumes of data efficiently.
— Open-source: The core technology is open-source, allowing for customization and flexibility.
— Data ownership: Full control and ownership of your data.
— Integration: Integrates with various data warehouses and analytics tools.
— Data enrichment: Enrich raw event data with additional context.
— Alternatively: Jitsu, Rudderstack

Setup hints for Snowplow event tracking

🎯 Only track relevant information
📚 Use schema registry (Iglu or Static)
⚖️ Handle both GOOD and BAD event streams
🏷 Assign App & Tracker information
🐞 Use Snowplow Micro for debugging purposes
🚨 Set up Monitoring and Alerting


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3
Artemiy Kozyr
🟢 DATA TRANSFORMATION
🟢 DATA TRANSFORMATION

How to choose a Data Platform? 🤔

📈 Focus on the business needs
🛠 Name issues you currently face with
📋 Define a list of criteria to compare
🧪 Run series of PoC with the short-list
Make a decision
🔄 Perform a transition
📊 Measure success


What to consider? List of criteria

🚀 Performance and Scalability
🛠 Feature support
🔒 Security
🛠 Maintenance and Administration
🔗 Integrations and Ecosystem
💰 Pricing model


I use dbt for Data Modeling and it rocks! 🎸


🔄 Modularity: reusable SQL queries
🗂 Version Control: integrates with Git
Testing: built-in data quality tests
📄 Documentation: auto-generates model docs
📊 Data Lineage: tracks data flow
Scheduling: runs at specific intervals
🔗 Integration: works with Snowflake, BigQuery, Redshift, etc.
📝 SQL-based Transformations: accessible to SQL users
🌐 Environment Management: supports dev, staging, prod
🔌 Extensibility: extend with macros and plugins


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍9🔥2
Artemiy Kozyr
🟤 DATA OPERATIONS
🟤 DATA OPERATIONS

🛠 Configure reproducible devcontainers

🛡 Isolation: Each project has its own environment, avoiding conflicts.
🔄 Consistency: Ensures the same setup across different machines.
🛠 Pre-configured Tools: Comes with necessary tools and dependencies.
📜 Version Control: Environment configuration can be versioned with the project.
🌍 Portability: Easily shareable and portable across different systems.
🎨 Customization: Fully customizable to fit specific project needs.
🔗 Integration: Works seamlessly with VS Code for a smooth development experience.


📡 Signals provide a way to control and interact with Debezium connectors

⏸️ Pause/Resume: Temporarily halt and restart connectors.
📸 Snapshot Control: Start, stop, or restart snapshots.
🔄 Offset Management: Reset or adjust offsets for connectors.
⚙️ Configuration Changes: Dynamically update connector configurations.
📊 Monitoring: Track and manage connector status and health.
🛠 Custom Actions: Define and trigger custom actions for connectors.


🗂 Deduplicating log entries with dbt macro

🔄 Configure CI / CD pipelines

📢 Configure Slack / Telegram alerts


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2
Artemiy Kozyr
Основные секции доклада:

🟡 BUSINESS DELIVERABLES AND OUTCOMES

🔵 DATA INGESTION

🟢 DATA TRANSFORMATION

🟤 DATA OPERATIONS
RESULTS: Solid foundation for AI applications


DATA INGESTION
⏱️ Near real-time and event-driven applications using Debezium and Snowplow.
🌐 Events supported and tracked amongst web and mobile applications
🔗 Third-party vendor dependencies reduced


DATA TRANSFORMATION
🛠 Achieving full control over data flow and transformations
Real-time to <1h data availability for most important data marts
📄 Self-documenting code, full scope of metadata available
🔒 Ensuring complete data ownership


DATA OPERATIONS
🛠 Easy and maintainable Data Operations on demand
🔄 Scripting repeating actions
🖥 Using pre-built devcontainers


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
3
Друзья, мы решили порадовать вас и подготовили небольшой сюрприз! ❄️

В честь Нового года мы вместе с админами дружественных каналов и групп разыгрываем подарки:

• Умная колонка SberBoom Mini
• Подарочный сертификат на 3000 рублей на покупки в издательском доме Питер (включая бестселлеры O'Reilly, печатные и электронные издания)
• USB-лампа для монитора

Для участия в розыгрыше нужно:

1️⃣ Подписаться на каналы:

СБЕР IT Сочи — канал про жизнь самого большого IT-офиса на берегу Чёрного моря

IT Сообщество Сочи — комьюнити людей из всех направлений IT индустрии, которые живут или хотят переехать в Сочи

Data Apps Design — канал, с концентрированной информацией о Data. Препарированный контент, опыт, практика и выводы

2️⃣ Нажать кнопку «Участвую!» под этим постом

🎲 Итоги розыгрыша:

Бот-рандомайзер выберет 3 победителей 10 января в 18:00. Результаты будут в апдейте этого поста, с победителями свяжемся лично ✌🏼

Всем удачи! 🔥

Участников: 321
Призовых мест: 3
Дата розыгрыша: 18:00, 10.01.2025 MSK (завершён)

Победители розыгрыша:
1. -DeMaN- - 280gi5
2. Ярослав Рубе - 22levc
3. Summer Madness - 280ghv
🔥4👍1🥴1
GiveShareBot - бот для розыгрышей
Друзья, мы решили порадовать вас и подготовили небольшой сюрприз! ❄️ В честь Нового года мы вместе с админами дружественных каналов и групп разыгрываем подарки: • Умная колонка SberBoom Mini • Подарочный сертификат на 3000 рублей на покупки в издательском…
💠 Салют! Розыгрыш не скам ☺️ Классная возможность поднять себе настоение на Новый Год!

Познакомился с толковыми ребятами из хаба СБЕР IT Сочи, а затем сделали такую коллаборацию.

От меня в рамках розыгрыша будет такой приз:

💸 Подарочный сертификат на 3000 рублей на покупки в издательском доме Питер (включая бестселлеры O'Reilly, печатные и электронные издания)


Сегодня я бы выбрал эти книги:

Разработка приложений на базе GPT-4 и ChatGPT. 2-е изд.
Продакт-менеджмент на практике
— (у меня есть, но это must have!) Высоконагруженные приложения. Программирование, масштабирование, поддержка изд. 2025
Apache Kafka. Потоковая обработка и анализ данных, 2-е издание
Искусственный интеллект и компьютерное зрение. Реальные проекты на Python, Keras и TensorFlow

Участвуйте и выигрывайте!


А сам выступлю в феврале на оффлайн митапе с темой:

🟡 Рецепт приготовления Debezium + Kafka для near real time analytics

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥127
📼 Semantic Layer demystified - всё что вы хотели знать о Семантическом слое

Удалось договориться с лидерами/инфлюенсерами в отрасли и в январе планирую выпустить подкаст с участием:

Даня Чепенкоsynmetrix.org; автор Tg semanticlayer
Иван Фокеев – founding team Statsbot / Cube.dev; ex-Narrative BI; автор synmetrix.org


🟢 Обсудим:

— Истоки Cube.dev, история становления
— Аналитические потребности компаний
— Эволюция работы с метриками. Почему вообще возникает проблема которую решает семантический слой
— Тренды в аналитике и BI
— Семантическая модель и BI
— Разница между семантическим слоем и дата-каталогом. Что, нужно в какой последовательности
— Семантичская модель и GenAI / LLM


🔵 В подкаст попробуем добавить:

— Live demo, демонстрация интересных фичей и возможностей
— Кейсы и опыт различных компаний
— Интерактив: вопрос - мнения - дискуссия


🔻 У каждого есть возможность в комментах к этому посту проявить интерес и задать вопросы, которые будем обсуждать.

🔥 Уверен, подкаст получится огонь!

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥10👍4🎉2
🎄 Друзья, всем привет. Итоги 2024 и энтузиазм 2025.

2024 in a Nutshell:
— Осуществил миграцию Redshift to Snowflake
— Стал широко использовать Kafka + Debezium для Data Streaming
— Разработал подход к формированию витрины корпоративных метрик
— Сделал уверенные шаги в сторону использования Cube.dev для Semantic Layer
— Выпустил несколько первых видео на Youtube channel
— Несколько раз выступал на конференциях и делал различные доклады

В 2025 планирую:
— Повысить активность и структурированность постов, идей и мнений
— Сделать 2-4 запуска курсов: Desgining Modern Data Apps; Data Integration with Kafka
— Оформить, описать и предложить своё видение платформы данных на основе лучших в отрасли решений
— Начать формировать команду лидеров, способных трансформировать рынок и реалии
— Прикоснуться к новому и ранее мной неизведанному: Kubernetes, Advanced ML, LLM


Моё пожелание для вас: занимайтесь интересным, мотивирущим и увлекательным делом и любите его.
Создавайте, созидайте, рассказывайте, делитесь, ищите и находите единомышленников. Вместе мы создаем что-то новое, красивое и захватывающее.


🎄 С Новым Годом!
☃️ Всех благ и новой мотивации.

Ушел на салатики, Артемий 😏


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20🥰8🙏521
😘 Data Engineering in the AI Era: Building a Robust Foundation for AI Applications

Привет! Получилось опубликовать запись доклада на YouTube: https://youtu.be/Z5aKQz78Go4


Текстовую выжимку основных идей публиковал ранее:

🟡 BUSINESS DELIVERABLES AND OUTCOMES

🔵 DATA INGESTION

🟢 DATA TRANSFORMATION

🟤 DATA OPERATIONS


Этот доклад в принципе отражает часть моей деятельности (не всё) и результаты, которые я получил в ходе нескольких последних лет:

— Как данные создают ценность и позволяют зарабатывать / оптимизировать деятельность / получать конкурентные преимущества
— Откуда брать данные, как их накапливать и делать это эффективно
— Как превращать наборы разрозненных строк в осмысленные датасеты и витрины
— Как удобно и гибко управлять всеми процессами и контролировать точки отказа


Уверен, найдете интересные идеи.

💬 Обсудить и задать вопросы можно в треде к этому посту.


🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥5🏆3👍1
💡 Clickhouse капризничает при HEAVY JOIN поэтому я рассмотрю альтернативы: Trino / Spark + S3 (Delta / Hudi / Iceberg)


🟡 Итак, вводные:

— Clickhouse очень требователен к ресурсам памяти
— Код написан аналитиком, фокус которого - на результате, не на оптимизации и выборе лучшего решения
— В 95% случаев возникает ошибка Out of memory, запрос прерывается, кластер недоступен на 20-30 секунд

Специфика расчета:
— Участвует множество CTE, к некоторым выражениям идет 2+ обращений
— В JOIN участвуют 2 большие таблицы фактов
— Для связи нет единого идентификатора 1:1
— JOIN похож на CROSS JOIN, т.е. на каждое событие клеятся все транзакции (по совпадению клиента)

Логи ошибки clickhouse-server.err.log:

<Fatal> Application: Child process was terminated by signal 9 (KILL). If it is not done by 'forcestop' command or manually, the possible cause is OOM Killer (see 'dmesg' and look at the '/var/log/kern.log' for the details).



🟢 Текущее решение проблемы - оптимизация кода

— Разбиваем одну dbt-модель на несколько: выполняем расчет поэтапно
— Появляется промежуточная материализация (таблица, на которую ссылаемся несколько раз)
— Пробуем применять фильтры как можно раньше, чтобы было меньше строк
— Конфигурируем физическое хранение данных: PARTITION_BY, ORDER_BY


🩷 Рекомендации

— Для витрин с нетривиальной логикой в обязательном порядке нужно добавлять документацию, а именно: желаемый результат, описание шагов преобразований, их назначение и порядок. Потому что без нее для любого человека (включая автора) становится трудно понимать, что это за код, зачем он так написан и что должно получиться

— Для любой витрины сначала проработать идею на концептуальном уровне (= написать документацию), и только потом приступать к написанию кода

— Для текущего кода есть более простое и оптимальное решение без множества CTE & JOINs, а именно: поместить данные в одну таблицу (UNION ALL) и пройтись оконными функциями

— Значения констант (для фильтрации) я бы советовал присваивать в заголовке кода модели через Jinja variable set для прозрачности и простоты внесения изменений


🟤 Мои выводы и идеи:

— Невозможно (сложно) уследить за каждой моделью dbt / запросом
— На этапе PR review неизвестно, как поведет себя запрос в PROD env (и когда возникнет проблема)
— Впоследствие нет желания оптимизировать / рефакторить каждый запрос по-отдельности
— При этом хочется дать каждому члену команды доступный, универсальный и надежный инструмент вне зависимости от уровня подготовки и понимания специфики расчетов / требований к ресурсам на низком уровне

📊 Поэтому: Рассмотреть переход на альтернативные движки для расчетов (heavy lifting): Trino / Spark, а Clickhouse оставить только как сверхбыстрый доступ к слою витрин данных.

— В идеале это transient cluster: поднял - посчитал - погасил (оплата только за время расчетов)
— Широкий набор доступных функций и возможностей трансформации
— Желательна максимальная поддержка dbt: наличие адаптера, artifacts, modules
— Интеграция с Kafka Connect (sink)

Кажется, идеально подходят движки Trino / Spark + S3 (Delta / Hudi / Iceberg)

💬 Что думаете?

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
👍642❤‍🔥1💯1
🔸 Привет! Cursor IDE, dev Containers, Env management, Advancing Github Actions, dbt reusable repo

Updates + Ideas Sharing за последние несколько недель:


🟡 Cursor IDE

— Установил попробовать IDE with advanced AI support
— Довольно просто перейти с VS Code (кто не в курсе, Cursor forked from VS Code)
— Порадовали очень быстрые ответы Advanced AI Models
— За 2 дня разработки потратил квоту в 150 запросов 😆
— Ранее я пользовался VS Code + Github Copilot
— В целом, я не сказал бы, что это прямо disruptor & game changer (только если вы ранее не пользовались чем-то подобным), но по ощущениям - приятно, интересно, шустренько

Продолжу trial на slow requests


🔵 Development Containers

Регулярно пишу об этом, и понимаю, что уже стал dev containers advocate, но не перестаю восхищаться тем, как это оптимизирует деятельность.

Представьте, по клику для вас локально или в облаке создается рабочее окружение:

— Вы работаете над dbt-проектом: Python + dbt (clickhouse/snowflake/bigquery/...) + linter + AWS/GCP/Azure CLI + Anything
— Вы работаете над Observable Data App: Javascript + npm + Python + linters
— Вы работаете над Kafka SMT: Java/Scala + Maven/Gradle

Плюс IDE Extensions: Kafka, Docker, Github, Gitlens, ...

Плюс Any feature: zsh, Terraform, Kubernetes, Docker in Docker, AWS CLI


🟢 Environments management

А далее я продолжил размышлять над тем, чтобы тот же контейнер использовался в качестве окружения для запуска кода в средах TEST и PROD.

— Код гарантированно и с одинаковым результатом работает локально и на сервере / в облаке
TEST (CI): вы открыли PR - собралась новая версия Image, запустились тесты. Если ОК - вы получили зеленую галочку, PR можно вливать
PROD (CD): после merge собралась новая версия Image и она публикуется как основная версия приложения (либо для регулярных запусков dbt, например)

Максимальная автоматизация (почти все работает само), унификация (у всех одинково, у тебя, меня, в облаке и на сервере), простота (обновляем версии, устанавливаем новые тулы, управляем зависимостями).

Звучит как рай? Или утопия?


🔴 Github Actions: self-hosted runners, act CLI, actionlint CLI

Пока это самый удобный и feature-rich способ организовать полный цикл разработки и поставки кода приложений / сервисов (на мой взгляд).

— Я создал несколько self-hosted runners (linux based) - квота hosted runners ограничена
— При необходимости auto scaling можно использовать Kubernetes operator for Actions Runner Controller (ARC)
— Я собираюсь унифицировать и создать Actions / reusable Workflows для всех своих нужд
— И далее в каждом проекте / репо ссылаться и переиспользовать код, заданный в одном месте

Конечно, не всё просто и легко. Есть нюансы: lifecycle management, clean up, pruning old/untagged images, optimize image build time, only build if specific files change (devcontainer.json, Dockerfile, requirements.txt).

Я устал открывать PRs и дергать Actions вручную. Feedback loop показался слишком длительным, поэтому:

— Стал использовать actionlint = Static checker for GitHub Actions workflow files
— И научился имитировать запуски локально с act CLI = Run your GitHub Actions locally 🚀

Но, в целом, это total disruption, на мой взгляд. Меня зажигает эта идея. Вся infra часть закрыта, всё работает как часы, максимум фокуса и усилий на решении бизнес-задач и создании ценности.


🟤 dbt repo (module) for importing as a package

Есть идея вынести повторяющиеся части кода / макросы / тесты / функции в отдельный модуль:

— Работа с envs: dev, test, prod; Limit data for dev, test envs
— Macros: data masking, schema management, RBAC (Access grants), External tables, cleaning up
— Custom test suites
— Reusable dbt models (for specific data sources)
— Code linting (SQL Fluff, for example)
— Guidelines: CONTRIBUTING.md, Code style and conventions, PR checklist
— Docs: generate and publish dbt Docs automatically

Ранее я уже делал нечто подобное для dbt-проектов на основе myBI Connect (data integration SaaS):

mybi-dbt-core - dbt module for myBI connect
mybi-dbt-showcase - myBI Connect + dbt showcase project
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6👍32
Artemiy Kozyr
🔸 Привет! Cursor IDE, dev Containers, Env management, Advancing Github Actions, dbt reusable repo Updates + Ideas Sharing за последние несколько недель: 🟡 Cursor IDE — Установил попробовать IDE with advanced AI support — Довольно просто перейти с VS Code…
В общем, если вы еще не пользуетесь Development Containers, Github Actions, dbt, Cursor то я настоятельно вам советую попробовать.

😘 А если будет интерес, то могу и провести YouTube stream / tutorial со слайдами и демо (как мы любим).

Всем успехов. Делитесь своими updates 💬
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29👍6
Data Apps Design pinned «🔸 Привет! Cursor IDE, dev Containers, Env management, Advancing Github Actions, dbt reusable repo Updates + Ideas Sharing за последние несколько недель: 🟡 Cursor IDE — Установил попробовать IDE with advanced AI support — Довольно просто перейти с VS Code…»
Artemiy Kozyr
📼 Semantic Layer demystified - всё что вы хотели знать о Семантическом слое
😘 Семантический Слой и Метрики - всё что вы хотели знать / Semantic Layer / Gen AI / Synmetrix / Cube

🟢 В новом выпуске подкаста обсудили концепцию Semantic Layer – Семантический слой

— Эволюция работы с метриками. Почему вообще возникает проблема которую решает семантический слой
— Аналитические потребности компаний
— Семантическая модель и BI
— Разница между семантическим слоем и дата-каталогом
— Семантичская модель и GenAI / LLM / Human language
— Где место таким инструментам как Streamlit / Observable / Evidently и смогут ли они заменить BI?
— Deployment best practics (fault-tolerance, k8s)
— Migration from LookML?
— Можно ли создать полноценное решение на основе Open Source / Core опций продукта?

🔵 В подкасте:

— Вопросы - ответы - мнения - дискуссия
— Live demo, демонстрация интересных фичей и возможностей
— Кейсы и опыт различных компаний

🟡 Участники:

— Даня Чепенко – synmetrix.org; автор Tg semanticlayer (https://t.me/semanticlayer)
— Иван Фокеев – founding team Statsbot / Cube.dev; ex-Narrative BI; автор synmetrix.org
— Михаил Шеянов - Head of Data Architecture Practice/Senior PO @ SIBUR
— Артемий Козырь - Data Platform Leader @ Wheely

🟤 Timecodes

00:00:00 Что такое семантический слой? Для чего, когда и почему?
00:04:39 Семантический слой как подход к проектированию аналитических систем
00:06:52 Унификация метрик / Single source of truth
00:11:32 Synmetrix Semantic Layer Demo
00:20:30 SQL API
00:23:55 Semantic Layer sync to BI systems
00:27:19 Advanced modeling / measures / window functions
00:29:40 Headless BI / Consuming data / Observable / Embedded analytics
00:33:49 Case SIBUR + Synmetrix
00:52:19 Разница Cube core, Cube cloud, Synmetrix. Как сделать выбор?
00:58:40 Влияние GenAI / LLM, генерация SQL, мнения и прогнозы
01:08:37 Миграция с других реализаций семантического слоя / LookML (Looker)
01:11:05 Отличия Synmetrix & Cube
01:12:40 Synmetrix Roadmap - ближайшие планы развития продукта
01:13:35 Несколько слов о Data Catalog / Data Governance
01:18:05 Wrap up / Заключение


😘 https://www.youtube.com/watch?v=Bg9ZcndcYh0


Традиционно, Like / Repost – приветствуются.
💬 Есть чем поделиться/спросить – оставляйте комменты, и возможно это послужит пищей для следующего выпуска подкаста.

🌐 @data_apps | Навигация по каналу
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11👍5