Data Council - это конференция и community для разработчиков, инженеров и аналитиков, которые создают аналитические решения на Open Source. У них на youtube канале довольно много хороших видео с недавних мероприятий.
Для меня самый главный challenge в Open Source это знание и понимание вещей, которые совсем не относятся к аналитики. Например, множество решений хостится в Docker. Помимо самого docker нужно знать CLI, shell, linux и множество других вспомогательных вещей.
Вот пример простой задачи - выгрузить данные из SalesForce и загрузить их в S3. Задача тривиальная. Но если я решу использовать open source инструменты типа Airbyte или Meltano, которые будут деплоится в docker, через docker compose в AWS ECS (Container Registry), то задачка из простой превращается в очень непростую.
Как же быть? Для себя я выработал план:
1) Я разберусь и пойму как работает решение end to end и сделаю его как можно проще, даже если это no code/low code
2) Я посмотрю best practices для open source решения и возможно я найду там упоминание Docker, CI/CD, Terraform и еще чего. Попробую что-нибудь сделать кое-как.
3) Я возьму книгу, например Docker Up and Running, Learning Terraform и тп (с подписки O’Reilly) и начну изучать эту область более детально.
Есть конечно и другой вариант, как правило есть команда DevOps кто может для вас все сделать, и это тоже вариант, но лучше разобраться самому.
Мне кажется хороший пример всей этой Open Source истории - data-engineering-zoomcamp, они там используют open source, можно попробовать сделать без понимания как все это работает и потом вернуться к пункту (3). Таким образом вы получите важные навыки, особенно на рынках импортзамещения.
Для меня самый главный challenge в Open Source это знание и понимание вещей, которые совсем не относятся к аналитики. Например, множество решений хостится в Docker. Помимо самого docker нужно знать CLI, shell, linux и множество других вспомогательных вещей.
Вот пример простой задачи - выгрузить данные из SalesForce и загрузить их в S3. Задача тривиальная. Но если я решу использовать open source инструменты типа Airbyte или Meltano, которые будут деплоится в docker, через docker compose в AWS ECS (Container Registry), то задачка из простой превращается в очень непростую.
Как же быть? Для себя я выработал план:
1) Я разберусь и пойму как работает решение end to end и сделаю его как можно проще, даже если это no code/low code
2) Я посмотрю best practices для open source решения и возможно я найду там упоминание Docker, CI/CD, Terraform и еще чего. Попробую что-нибудь сделать кое-как.
3) Я возьму книгу, например Docker Up and Running, Learning Terraform и тп (с подписки O’Reilly) и начну изучать эту область более детально.
Есть конечно и другой вариант, как правило есть команда DevOps кто может для вас все сделать, и это тоже вариант, но лучше разобраться самому.
Мне кажется хороший пример всей этой Open Source истории - data-engineering-zoomcamp, они там используют open source, можно попробовать сделать без понимания как все это работает и потом вернуться к пункту (3). Таким образом вы получите важные навыки, особенно на рынках импортзамещения.
👍50
Practical SQL.pdf
1.3 MB
When people ask which programming language I learned first, I often absent-mindedly reply, “Python,” forgetting that it was actually with SQL that I first
learned to write code.
This is probably because learning SQL felt so intuitive after spending years running formulas in Excel spreadsheets. I didn’t have a
technical background, but I found SQL’s syntax, unlike that of many other
programming languages, straightforward and easy to implement.
For example, you run SELECT * on a SQL table to make every row and column
appear. You simply use the JOIN keyword to return rows of data from different related tables, which you can then further group, sort, and analyze.
learned to write code.
This is probably because learning SQL felt so intuitive after spending years running formulas in Excel spreadsheets. I didn’t have a
technical background, but I found SQL’s syntax, unlike that of many other
programming languages, straightforward and easy to implement.
For example, you run SELECT * on a SQL table to make every row and column
appear. You simply use the JOIN keyword to return rows of data from different related tables, which you can then further group, sort, and analyze.
👍41❤6
Learning SQL OReilly.pdf
4.1 MB
From the basics SQL to advanced topics such as analytical functions and working with large databases/
👍35❤5
Я скинул sample 2х самых популярных книг про SQL на английском, при желании вы можете найти и скачать PDF полной версии этих книг бесплатно😉
🔥43👍12❤5👏5
Автор сравнивает зарплаты в Европе и Штатах в совей статье - Move to the US, work for Netflix, get rich. (ну вы поняли). В нетфликсе даже отпуск безлимитный, он вам все равно не понадобится😂.
Все проще, нужно иметь 2 средненьких работы, одну full time, чтобы были хорошие бенефиты, а вторую через юр лицо (контракт), тогда будет и зп как в Netflix и отпуск хороший.
Я посмотрел hh, и особо ничего не поменялось, все так же много вакансий и хорошие зарплаты по дата вакансиям. Уверен, что упор теперь на Open Source.
Все проще, нужно иметь 2 средненьких работы, одну full time, чтобы были хорошие бенефиты, а вторую через юр лицо (контракт), тогда будет и зп как в Netflix и отпуск хороший.
Я посмотрел hh, и особо ничего не поменялось, все так же много вакансий и хорошие зарплаты по дата вакансиям. Уверен, что упор теперь на Open Source.
👍52🤔2
Пройди опрос кому не сложно, если сложно все равно пройдите пожалуйста:
https://forms.gle/oso67ADeXjyQZnU16
https://forms.gle/oso67ADeXjyQZnU16
Google Docs
Опрос на актуальность вебинара
👍15😢10❤1🔥1
Новости из мира аналитики.
Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared - в этой статье сравнивают 3 популярных open source решения для озера данных - Hudi, Iceberg, Delta lake.
Monte Carlo раздает маркетинговые материалы, в данном случае ebook из которого вы узнаете, что такое Data Observability - The Big Book of Data Observability
Open Source BI Preset написали статью про The Case for Dataset-Centric Visualization.
Uber в своем блоге написал про Presto (SQL Engine open source) для Apache Kafka- Presto® on Apache Kafka® At Uber Scale
Если вы на AWS, можно посмотреть про best practices для AWS Analytics - Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3
И еще есть статья про dbt на AWS data lake - Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core
Prefect (Open source ETL, ближайший конкурент Airflow) написали о Continuous Data Validation with Great Expectations and Prefect
dbt продолжает развивать партнерство с Databricks - dbt Labs and Databricks: An expanding partnership. Я, например, сейчас делаю delta lake на databricks и data lake на AWS с Athena/Redshift и dbt. И вообще не понимаю, зачем нуженкозе боян dbt databricks. Наверно, для ленивых, возможно, если в databricks все делать на Spark SQL будет очень неудобно.
Яндекс Облако рассказало о своих новинках для платформ данных в своем блоге.
Hudi, Iceberg and Delta Lake: Data Lake Table Formats Compared - в этой статье сравнивают 3 популярных open source решения для озера данных - Hudi, Iceberg, Delta lake.
Monte Carlo раздает маркетинговые материалы, в данном случае ebook из которого вы узнаете, что такое Data Observability - The Big Book of Data Observability
Open Source BI Preset написали статью про The Case for Dataset-Centric Visualization.
Uber в своем блоге написал про Presto (SQL Engine open source) для Apache Kafka- Presto® on Apache Kafka® At Uber Scale
Если вы на AWS, можно посмотреть про best practices для AWS Analytics - Best practices to optimize data access performance from Amazon EMR and AWS Glue to Amazon S3
И еще есть статья про dbt на AWS data lake - Build your data pipeline in your AWS modern data platform using AWS Lake Formation, AWS Glue, and dbt Core
Prefect (Open source ETL, ближайший конкурент Airflow) написали о Continuous Data Validation with Great Expectations and Prefect
dbt продолжает развивать партнерство с Databricks - dbt Labs and Databricks: An expanding partnership. Я, например, сейчас делаю delta lake на databricks и data lake на AWS с Athena/Redshift и dbt. И вообще не понимаю, зачем нужен
Яндекс Облако рассказало о своих новинках для платформ данных в своем блоге.
👍33🔥12
Два типа Инженера Данных - запись моего доклада в прошлом году.
👍35🤬1
Вышла новая книга - Data Analysis with Python and PySpark, по ней можно очень хорошо прокачаться в PySpark. Это своего рода альтернатива SQL при работе со Spark. Так же вы узнаете и попробуете популярные питон библиотеки для работы с данными.
Data Analysis with Python and PySpark helps you solve the daily challenges of data science with PySpark. You’ll learn how to scale your processing capabilities across multiple machines while ingesting data from any source—whether that’s Hadoop clusters, cloud data storage, or local data files. Once you’ve covered the fundamentals, you’ll explore the full versatility of PySpark by building machine learning pipelines, and blending Python, pandas, and PySpark code.
Data Analysis with Python and PySpark helps you solve the daily challenges of data science with PySpark. You’ll learn how to scale your processing capabilities across multiple machines while ingesting data from any source—whether that’s Hadoop clusters, cloud data storage, or local data files. Once you’ve covered the fundamentals, you’ll explore the full versatility of PySpark by building machine learning pipelines, and blending Python, pandas, and PySpark code.
👍91🔥19🤬3
data science alert🤓
Вышла книга - The Kaggle Book
Get a step ahead of your competitors with insights from over 30 Kaggle Masters and Grandmasters. Discover tips, tricks, and best practices for competing effectively on Kaggle and becoming a better data scientist.
What you will learn
-Get acquainted with Kaggle as a competition platform
-Make the most of Kaggle Notebooks, —Datasets, and Discussion forums
-Create a portfolio of projects and ideas to get further in your career
-Design k-fold and probabilistic validation schemes
-Get to grips with common and never-before-seen evaluation metrics
-Understand binary and multi-class classification and object detection
-Approach NLP and time series tasks more effectively
Вышла книга - The Kaggle Book
Get a step ahead of your competitors with insights from over 30 Kaggle Masters and Grandmasters. Discover tips, tricks, and best practices for competing effectively on Kaggle and becoming a better data scientist.
What you will learn
-Get acquainted with Kaggle as a competition platform
-Make the most of Kaggle Notebooks, —Datasets, and Discussion forums
-Create a portfolio of projects and ideas to get further in your career
-Design k-fold and probabilistic validation schemes
-Get to grips with common and never-before-seen evaluation metrics
-Understand binary and multi-class classification and object detection
-Approach NLP and time series tasks more effectively
👍58
Эх табло попало под санкции и теперь непонятно, что будет дальше, может на торенте появится “таблеточка” для активации сервера, а может все перейдут на open source или китайские аналоги.
На всякий случай, скоро будет конференция по табло - TC 2022. Вот некоторые ссылочки:
Register for TC22 tableau.com/conference
Snap a photo on - tc22.virtualbooth.co/
Я состою в Vancouver Tableau User Group и я все жду, когда же мы встретимся offline на user group в местно офисе Табло. Я к ним даже откликался на вакансию Principal Data Engineer зимой, но потом понял, что не потяну, там нужны были java и C.
Я еще откликался в Rivian (электро машины из Seattle) на Staff Data Engineer, тоже не получилось, даже никто не написал. Было еще 2 собеседования с Amazon, один с Ванкувер и другой с Сиэтл, тоже зимой, но оба не дошел до конца, сам отказался. Решил окончательно разобраться с Open Source решениями для аналитики (сейчас очень активно ковыряю meltano - это аналог airbyte, бесплатные коннекторы). Скоро лето и нужно будет больше отдыхать на природе, а осенью будет видно.
Лекции по Databricks/Spark уже созрели в голове и скоро начну их записывать.
В идеале хочу потом сделать курс/уроки по Open Source решениями с docker, terraform, prefect, dbt, meltano и тп, но эти темы сложные для меня. Главная проблема, что оказывается сложно изучать этот предмет, имея свой багаж знаний по low code/no code приложений.
На всякий случай, скоро будет конференция по табло - TC 2022. Вот некоторые ссылочки:
Register for TC22 tableau.com/conference
Snap a photo on - tc22.virtualbooth.co/
Я состою в Vancouver Tableau User Group и я все жду, когда же мы встретимся offline на user group в местно офисе Табло. Я к ним даже откликался на вакансию Principal Data Engineer зимой, но потом понял, что не потяну, там нужны были java и C.
Я еще откликался в Rivian (электро машины из Seattle) на Staff Data Engineer, тоже не получилось, даже никто не написал. Было еще 2 собеседования с Amazon, один с Ванкувер и другой с Сиэтл, тоже зимой, но оба не дошел до конца, сам отказался. Решил окончательно разобраться с Open Source решениями для аналитики (сейчас очень активно ковыряю meltano - это аналог airbyte, бесплатные коннекторы). Скоро лето и нужно будет больше отдыхать на природе, а осенью будет видно.
Лекции по Databricks/Spark уже созрели в голове и скоро начну их записывать.
В идеале хочу потом сделать курс/уроки по Open Source решениями с docker, terraform, prefect, dbt, meltano и тп, но эти темы сложные для меня. Главная проблема, что оказывается сложно изучать этот предмет, имея свой багаж знаний по low code/no code приложений.
Salesforce
Tableau Conference | #TC25
Viz-ualize yourself at the data and analytics event of the year: April 15–17, 2025 | San Diego and Salesforce+ | #TC25
👍71🔥17😢6😁2
Новости по аналитике:
Meta (facebook) представила новый open source продукт - Sql notebooks - Bento (может и не новый). А в databricks можно делать SQL ноутбуки и так.
Corrections in data lakehouse table format comparisons - в этом посте собрали информацию по сравнению Delta, Hudi, Iceberg
Analytics Engineering At Mothership - пост про аналитику в компании Mothership. Используют dbt, Fivetran, Segment, Looker, и какая-то аналитическая СУБД.
Improving data reliability using tests in DBT - Классная презентация про тесты для ELT на примере dbt от компании Zoox (автономные тачки)
Из личного:
Используя вот это видео - Azure Purview - Scanning Databricks Metastores - я подключил Purview к Databricks через Hive connecter. Так как это не Microsoft продукт (hive) то соответственно ограниченный функционал по Lineage. Purview - дата каталог на стероидах на базе Apache Atlas, работает из коробки для Synapse, ADF и тп. В моем случаем с Azure Data Factory metadata ETL он бесполезен, нужно еще посмотреть как будет с Power BI. Пока только работает описание таблиц и колонок и поиск.
Хорошо продвинулся в Meltano - open source продукт от gitlab для ELT. Я только использую часть для Extract, но в нем еще есть возможность использовать dbt. Коннекторы используются от Singer. Лучшее видео по введение в продукт и его предыстория - Open source EL(T) with Meltano and Singer У меня все работает на локальной машине и на локальном docker, следующий шаг запустить это в AWS ECS (container registry) и это уже можно считать готовое решение - Extract/Ingest: Meltano, Orchestration: Prefect, Transformation: dbt, Storage: S3, Athena, Redshift, Data Observability: Datadog.
На подписке O'Reilly я смотрю Live Events теперь, сейчас смотрю:
Docker Fundamentals in 4 Weeks—with Interactivity
Docker: Beyond the Basics (CI & CD)
Meta (facebook) представила новый open source продукт - Sql notebooks - Bento (может и не новый). А в databricks можно делать SQL ноутбуки и так.
Corrections in data lakehouse table format comparisons - в этом посте собрали информацию по сравнению Delta, Hudi, Iceberg
Analytics Engineering At Mothership - пост про аналитику в компании Mothership. Используют dbt, Fivetran, Segment, Looker, и какая-то аналитическая СУБД.
Improving data reliability using tests in DBT - Классная презентация про тесты для ELT на примере dbt от компании Zoox (автономные тачки)
Из личного:
Используя вот это видео - Azure Purview - Scanning Databricks Metastores - я подключил Purview к Databricks через Hive connecter. Так как это не Microsoft продукт (hive) то соответственно ограниченный функционал по Lineage. Purview - дата каталог на стероидах на базе Apache Atlas, работает из коробки для Synapse, ADF и тп. В моем случаем с Azure Data Factory metadata ETL он бесполезен, нужно еще посмотреть как будет с Power BI. Пока только работает описание таблиц и колонок и поиск.
Хорошо продвинулся в Meltano - open source продукт от gitlab для ELT. Я только использую часть для Extract, но в нем еще есть возможность использовать dbt. Коннекторы используются от Singer. Лучшее видео по введение в продукт и его предыстория - Open source EL(T) with Meltano and Singer У меня все работает на локальной машине и на локальном docker, следующий шаг запустить это в AWS ECS (container registry) и это уже можно считать готовое решение - Extract/Ingest: Meltano, Orchestration: Prefect, Transformation: dbt, Storage: S3, Athena, Redshift, Data Observability: Datadog.
На подписке O'Reilly я смотрю Live Events теперь, сейчас смотрю:
Docker Fundamentals in 4 Weeks—with Interactivity
Docker: Beyond the Basics (CI & CD)
👍41👏5🤔1🤬1
Сегодня по расписанию будет - Python Environments and Best Practices
- Using the command line and command line applications
- How to set up projects using virtual environments
- Sharing code via git and GitHub
- Using IDE features for debugging, refactoring, and navigating Python code
В приложении презентация, ссылка на git, и reference document.
- Using the command line and command line applications
- How to set up projects using virtual environments
- Sharing code via git and GitHub
- Using IDE features for debugging, refactoring, and navigating Python code
В приложении презентация, ссылка на git, и reference document.
👍20🔥3👏1
👍19🔥4
Если смотрите в сторону AWS, вот свежая отличная книга Data Engineering with AWS: Learn how to design and build cloud-based data transformation pipelines using AWS
В книге очень классно все разложено про все сервисы и их назначению. Автор является AWS Solution Architect и уже много лет внедряет решения AWS.
Table of Contents
An Introduction to Data Engineering
Data Management Architectures for Analytics
The AWS Data Engineer's Toolkit
Data Cataloging, Security and Governance
Architecting Data Engineering Pipelines
Ingesting Batch and Streaming Data
Transforming Data to Optimize for Analytics
Identifying and Enabling Data Consumers
Loading Data into a Data Mart
Orchestrating the Data Pipeline
Ad Hoc Queries with Amazon Athena
Visualizing Data with Amazon QuickSight
Enabling Artificial Intelligence and Machine Learning
Wrapping Up the First Part of Your Learning Journey
В книге очень классно все разложено про все сервисы и их назначению. Автор является AWS Solution Architect и уже много лет внедряет решения AWS.
Table of Contents
An Introduction to Data Engineering
Data Management Architectures for Analytics
The AWS Data Engineer's Toolkit
Data Cataloging, Security and Governance
Architecting Data Engineering Pipelines
Ingesting Batch and Streaming Data
Transforming Data to Optimize for Analytics
Identifying and Enabling Data Consumers
Loading Data into a Data Mart
Orchestrating the Data Pipeline
Ad Hoc Queries with Amazon Athena
Visualizing Data with Amazon QuickSight
Enabling Artificial Intelligence and Machine Learning
Wrapping Up the First Part of Your Learning Journey
👍44🤔4🤬4🔥1
В 2022 году выйдет первая книга у O'Reilly по GA - Learning Google Analytics
How Google Cloud integrates with GA4
The potential use cases that GA4 integrations can enable
Skills and resources needed to create GA4 integrations
How much GA4 data capture is necessary to enable use cases
The process of designing dataflows from strategy though data storage, modeling, and activation
How Google Cloud integrates with GA4
The potential use cases that GA4 integrations can enable
Skills and resources needed to create GA4 integrations
How much GA4 data capture is necessary to enable use cases
The process of designing dataflows from strategy though data storage, modeling, and activation
👍30😁6🤔2