Венчурные компании активно изучают рынок data и инвестируют в компании. Иногда они публикуют отчеты (возможно, чтобы подтвердить свои гипотезы):
Roadmap: Data Infrastructure https://www.bvp.com/atlas/roadmap-data-infrastructure
"The modern cloud data stack is undergoing massive construction and the future of software will be defined by the accessibility and use of data."
Roadmap: Data Infrastructure https://www.bvp.com/atlas/roadmap-data-infrastructure
"The modern cloud data stack is undergoing massive construction and the future of software will be defined by the accessibility and use of data."
Forwarded from Pasha Finkelshteyn
Привет! Вероятно тебе будет интересно запостить
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/
https://blog.jetbrains.com/big-data-tools/2021/08/03/data-engineering-annotated-monthly-july-2021/
The JetBrains Blog
Data Engineering Annotated Monthly – July 2021 | The Big Data Tools Blog
August is a good time to start new things – some people are on vacation and have more spare time to read than usual, while others are back and looking for a quick refresher on what’s new in data engineering. We’re launching this Annotated series to find interesting…
👍1
Наша команда опубликовала новую вакансию - Data Scientist. Лично мне описание совсем не понравилось, так как это больше похоже на BI. Тем не менее есть всего лишь одно упоминание про опыт с ML и data science. В идеале я бы хотел инженера по spark и ML(Databricks, MLlib, MLflow), чтобы мы вместе могли построить крутые, в идеале инновационные вещи по ML в gaming. Но к сожаление, data engineering находится не в аналитическом департаменте (тоже не согласен), а в игровых сервисах, и мое мнение не особо интересно про описание вакансии.
PS ,если вы в Канаде или в Штатах, я конечно могу вас рефернуть. А вдруг
PS ,если вы в Канаде или в Штатах, я конечно могу вас рефернуть. А вдруг
10 Common Mistakes When Building Analytical Data Models
1. Treating Schema Design as a One-Off Project
2. Building Tables and ETL Processes That Are Too Big
3. Choosing (And Sticking To) The Wrong Modeling Approach
4. Lack of Empathy for the End Users
5. Not Tracking Changes Made to Your Data
6. Mixing Data With Different Granularity
7. Using Poor Naming Conventions
8. Too Many Views
9. Thinking Short Term
10. Insufficient Communication Between Data Consumers
1. Treating Schema Design as a One-Off Project
2. Building Tables and ETL Processes That Are Too Big
3. Choosing (And Sticking To) The Wrong Modeling Approach
4. Lack of Empathy for the End Users
5. Not Tracking Changes Made to Your Data
6. Mixing Data With Different Granularity
7. Using Poor Naming Conventions
8. Too Many Views
9. Thinking Short Term
10. Insufficient Communication Between Data Consumers
Medium
10 Common Mistakes When Building Analytical Data Models
Make better design choices by avoiding those pitfalls
Forwarded from DataEng
Стали доступны доклады с Airflow Summit 2021 🔥. Из наиболее интересных тем:
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
- The new modern data stack Airbyte Airflow DBT
- The Newcomer's Guide to Airflow's Architecture
- Writing Dry Code in Airflow
- Looking ahead: What comes after Airflow 2 0
- Lessons Learned while Migrating Data Pipelines from Enterprise Schedulers to Airflow
- Deep dive in to the Airflow scheduler
- Dataclasses as Pipeline Definitions in Airflow
И многие другие. Бегом изучать на канале Apache Airflow.
YouTube
The new modern data stack Airbyte Airflow DBT
Presented by Michel Tricot at Airflow Summit 2021.
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
In this talk, I’ll describe how you can leverage 3 open-source standards - workflow management with Airflow, EL with Airbyte, transformation with DBT - to build your next modern data stack. I’ll explain how…
“The business people, the actuaries, know what data they need and can define requirements, but typically don’t have the skill set to design a data architecture that gives them the data they need. Technology people typically don’t understand the business requirements, but they can design the data architectures. It’s like the people in IT speak blue, the people in business speak red, but we need people who speak purple in order to create an appropriate solution.” https://www2.deloitte.com/us/en/insights/focus/cognitive-technologies/artificial-intelligence-purple-people.html
Так же в статье упоминается - Wayne Eckerson was the first to define the “purple person” in a 2010 blog post—someone with the mix of business and technology skills that is present in many successful business intelligence and analytics people.
Он оч крут, один из первых топил за аналитику и написал очень хорошую книгу - Secrets of Analytical Leaders: Insights from Information (очень рекомендую, особенно менеджерам). У меня даже была идею такую же написать современную где поговорить с современными лидерами и спросить как у них с облачной аналитикой. Но силы уже не те))
Так же в статье упоминается - Wayne Eckerson was the first to define the “purple person” in a 2010 blog post—someone with the mix of business and technology skills that is present in many successful business intelligence and analytics people.
Он оч крут, один из первых топил за аналитику и написал очень хорошую книгу - Secrets of Analytical Leaders: Insights from Information (очень рекомендую, особенно менеджерам). У меня даже была идею такую же написать современную где поговорить с современными лидерами и спросить как у них с облачной аналитикой. Но силы уже не те))
Deloitte Insights
Purple people: The heart of cognitive systems engineering
Cognitive technologies will change the way we do business. And purple people—those who possess a mix of business and technology skills—have a big role to play. Able to speak the language of both business and technology, they will serve as translators between…
18 августа будет бесплатный воркшоп по Azure Databricks и delta lake. Будут подтягивать данные о погоде. https://mktoevents.com/Microsoft+Event/288495/157-GQE-382
У вас есть кейсы по погоде? Знаю в snowflake есть данные в реальном времени о погоде и какая-то крутая компания сделала офигенный кейс в штатах.
У вас есть кейсы по погоде? Знаю в snowflake есть данные в реальном времени о погоде и какая-то крутая компания сделала офигенный кейс в штатах.
А говорят big data не работат... Оказывается работает! Только мне кажется jira, slack и другие сервисы это не big data))
vc.ru
Xsolla уволила часть сотрудников пермского офиса после «анализа их активности» в рабочих чатах
Пользователи Twitter раскритиковали компанию за причину увольнения и тон письма основателя. Сама компания обещала «максимальный уровень поддержки» тем, кто попал под сокращение.
Компоненты аналтитического решения сгруппированы по типам и назначению. Взял из книжки What is Data Lake на O'Reilly. https://www.oreilly.com/library/view/what-is-a/9781492088899/
Немгого специфический взгляд на вещи.
Немгого специфический взгляд на вещи.
Уже не новый, но хороший пост - Test data quality at scale with Deequ - про data quality и unit tests для data pipelines.
А какие framework вы используете? Я видел несколько для Spark/Databricks. И скоро планирую что-нибудь внедрить.
А какие framework вы используете? Я видел несколько для Spark/Databricks. И скоро планирую что-нибудь внедрить.
Amazon
Test data quality at scale with Deequ | Amazon Web Services
In this blog post, we introduce Deequ, an open source tool developed and used at Amazon. Deequ allows you to calculate data quality metrics on your dataset, define and verify data quality constraints, and be informed about changes in the data distribution.…
Летняя школа от Snowflake:
Snowflake 101 – Available Now
Analysis and Visualization Best Practices – Available August 9
Data Management for Analysts – Available August 16
Advanced Analytics and Emerging Trends – Available August 23
Snowflake 101 – Available Now
Analysis and Visualization Best Practices – Available August 9
Data Management for Analysts – Available August 16
Advanced Analytics and Emerging Trends – Available August 23
Введение к 6 модулю.
В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.
Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch
В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных - Amazon Redshift, Microsoft Synapse, Google BigQuery или Snowflake. Но кроме облачных хранилищ есть еще много on-premise Teradata, Greenplum, Vertica, Exasol и тп.
Из модуля вы узнаете:
📌 Основы аналитических хранилищ данных
📌 MPP vs SMP
📌 Практика с Redshift, Snowflake и Azure Synapse
📌 Облачные ETL инструменты
📌 Обзор вакансий мирового рынка
📌 Обзор решений для операционной аналитики - Splunk, Azure Data Explorer и ElasticSearch
YouTube
DATALEARN | DE - 101 | МОДУЛЬ 6-1 ВВЕДЕНИЕ
В 6 модуле мы узнаем про аналитические и облачные хранилища данных которые используются в индустрии. Крупные компания Amazon, Microsoft, Airbnb, и многие другие из списка SP500 используют одну или сразу несколько решений для аналитических хранилищ данных…
Ted Talks у меня всегда ассоциировались с мучительным изучением английского языка. Каждый день я смотрел по одному talk, и иногда даже пытался писать пересказ. Вот интресный talk - Inside the mind of a master procrastinator | Tim Urban
Кстати узнал крутой lifehack для иммиграции в Канаду. Я всегда думал, что надо сдавать IELTS, но у знал недавно, что можно сдать другой экзамен намного легче https://www.celpip.ca/
Кстати узнал крутой lifehack для иммиграции в Канаду. Я всегда думал, что надо сдавать IELTS, но у знал недавно, что можно сдать другой экзамен намного легче https://www.celpip.ca/
YouTube
Inside the Mind of a Master Procrastinator | Tim Urban | TED
Tim Urban knows that procrastination doesn't make sense, but he's never been able to shake his habit of waiting until the last minute to get things done. In this hilarious and insightful talk, Urban takes us on a journey through YouTube binges, Wikipedia…
Свежая статья про Analytics Engineer:
If you work in the world of data, you have at this point heard a lot of talk about the Modern Data Stack. It has gained a lot of buzz and attention as companies have begun a fundamental shift in how they think about analytics and machine learning. The Modern Data Stack is built on the new cloud-native technologies that have emerged in the last decade that are fast, reliable, scalable, and, most importantly, accessible everywhere. Some of the technologies that have made this possible are massively parallel processing (MPP) cloud data warehouses like Redshift, Snowflake, and BigQuery; ingestion tools like Stitch, Airbyte and Fivetran that have improved reliability and connector coverage; and analytics platforms like ThoughtSpot that enhance users’ experience when finding and sharing data insights, and make that data accessible to everyone, everywhere.
https://medium.com/validio/dbt-and-the-analytics-engineer-whats-the-hype-about-907eb86c4938
If you work in the world of data, you have at this point heard a lot of talk about the Modern Data Stack. It has gained a lot of buzz and attention as companies have begun a fundamental shift in how they think about analytics and machine learning. The Modern Data Stack is built on the new cloud-native technologies that have emerged in the last decade that are fast, reliable, scalable, and, most importantly, accessible everywhere. Some of the technologies that have made this possible are massively parallel processing (MPP) cloud data warehouses like Redshift, Snowflake, and BigQuery; ingestion tools like Stitch, Airbyte and Fivetran that have improved reliability and connector coverage; and analytics platforms like ThoughtSpot that enhance users’ experience when finding and sharing data insights, and make that data accessible to everyone, everywhere.
https://medium.com/validio/dbt-and-the-analytics-engineer-whats-the-hype-about-907eb86c4938
Medium
dbt and the Analytics Engineer — what’s the hype about?
If you work in the world of data, you have at this point heard a lot of talk about the Modern Data Stack. It has gained a lot of buzz and…
Еще один полезный фидбек от Александры, который я подсмотрел в нашем женском сообществе, кстати Александра курирует нашу группу в Facebook.
Всем привет! Хочу от себя поблагодарить Дмитрия и всех разработчиков курса)) 🙏 Это был мой начальный этап в понимании в какую сторону работы с данными я хотела бы развиваться. Предыстория. Я долго работала в интернет маркетинге и в какой-то момент стало ясно, что пора что-то менять. Работа, говоря прямо, стала бесить. Дата аналитика всегда меня привлекала, но и страшно было - женщина, за 30ть. Тема даты стала активно пушится из каждого утюга, но
1) никто толком не мог объяснить разницу между дата сайнтистом и дата аналитиком, например.
2) было очевидно, что на волне бума обучающие организации "косят" деньги (один такой курс я прошла, спасибо, знакомой, бесплатно).
Случайно (уже не помню как) наткнулась на курс, здесь (и это самое главное) по полочкам мне разложили кто есть кто, какие знания нужно развивать, что бы, как сейчас говорят, войти в профессию. А главное, я смогла определиться в направлением. Начала со смежной с моей уже прошлой профессией - с web-аналитики. За это время параллельно с изучением основных инструментов по новой профессии, я начала изучать python, sql, Tableau, как устроены ААР, процессы (ох, ETL - самое сложное :slightly_smiling_face: оказалось)). И эти знания в последствии дали мне несколько очков сверху при рассмотрении моей кандидатуры на собеседованиях, что самое интересное они волнуют работодателя даже больше, чем Google Analytics\GTM. Да, даже так! Да и сама профессия со времен моей работы в интернет маркетинге изменилась, функционал расширился. И это отлично.
Что могу посоветовать от себя лично: сделайте git. кидайте туда все-все-все. Скрины практик на курсе, какие-то упражнения с sql, с python. Пусть даже кривые\с ошибками, но кидайте и включайте ссылку в резюме. Задавайте много уточняющих вопросов на собеседовании. Прошла много разных собеседований и крайне часто, сыпя вопросами в сторону работодателя получается так, что
1) они ищут "сами-не-знаю-кого", но модно и нужно, и конкуренты
2) хотят вроде как web-аналитика, а по факту он должен: знать все про вебку, работать в Hadoop, строить предсказательные модельки и хорошо бы ETL, и все за малую денежку. Ребята, не ведитесь. Это значит там бардак.
Не всегда HR умеют грамотно описать вакансию - это еще одна проблема.
Ходите, общайтесь. Много. Это дает понимание происходящего.
Сейчас DE\DA ищут очень многие компании, даже web-аналитики все еще востребованы, хотя направление не новое.
Уважайте, цените себя и верьте в себя. Вы на курсе! А он ооочень богатый в плане знаний. И действительно поможет в будущем.
Всем привет! Хочу от себя поблагодарить Дмитрия и всех разработчиков курса)) 🙏 Это был мой начальный этап в понимании в какую сторону работы с данными я хотела бы развиваться. Предыстория. Я долго работала в интернет маркетинге и в какой-то момент стало ясно, что пора что-то менять. Работа, говоря прямо, стала бесить. Дата аналитика всегда меня привлекала, но и страшно было - женщина, за 30ть. Тема даты стала активно пушится из каждого утюга, но
1) никто толком не мог объяснить разницу между дата сайнтистом и дата аналитиком, например.
2) было очевидно, что на волне бума обучающие организации "косят" деньги (один такой курс я прошла, спасибо, знакомой, бесплатно).
Случайно (уже не помню как) наткнулась на курс, здесь (и это самое главное) по полочкам мне разложили кто есть кто, какие знания нужно развивать, что бы, как сейчас говорят, войти в профессию. А главное, я смогла определиться в направлением. Начала со смежной с моей уже прошлой профессией - с web-аналитики. За это время параллельно с изучением основных инструментов по новой профессии, я начала изучать python, sql, Tableau, как устроены ААР, процессы (ох, ETL - самое сложное :slightly_smiling_face: оказалось)). И эти знания в последствии дали мне несколько очков сверху при рассмотрении моей кандидатуры на собеседованиях, что самое интересное они волнуют работодателя даже больше, чем Google Analytics\GTM. Да, даже так! Да и сама профессия со времен моей работы в интернет маркетинге изменилась, функционал расширился. И это отлично.
Что могу посоветовать от себя лично: сделайте git. кидайте туда все-все-все. Скрины практик на курсе, какие-то упражнения с sql, с python. Пусть даже кривые\с ошибками, но кидайте и включайте ссылку в резюме. Задавайте много уточняющих вопросов на собеседовании. Прошла много разных собеседований и крайне часто, сыпя вопросами в сторону работодателя получается так, что
1) они ищут "сами-не-знаю-кого", но модно и нужно, и конкуренты
2) хотят вроде как web-аналитика, а по факту он должен: знать все про вебку, работать в Hadoop, строить предсказательные модельки и хорошо бы ETL, и все за малую денежку. Ребята, не ведитесь. Это значит там бардак.
Не всегда HR умеют грамотно описать вакансию - это еще одна проблема.
Ходите, общайтесь. Много. Это дает понимание происходящего.
Сейчас DE\DA ищут очень многие компании, даже web-аналитики все еще востребованы, хотя направление не новое.
Уважайте, цените себя и верьте в себя. Вы на курсе! А он ооочень богатый в плане знаний. И действительно поможет в будущем.
Ещё один отличный фидбек от Ивана. Получается у всех опыт отличается и пути разные, но если цель понятно, ее относительно легко добиться, все необходимое есть.
Хотел бы так же поблагодарить Дмитрия за курс!
Во многом благодаря курсу и тому направлению которое задал Дмитрий, я получил оффер на позицию ETL разработчика в крупный банк.
Основной стэк:
Informatica, Oracle, Python, Power BI.
До этого конечно был опыт работы в техподдержке 0,5 года.
И как уже говорили Дмитрий, нужно проходить собеседования.
Я прошёл около 15 собеседований и уже в дальнейшем знал, что будут спрашивать.
Были очень странные собеседования, когда просили написать API на Python,спрашивали декораторы и итераторы, отличия *args и **kwargs(это уже advanced уровень).
Спрашивали advanced вопросы по Oracle(партиционирование, индексы, PL/SQL).
Один раз спросили про теорию сетей(в общих чертах понимать нужно).
Иногда просили подготовить
набор тестовых данных из 10-15 таблиц.
Спрашивали, а вы знаете как в SQL работает where😃
Так же плюс собеседований, дают тестовые задания, на которых можно прокачаться.
Кстати, по образованию я учитель физической культуры)
На всех собеседованиях, удивлялись, что я знаю архитектуру DWH и могу объяснить какую пользу могут принести Data/Engineer/Analyst для компании, опять же все благодаря курсу)
Какие то моменты углубленно сам изучал.
Достаточно подробно изучил Talend даже записал пару видео на YouTube, ознакомился с Luigi, постоянно работаю с Docker и Linux.
Есть пробелы в BI и статистике, но стараюсь наверстать.
Так же хотел бы поблагодарить Анатолия за курс по SQL, лучшего объяснения оконных функций я не встречал)
Так же в подготовке мне помогли курсы Глеба Михайлова.
У него есть крутой курс на udemy и он ведёт телеграм канал.
Хотел бы так же поблагодарить Дмитрия за курс!
Во многом благодаря курсу и тому направлению которое задал Дмитрий, я получил оффер на позицию ETL разработчика в крупный банк.
Основной стэк:
Informatica, Oracle, Python, Power BI.
До этого конечно был опыт работы в техподдержке 0,5 года.
И как уже говорили Дмитрий, нужно проходить собеседования.
Я прошёл около 15 собеседований и уже в дальнейшем знал, что будут спрашивать.
Были очень странные собеседования, когда просили написать API на Python,спрашивали декораторы и итераторы, отличия *args и **kwargs(это уже advanced уровень).
Спрашивали advanced вопросы по Oracle(партиционирование, индексы, PL/SQL).
Один раз спросили про теорию сетей(в общих чертах понимать нужно).
Иногда просили подготовить
набор тестовых данных из 10-15 таблиц.
Спрашивали, а вы знаете как в SQL работает where😃
Так же плюс собеседований, дают тестовые задания, на которых можно прокачаться.
Кстати, по образованию я учитель физической культуры)
На всех собеседованиях, удивлялись, что я знаю архитектуру DWH и могу объяснить какую пользу могут принести Data/Engineer/Analyst для компании, опять же все благодаря курсу)
Какие то моменты углубленно сам изучал.
Достаточно подробно изучил Talend даже записал пару видео на YouTube, ознакомился с Luigi, постоянно работаю с Docker и Linux.
Есть пробелы в BI и статистике, но стараюсь наверстать.
Так же хотел бы поблагодарить Анатолия за курс по SQL, лучшего объяснения оконных функций я не встречал)
Так же в подготовке мне помогли курсы Глеба Михайлова.
У него есть крутой курс на udemy и он ведёт телеграм канал.
Не пропустите следующий офигенно полезный вебинар про Apache Spark, SparkSQL и Pyspark https://youtu.be/OfS5o8vz-O8
YouTube
ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ
На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark…
🔔 План:
📌 Как и почему появился Apache Spark…
Forwarded from LEFT JOIN
Буквально неделю назад закончил обучение Clickhouse от Altinity (101 Series Training). Мне очень понравилось погружение в Clickhouse со стороны команды, которая по праву считается экспертами в CH, искренне рекомендую это обучение всем, кто заинтересован в расширении знаний о Clickhouse.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
Написал заметку о том, что происходит в четырех днях тренинга и делюсь своим конспектом ✍️.
LEFT JOIN
Тренинг по Clickhouse от Altinity
Буквально на днях закончил обучение Clickhouse от Altinity (101 Series Training). Для тех, кто только знакомится с Clickhouse Altinity предлагает базовый бесплатный тренинг: Data Warehouse Basics. Рекомендую начать с него, если планируете погружаться в обучение.…
через пару минут начинаем https://youtu.be/OfS5o8vz-O8
YouTube
ВВЕДЕНИЕ В PYSPARK И SPARKSQL / ОЛЕГ АГАПОВ
На вебинаре хочу рассказать про появление Apache Spark, его применение в современном стеке дата-инструментов, а также на практике показать как запустить Spark на своём компьютере и написать первый ETL пайплайн!
🔔 План:
📌 Как и почему появился Apache Spark…
🔔 План:
📌 Как и почему появился Apache Spark…