Первые 3 недели в роли менеджера Data Engineering https://tiffanyjachja.medium.com/my-first-three-weeks-a-data-engineering-manager-8b0be08da7a5
Мы часто говорим про Spark. А есть ли у вас опыт со Spark?
Anonymous Poll
17%
Впервые слышал про Spark у вас в канале, но опыта нет.
17%
Узнал про Spark недавно, даже немного изучал(а), но пока на практике не использую
15%
Знаю базовые вещи, используем на работе
10%
Уверенный пользователь
2%
Можно скачать, что я эксперт в Spark
20%
А что такое Spark?
0%
Ваш вариант в коммент
8%
В моей компании/команде используют, но я не работаю с ним
21%
Хочу изучить самой популярный инструмент для Big Data и Data Engineering
Forbes опубликовал Cloud 100 - список лучших компаний, которые работаю в облаке. (Databricks - на 2м месте). Там много data компаний.
Идея создания школы для запада, взяв за основу datalearn не оставляет, очень хочется проверить гипотезу на запад. На русско говорящем рынке подход и контент зарекомендовал себя, почему не сделать такое же на весь мир.
Можете пока follow на Linkedin
Можете пока follow на Linkedin
Черновик описания:
Data is everywhere. But do you know how to make it work? Do you know where to start? The analytics market is growing for the last 20 years and new tools pop up every week. Which one to learn? Do I want to be a data analyst or data scientist? Who is a data engineer and what is about Big Data Engineer? Data Visualisation is a big thing? We can continue this list over and over.
This is the modern challenge in data space. Thousands of tools, dozens of coding languages, lots of data roles, data slang, technical complexity, business domains, and so on.
West Coast Analytics is here to help you to solve these challenges and help you to boost your career in the data field and land a job. Our coaches are experts with years of experience in FAANG companies who share the love for data and the Pacific Ocean, mountains, and rain forest.
We are building training intending to train you foundations of analytics. You will start with basics and move towards a modern data stack. You wouldn't care about the tooling, you will learn business intelligence and data engineering principles.
Our school will help you
1. Transfer in analytics space and land data job in 5-6 months with 0 prior experience.
2. Close the gaps in data analytics and data engineering
3. Get knowledge about North America and European market demand
4. Learn best practices
5. Join data community with people from all over the world
6. Participate in offline intensive Surf+Data
Our school will help you
1. Transfer in analytics space and land data job in 5-6 months with 0 prior experience.
2. Close the gaps in data analytics and data engineering
3. Get knowledge about North America and European market demand
4. Learn best practices
5. Join data community with people from all over the world
6. Participate in offline intensive Surf+Data - surf camp with data workshops
Data is everywhere. But do you know how to make it work? Do you know where to start? The analytics market is growing for the last 20 years and new tools pop up every week. Which one to learn? Do I want to be a data analyst or data scientist? Who is a data engineer and what is about Big Data Engineer? Data Visualisation is a big thing? We can continue this list over and over.
This is the modern challenge in data space. Thousands of tools, dozens of coding languages, lots of data roles, data slang, technical complexity, business domains, and so on.
West Coast Analytics is here to help you to solve these challenges and help you to boost your career in the data field and land a job. Our coaches are experts with years of experience in FAANG companies who share the love for data and the Pacific Ocean, mountains, and rain forest.
We are building training intending to train you foundations of analytics. You will start with basics and move towards a modern data stack. You wouldn't care about the tooling, you will learn business intelligence and data engineering principles.
Our school will help you
1. Transfer in analytics space and land data job in 5-6 months with 0 prior experience.
2. Close the gaps in data analytics and data engineering
3. Get knowledge about North America and European market demand
4. Learn best practices
5. Join data community with people from all over the world
6. Participate in offline intensive Surf+Data
Our school will help you
1. Transfer in analytics space and land data job in 5-6 months with 0 prior experience.
2. Close the gaps in data analytics and data engineering
3. Get knowledge about North America and European market demand
4. Learn best practices
5. Join data community with people from all over the world
6. Participate in offline intensive Surf+Data - surf camp with data workshops
Оказывается есть FAANG и FAAMG. А я уж думал, я не в FAANG больше и все напрасно😓😶🌫️🤑
Картинку я взял из статья Data Platform Architecture at Hurb.com.
В ней автор рассказывает про свое решение:
- Data Pipelines Architecture - используют Apache Airflow, Apache Beam и Dataflow (последние 2 не знаю)
- Data Quality and Observability - используют Great Expectations (все чаще встречаю этот инструмент). Для меня самая главная проблема это определиться - а что же я хочу проверять? Какие правила создать? Это нужно понимать специфика источников и бизнеса или уже по факту дырки латать.
- Data Discovery and Serving - для хранения у них BigQuery. Для BI используют Metabase.Для data catalog используют Amundsen (кто нибудь пробовал?)
В ней автор рассказывает про свое решение:
- Data Pipelines Architecture - используют Apache Airflow, Apache Beam и Dataflow (последние 2 не знаю)
- Data Quality and Observability - используют Great Expectations (все чаще встречаю этот инструмент). Для меня самая главная проблема это определиться - а что же я хочу проверять? Какие правила создать? Это нужно понимать специфика источников и бизнеса или уже по факту дырки латать.
- Data Discovery and Serving - для хранения у них BigQuery. Для BI используют Metabase.Для data catalog используют Amundsen (кто нибудь пробовал?)
Medium
Data Platform Architecture at Hurb.com
At Hurb, we continually develops our Data Platform with two principles in mind: establish a single source of truth and make data trustable.
Попалась интересный пример про бренды. Мне всегда очень нравилась книга “Продавец обуви” про создание Nike. Они одни из первых стали заключать контракты со спортсменами и всегда добивались, чтобы чемпионы были в их обуви.
Allyson Felix - американская бегунья на короткие дистанции, у нее был контракт с Nike. В 2018 году из-за ее беременности Nike урезал ее контракт на 70%. Она получила такой ответ “I was told to know my place. That runners should just run that it's just business.”
Сейчас прошли олимпийские игры в Токио и она первый в мире атлет, кто финишировал (взяла золото) в кроссовках собственного бренда saysh.
Так что когда вам говорят “знайте свое место”, это еще не конец, а только начало.
Allyson Felix - американская бегунья на короткие дистанции, у нее был контракт с Nike. В 2018 году из-за ее беременности Nike урезал ее контракт на 70%. Она получила такой ответ “I was told to know my place. That runners should just run that it's just business.”
Сейчас прошли олимпийские игры в Токио и она первый в мире атлет, кто финишировал (взяла золото) в кроссовках собственного бренда saysh.
Так что когда вам говорят “знайте свое место”, это еще не конец, а только начало.
Возможно еще можно успеть по коду получить доступ к preview новой книге про Data Mesh. https://twitter.com/zhamakd/status/1426660127914958848?s=20
Лично я не ххочу тратить время на datamesh, для себя считаю бесполезной и скучной штукой. Но это я, я не люблю огромные команды, где куча процессово и бюррокартии, мне нужно место, чтобы строить и иметь полный контроль.
Лично я не ххочу тратить время на datamesh, для себя считаю бесполезной и скучной штукой. Но это я, я не люблю огромные команды, где куча процессово и бюррокартии, мне нужно место, чтобы строить и иметь полный контроль.
Forwarded from There will be no singularity
Клабхаус (извините) открыл регистрацию для всех, без инвайтов.
Но дело его живет!
Если вы думаете, что оценка snowflake в $70B при выходе на IPO это верх хайпа в мире баз данных, то нет, появился еще претендент.
Знаете, есть такие коктейльные бары, в которые пускают только тех, кто в теме. Такие бары называются speakeasy. Со времен сухого закона в США, когда бары располагались за секретной дверью в глубине парикмахерской.
В Москве есть бар "Чайная", который находится в подвале в одной из подворотен около Белорусского вокзала.
В Куала-Лумпуре вход в такой бар был стилизован под электрическую подстанцию.
Так вот, теперь есть speakeasy клауд база данных!
firebolt.io
Зарегаться в ней можно, только если докажешь, что тебе очень надо!
Да, именно. Вы должны доказать, что вам надо. Не наоборот.
Нужно созвониться с сейлзами, восхитить их длинной своих пайплайнов и размером хранилища.
Мне, например, не удалось. Меня послалив конец очереди ждать паблик релиз в конце этого года.
Но все это не помешало компании с двухлетней историей поднять $164m инвестиций.
О, этот "а чо, так можно было?" moment.
Единственное что я понял, там бай дизайн есть несколько разных движков под разные нагрузки, которые можно выбирать в зависимости от того, что вы ходите сделать.
Так же в демке я заметил очень прикольные штуки:
Но дело его живет!
Если вы думаете, что оценка snowflake в $70B при выходе на IPO это верх хайпа в мире баз данных, то нет, появился еще претендент.
Знаете, есть такие коктейльные бары, в которые пускают только тех, кто в теме. Такие бары называются speakeasy. Со времен сухого закона в США, когда бары располагались за секретной дверью в глубине парикмахерской.
В Москве есть бар "Чайная", который находится в подвале в одной из подворотен около Белорусского вокзала.
В Куала-Лумпуре вход в такой бар был стилизован под электрическую подстанцию.
Так вот, теперь есть speakeasy клауд база данных!
firebolt.io
Зарегаться в ней можно, только если докажешь, что тебе очень надо!
Да, именно. Вы должны доказать, что вам надо. Не наоборот.
Нужно созвониться с сейлзами, восхитить их длинной своих пайплайнов и размером хранилища.
Мне, например, не удалось. Меня послали
Но все это не помешало компании с двухлетней историей поднять $164m инвестиций.
О, этот "а чо, так можно было?" moment.
Единственное что я понял, там бай дизайн есть несколько разных движков под разные нагрузки, которые можно выбирать в зависимости от того, что вы ходите сделать.
Так же в демке я заметил очень прикольные штуки:
CREATE AGGREGATE INDEX agg_ind ON fact_round (и
game_code,
player_code,
count(distinct round_id),
sum(credit),
...
)
CREATE JOIN INDEX join_games_ind ON dim_games (Похоже действительно пришло время подумать о своей базе данных...
game_code, -- join column
game_studio, -- dim column
game_currency -- dim column
)
Современные дата стартапы навеяли идею дропшипинга. Берём условно snowflake или bigquery, делаем красивый front end, и продаем как новую бд по записи. Data warehouse as service. Что под капотом уже не так важно. Главное продать. А там можно и инвестиций поднять🤑
Hive Metastore уже затерли до дыр. Изначально он создавался как SQL движок для Hadoop, чтобы не писать сложный Map Reduce Job на Java. Эта часть называется Query Engine. Его другая полезная часть - Metastore - репозиторий (или абстракция в виде базы данных над данными-файлами).
Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?
PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)
Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?
PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)
Git for Data - lakeFS
Hive Metastore (HMS): What it is & What Can Replace it
A majority of data architectures feature Hive Metastore. Why has it survived and what can finally replace it in the future?
Никто не читал? https://nostarch.com/missing-readme Может есть уже pdf?)
Еще кто-то из дата поднял денюшку! Я не слышал про MonteCarlo data tool. Был там разок проездом на поезде из Фрнацию в Италию. Знаю еще есть метод Монте карло для оценки рисков, можно даже в Excel использовать.
As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.
As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.
Monte Carlo Data
Monte Carlo Raises Series C, Brings Funding To $101M To Help Companies Trust Their Data
Monte Carlo’s Series C highlights the rapid growth of the Data Observability category, our industry-defining customer adoption, and global expansion.