Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Большие новости в tech Facebook rebrands to #Meta “A social technology company”. “We build technologies that help people connect with friends and family, find communities, and grow businesses.”
https://about.fb.com/news/2021/10/facebook-company-is-now-meta/
У нас в slack есть канал data_news_from_the_world. Я его подписал на RSS разных тематических компаний и вендоров. Там даже была новость clickhouse.

Netflix опубликовал интервью с Data Engineer. Вообще Netflix платит топовые зарплаты, но и спрос соответствующий. У них есть безлимитный отпуск, но никто им не пользуется (безлимитным).

У них есть целый раздел посвященный data engineering https://netflixtechblog.com/tagged/data-engineering

Есть ещё книга про компанию Netflix, там хорошо раскрыты подходы к найму лучших сотрудников и их удержание.
👍1
🚀 Примите участие в онлайн-соревновании BCS Coding Days от «БКС Мир инвестиций» и Фонда «Сколково».

BCS Coding Days — это задачи для системных аналитиков, Android и Java-разработчиков с призовым фондом 1 500 000 рублей. Соревнование пройдёт с 4 по 5 декабря онлайн.

Трек для Системных аналитиков:

Вам будет предложено 4 реальных кейса:
- инструментарий для гибкой настройки портфеля;
- сервис «Обмен ПИФ»;
- подбор и анализ финансовых инструментов;
- онбординг новых пользователей.

Таймлайн BCS Coding Days:
- В преддверии соревнования посетите митапы с экспертами рынка;
- С 4 по 5 декабря решайте задачи, участвуйте в чек-поинтах и стрим-конференции с экспертами «БКС Мир инвестиций»;
- 7 декабря презентуйте свое решение и выиграйте главные призы.

Поборитесь за главный приз и возможность получить offer от «БКС Мир инвестиций».

👉 Успейте подать заявку до 3 декабря по ссылке: https://clck.ru/YWPaH

PS Пост поддержал приют для собак Зоорассвет в Москве
mds.pdf
16 MB
Красивая презентация про modern data stack
Данные бывают:
- Structured - табличный вид
- Semi-Structured - XML, JSON, и тп
- Unstructured - Video, Image, Text, Audio. (На примере web логи, и мы можем их часточно структурировать, через пробел, поэтому не самый лучший пример)
В октябре вышла новая книга с громким названием - Data Engineering with Spark, Delta Lake, and Lakehouse

Section 1: Modern Data Engineering And Tools
Chapter 1: The Story Of DE And Analytics
Chapter 2: Storage And Compute Data Lakes
Chapter 3: Data Engineering On Azure


Section 2: Data Pipelines And Stages Of DE
4: Understanding Data Pipelines
5: Data Collection Stage
6: Understanding Delta Lake
7: Data Curation Stage
8: Data Aggregation Stage


Section 3: DE Challenges And Effective Deployment Strategies
9: Deploying And Monitoring Pipelines
10: DEChallenges
11: Infrastructure Provisioning
12: Continuous Integration And Deployment (CI/CD)


Я просмотрел всю книгу, в книге есть end-to-end case про создание аналитического решения на Azure с использованием Databricks и Data Factory. В книге мы не найдем best practices или глубокой информации по созданию решений, но есть хорошие примеры, которые помогут начать работать с Azure Data Platform.
👍2
В ноябре получится выступить на игровой конференции и рассказать про аналитику для AAA игр https://devgamm.com/fall2021/
Недавно facebook запустил Metaverse и Microsoft тоже активно работает в этом направлении. На Microsoft Ignite 2021 они показали продукт Mesh для Team. Пока входной порог очень высокий так как устройство дорогое. И вообще интересно применение, это должно быть новое поколение людей для кого это будет нормой, я себя не вижу в таком девайсе, мне лучше по старинке с выключенной камерой сидеть на митинге и заниматься своими делами😇

А вы бы хотели тусить в metaverse?
В 6 модуле я рассказывал как современные аналитические платформы мериются ..... производительностью😜

Они используют TPC дата сеты, и даже в модуле 6 про Redshift ученики должны были нагенирить несколько гигабайтов данных с помощью утилитки и загрузить в Redshift.

А сегодня Databricks сказал, что уделал Snowflake в 12 раз! - Databricks Sets Official Data Warehousing Performance Record
используя TPC-DS датасет.

То есть, еслы вы хотите вписаться в топ лигу аналитических БД, вам просто нужно взять данных TPC-DS, примерно одинаковые типы нод и запустить тест. Ждем от clikchouse что-то похожее.

Вообще все напали на Snowflake - Azure SQL DW быстрей и дешевле, Firbolt быстрей и дешевле, и теперь еще и Databricks.

Тут стоит добавить, что Snowflake позиционирует себя Data Warehouse as a Service (SaaS), то есть при загрузке данных по умолчанию мы не оптимизируем индекса, распределение данных и ключи. Поэтому он работает хорошо, но явно может лучше, если мы будем тюнить каждую таблицу.

Вообще скорость и цена облачный решения это все очень относительно, но отлично работает для маркетинга и главное любой желающий может повторить эксперимент
Я слышал много раз про состояние потока “flow”, но не знал откуда это пошло и только узнал из новости Mihaly Csikszentmihalyi, the Father of ‘Flow,’ Dies at 87

Вот его книга - Flow: The Psychology of Optimal Experience

Неплохой отзыв про книгу:
One of the best books you will ever read, if you can pick only 5 books to read in your life this would be one of those! The author simply asked "What makes a life worth living?" It's clearly nothing that money can buy. The book is about how people find pleasure and lasting satisfaction in activities that bring them in a state the author calls "flow." Super interesting book, can't recommend it enough.
Forwarded from Data Ninja (Dmitriy)
Не люблю формальные определения и всю эту мишуру. Но тем не менее бывают достаточно полезные знания, которые позволяют яснее излагать свои мысли при описании требований к построению хранилищ данных. Одним из таких формальных определений является SCD (Slowly Changing Dimensions) - это такие данные которые могут меняться со временем, и на самом деле у нас есть целых 3 способа зафиксировать измнения.

Пример данных которые могут измениться

+--------+------------+-------------------+
| Имя | Дата рождения | Должность |
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник |
+--------+------------+-------------------+


SCD1 - честно выполняем UPDATE данных и теряем историю

+--------+------------+-------------------+
| Имя | Дата рождения | Должность
+--------+------------+-------------------+
| Иванов | 1990-01-01 | Специалист
+--------+------------+-------------------+


SCD2 - добавляем запись строкой, сохраняем историю и увеличиваем объем данных

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Должность | Дата события
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | 2001-01-01
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Специалист | 2002-01-02
+--------+------------+-------------------+-------------------+


SCD3 - добавляем новое значение как колонку (редко используемое)

+--------+------------+-------------------+-------------------+
| Имя | Дата рождения | Пред. Должность | Новая Должность
+--------+------------+-------------------+-------------------+
| Иванов | 1990-01-01 | Младший сотрудник | Специалист
+--------+------------+-------------------+-------------------+


#собеседование
Издатель присылает теперь такие вот отчеты, по моим книгам. Хороший пример аналитики и клиентоориентированый подход. Это они в первый раз такое прислали, раньше надо было смотреть самому все.

Кстати книга по ADF была написано совместно с читателями канала, по Tableau exam (370 страниц а не 37) и Tableau 2019 вместе с коллегами из Амазон.

Если вы хотите написать книгу то есть моя презентация как это сделать

Единственный минус вы ничего не заработаете, все забирает издатель.
👍2
Прикольная футболка, подумал я, когда увидел в linkedin. А потом я вспомнил, что это значит. Мой сосед data scientist из LA, профессор математики и возможно выступит у нас на митапе однажды. Он отказался от работы в Netflix, Google и Facebook. Мы с ним ходим в бассей, смотрим ML конференции от Microsoft и он много рассказывает про политику в Америке. Как я понял Байдена очень не любят там. Мне он кажется вообще не живым по новостям.

Что значит фраза "Let's go Brandon"? Недавно на наскар ралли в штатах репортер давал интервью, но его было плохо слышно, потому что весь стадион кричал "F**k Joe Biden." Репортер не растерялся и сказал, люди скандируют победителю гонок и кричат "Let's go Brandon". И теперь это мем №1 в Штатах. И теперь вы знаете, что это значит. https://www.cnn.com/2021/11/01/politics/lets-go-brandon-joe-biden/index.html
Товарищ создал Sandbox проект себе, вот что он включил в него. Я знаю только dbt, preset, great expectations, airbyte, big query, google analytics. И слышал про activity schema.

Avo - Data sourcing planning
Google Analytics 4
elbwalker - tool for testing sourcing
RudderStack
Klaro - open source consent management
GTM
Airbyte
BigQuery
dbt Labs
Activity Schema
Datahub
Castor - automatic sources schemas and the magic automation
Soda - test-driven data modelling.
Great Expectations
Lightdash
Preset
Census
🫡1