Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

3.26K viewsDmitry Anoshin, 23:52

Инжиниринг Данных

Картинку я взял из статья Data Platform Architecture at Hurb.com.

В ней автор рассказывает про свое решение:
- Data Pipelines Architecture - используют Apache Airflow, Apache Beam и Dataflow (последние 2 не знаю)
- Data Quality and Observability - используют Great Expectations (все чаще встречаю этот инструмент). Для меня самая главная проблема это определиться - а что же я хочу проверять? Какие правила создать? Это нужно понимать специфика источников и бизнеса или уже по факту дырки латать.
- Data Discovery and Serving - для хранения у них BigQuery. Для BI используют Metabase.Для data catalog используют Amundsen (кто нибудь пробовал?)

Data Platform Architecture at Hurb.com

At Hurb, we continually develops our Data Platform with two principles in mind: establish a single source of truth and make data trustable.

3.55K viewsDmitry Anoshin, edited 01:21

Инжиниринг Данных

Попалась интересный пример про бренды. Мне всегда очень нравилась книга “Продавец обуви” про создание Nike. Они одни из первых стали заключать контракты со спортсменами и всегда добивались, чтобы чемпионы были в их обуви.

Allyson Felix - американская бегунья на короткие дистанции, у нее был контракт с Nike. В 2018 году из-за ее беременности Nike урезал ее контракт на 70%. Она получила такой ответ “I was told to know my place. That runners should just run that it's just business.”

Сейчас прошли олимпийские игры в Токио и она первый в мире атлет, кто финишировал (взяла золото) в кроссовках собственного бренда saysh.

Так что когда вам говорят “знайте свое место”, это еще не конец, а только начало.

3.63K viewsDmitry Anoshin, 05:43

Инжиниринг Данных

https://habr.com/ru/post/535616/

Как бы я сейчас объяснил молодому себе… зачем существуют требования ACID для баз данных?

Фотограф: Elliott Erwitt Я – выскочка. По крайней мере, так я себя иногда ощущаю. Закончив второй курс политологии и журналистики в университете, я увидел американский рейтинг профессий по уровню...

3.79K viewsDmitry Anoshin, 06:05

Инжиниринг Данных

Товарищ, не торопись!🤗

3.68K viewsDmitry Anoshin, 11:29

Инжиниринг Данных

6000x быстрее вашего DW? Ну а чего мелочиться-то!!! А так можно было? Обычно 2-3x, ну или если не скромно, то 10-15х.

3.63K viewsDmitry Anoshin, 18:55

Инжиниринг Данных

Возможно еще можно успеть по коду получить доступ к preview новой книге про Data Mesh. https://twitter.com/zhamakd/status/1426660127914958848?s=20

Лично я не ххочу тратить время на datamesh, для себя считаю бесполезной и скучной штукой. Но это я, я не люблю огромные команды, где куча процессово и бюррокартии, мне нужно место, чтобы строить и иметь полный контроль.

3.31K viewsDmitry Anoshin, 20:46

Инжиниринг Данных

Forwarded from There will be no singularity

Клабхаус (извините) открыл регистрацию для всех, без инвайтов.

Но дело его живет!
Если вы думаете, что оценка snowflake в $70B при выходе на IPO это верх хайпа в мире баз данных, то нет, появился еще претендент.

Знаете, есть такие коктейльные бары, в которые пускают только тех, кто в теме. Такие бары называются speakeasy. Со времен сухого закона в США, когда бары располагались за секретной дверью в глубине парикмахерской.
В Москве есть бар "Чайная", который находится в подвале в одной из подворотен около Белорусского вокзала.
В Куала-Лумпуре вход в такой бар был стилизован под электрическую подстанцию.

Так вот, теперь есть speakeasy клауд база данных!

firebolt.io

Зарегаться в ней можно, только если докажешь, что тебе очень надо!
Да, именно. Вы должны доказать, что вам надо. Не наоборот.

Нужно созвониться с сейлзами, восхитить их длинной своих пайплайнов и размером хранилища.
Мне, например, не удалось. Меня послали ~~в конец очереди~~ ждать паблик релиз в конце этого года.

Но все это не помешало компании с двухлетней историей поднять $164m инвестиций.

О, этот "а чо, так можно было?" moment.

Единственное что я понял, там бай дизайн есть несколько разных движков под разные нагрузки, которые можно выбирать в зависимости от того, что вы ходите сделать.
Так же в демке я заметил очень прикольные штуки:

CREATE AGGREGATE INDEX agg_ind ON fact_round (
  game_code,
  player_code, 
  count(distinct round_id), 
  sum(credit),
  ...
)

и

CREATE JOIN INDEX join_games_ind ON dim_games (
  game_code,      -- join column
  game_studio,    -- dim column
  game_currency   -- dim column
)

Похоже действительно пришло время подумать о своей базе данных...

3.33K viewsDmitry Anoshin, 22:06

Инжиниринг Данных

Современные дата стартапы навеяли идею дропшипинга. Берём условно snowflake или bigquery, делаем красивый front end, и продаем как новую бд по записи. Data warehouse as service. Что под капотом уже не так важно. Главное продать. А там можно и инвестиций поднять🤑

3.12K viewsDmitry Anoshin, edited 00:31

Инжиниринг Данных

Hive Metastore уже затерли до дыр. Изначально он создавался как SQL движок для Hadoop, чтобы не писать сложный Map Reduce Job на Java. Эта часть называется Query Engine. Его другая полезная часть - Metastore - репозиторий (или абстракция в виде базы данных над данными-файлами).

Да что я вам рассказываю, вот же статья - Hive Metastore – Why It’s Still Here and What Can Replace It?

PS я его использовал в AWS Athena, AWS Glue, AWS Redshift Spectrum, AWS Elastic Map Reduce, Azure HDInsight, Azure Synapse и теперь использую в Azure Databricks. Получается это самый важный элемент big data экосистемы (вы тоже его попробуете в модулях 6-8)

Git for Data - lakeFS

Hive Metastore (HMS): What it is & What Can Replace it

A majority of data architectures feature Hive Metastore. Why has it survived and what can finally replace it in the future?

3.45K viewsDmitry Anoshin, edited 04:15

Инжиниринг Данных

Никто не читал? https://nostarch.com/missing-readme Может есть уже pdf?)

3.47K viewsDmitry Anoshin, edited 04:34

Инжиниринг Данных

Не забудьте в чатиках засветиться! Сами понимаете какое сейчас время - биг дата не спит!

3.73K viewsDmitry Anoshin, 07:27

Инжиниринг Данных

Еще кто-то из дата поднял денюшку! Я не слышал про MonteCarlo data tool. Был там разок проездом на поезде из Фрнацию в Италию. Знаю еще есть метод Монте карло для оценки рисков, можно даже в Excel использовать.

As first defined by the team here at Monte Carlo, Data Observability leverages the best practices and principles of automatic application observability (think: Datadog or AppDynamics) and applies them to data pipelines, giving data engineers and analysts visibility across all data pipelines and data products. Simultaneously, Monte Carlo’s machine learning-powered platform provides data leaders and other data stakeholders with a holistic view of their company’s data health and reliability for critical business use cases.

Monte Carlo Data

Monte Carlo Raises Series C, Brings Funding To $101M To Help Companies Trust Their Data

Monte Carlo’s Series C highlights the rapid growth of the Data Observability category, our industry-defining customer adoption, and global expansion.

3.49K viewsDmitry Anoshin, 20:42

Инжиниринг Данных

3.28K viewsDmitry Anoshin, 00:34

Инжиниринг Данных

Apache Hudi - The Data Lake Platform - отличная документия по open source решению для Lake house.

Всего 3 решения доступны для вашего data lake:
- Apache Hudi by Uber Engineering
- Apache Iceberg by Netflix
- Delta Lake by Spark developers

Я использую delta lake в Databricks, вроде ничего так, работает. А вы как?

hudi.apache.org

Apache Hudi - The Data Lake Platform | Apache Hudi

As early as 2016, we set out a bold, new vision reimagining batch data processing through a new “incremental” data processing stack - alongside the existing batch and streaming stacks.

3.53K viewsDmitry Anoshin, 00:42

Инжиниринг Данных

Preset - коммерческий продукт Apache Superset (open source BI), теперь доступен беслатно до 5 пользователей. Раньше такое было у Mode (SQL BI облачный продукт).

Почему они так делают, себе в убыток? А все просто, это такая бизнес модель, дать бесплатно что-то, чтобы потом заработать. Их statement "The Future of Business Intelligence is Open Source" - не новый, открытое ПО было всегда и дальше будет. В них вложили уже 12.5млн $. Врят ли инвесторы захотели потратить деньги, чтобы мы могли бесплатно кривые pie chart строить🦧 И еще бабло спускать на дорогих инженеров, чтобы нам это pie chart напрограммировать. Лучше в 3D!😇

Announcing Preset Cloud GA

Preset Cloud is now generally available! Preset Cloud is a modern data exploration and visualization platform powered by Apache Superset.

3.57K viewsDmitry Anoshin, edited 16:49

Инжиниринг Данных

У Tableau есть Iron Viz контест, где самые креативные пользователи могу построить визуализацию по заданному датасету, как правило там best of the best. Вот ТОП 10 в 2021 году The results for the 2021 Iron Viz Qualifier Contest are in https://www.tableau.com/about/blog/2021/8/data-joy-iron-viz-qualifier-contest-results-2021

Find out the results of the 2021 Data + Joy Iron Viz Qualifier Contest

Find out the three finalists selected to compete in the 2021 virtual Iron Viz finals at Tableau Conference.

3.57K viewsDmitry Anoshin, edited 16:57

Инжиниринг Данных

Только вспомнили preset, а они денег подняли!

Data visualization and analytics platform Preset takes in $35.9M

Preset, a data visualization and analytics platform built on Apache Superset, raised $35.9 million in a series B funding round.

3.59K viewsDmitry Anoshin, 18:26

Инжиниринг Данных

А вы все еще используюте палитру светофора, где
❌ - ПЛОХО
✅ - ХОРОШО

А зря! И вот почему Friends Don’t Let Friends Use Stoplight Color Schemes

Кстати у нее на сайте много интересного материала! Как она говорит про себя - "Сотрудники белого дома при Обаме были в восторге от нее!"

PS c 3D pie chart можно!

Friends Don't Let Friends Use Stoplight Color Schemes

Don't google "data scorecard." It's full of stoplight color schemes. There are three solid reasons, each of which, on its own, is more than enough to get the red-yellow-green scheme uprooted.

3.65K viewsDmitry Anoshin, edited 22:30

Инжиниринг Данных

3.58K viewsDmitry Anoshin, 04:27

Инжиниринг Данных

Квантум рынок тоже не стоит на месте. На графике инвестиции в quantum startups. Я заметил, что некоторые connections на linkedin (кто занимался аналитикой) инвестируют время в изучение квантум, например на курсах от IBM. https://www.theinformation.com/articles/quantum-computing-startups-draw-record-investment

Я совершенно про них не знаю, но будет интересно, если в будущем аналитика будет использовать квантовые вычисления
https://www.ibm.com/quantum-computing/what-is-quantum-computing/

3.42K viewsDmitry Anoshin, 17:03