Инжиниринг Данных
21.3K subscribers
1.6K photos
36 videos
176 files
2.89K links
Делюсь новостями из мира аналитики и карьерными советами;)

9 лет в FAANG, инвестиции в недвижимость, компании и акции, solo entrepreneur🏄‍♂️

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Статья про история Olap кубов. Самые популярные кубы, которые лосих пор в ходу это Microsoft Analyses Services. Да и те переключились с Multidimensional Model в Tabular Model. Лично я их не люблю, потому что, это дополнительный слой в аналитическом решении между хранилищем и BI. Но есть ребята, кто так лихо ими умеют пользоваться и подключают готовый куб к Excel, что не подкопаешься, и бизнес пользователи довольны, ведь пользуются Excel☺️

Современные аналитические хранилища, тем более облачные, должны и без кубов справляться со своей работой. Но как я понимаю, еще много вакансий в России, где есть SQL Server + SSAS, и там нужно знать этот инструмент. Но мне повезло, работал с ними немного.
Карьера в Аналитике.pdf
8.4 MB
Вчерашняя презентация для студентов.
Наверно поэтому все учат питон:)
Forwarded from LEFT JOIN
Конференция Coalesce от dbt: что посмотреть?

С 7 по 11 декабря проходила конференция Coalesce, о которой я рассказывал ранее. В этом году все организаторы решили проводить конференции по 5 дней с кучей докладов.
С одной стороны это плюс — ощущение, что информации много и можно выбрать, что интересно. С другой стороны такое количество информации несколько изматывает, потому что часто по названию доклада не очень понятно насколько он окажется полезным и интересным. Мне все же кажется, что более трех дней для конференции это много, т.к. интерес аудитории теряется, да и необходимость заниматься своими личными и профессиональными делами не может испариться из-за события, которое хоть и в онлайне, но занимает твое внимание.

Однако мне удалось посмотреть большую часть докладов, кое-что пролистывая. Для начала коротко в целом о впечатлениях: очень круто изучать доклады с подобной конференции как Coalesce, потому что речь идет в основном о современных инструментах и облачных решениях. Почти в каждом докладе можно услышать про Redshift / BigQuery / Snowflake, а с точки зрения BI: Mode / Tableau / Looker / Metabase. В центре всего, разумеется, dbt.

Мой шорт-лист докладов, которые рекомендую изучить:

* dbt 101 — вводный доклад и интро в то, что такое dbt и как его используют
* Kimball in the context of the modern data warehouse: what's worth keeping, and what's not — интересный и очень-очень спорный доклад, который вызвал массу вопросов в slack dbt. В кратце, автор предлагает перейти на "широкие" аналитические таблицы и отказаться от нормальных форм всюду.
* Building a robust data pipeline with dbt, Airflow, and Great Expectations — в докладе про небезынтересный инструмент greatexpectations, суть которого в валидации данных
* Orchestrating dbt with Dagster — мне было несколько скучновато слушать, но если хочется познакомиться с Dagster - самое то
* Supercharging your data team — ребята сделали обертку к dbt, назвали dbt executor 9000 и рассказывают о нем
* Presenting: SQLFluff — про очень классную штуку SQLFluff, которая автоматически редактирует SQL-код согласно канонам
* Quickstart your analytics with Fivetran dbt packages— из доклада можно узнать, что такое Fivetran и как его используют совместно с dbt
* Perfect complements: Using dbt with Looker for effective data governance — про взаимодействие dbt и looker, про различия и схожие части инструментов

@leftjoin
Coral is a library for analyzing, processing, and rewriting views defined in the #Hive Metastore, and sharing them across multiple execution engines 💯💯💯

Coral not only translates view definitions between different SQL/non-SQL dialects, but also rewrites expressions to produce semantically equivalent ones, taking into account the semantics of the target language or engin

Coral consists of following modules:

✔️Coral-Hive: Converts definitions of Hive views with UDFs to equivalent view logical plan.
✔️Coral-Presto: Converts view logical plan to #Presto SQL.
✔️Coral-Spark: Converts view logical plan to #apachespark #SQL.
✔️Coral-Pig: Converts view logical plan to Pig-latin.
✔️Coral-Schema: Derives #Avro schema of view using view logical plan and input Avro schemas of base tables.
✔️Coral-Spark-Plan: Converts Spark plan strings to equivalent logical plan
https://engineering.linkedin.com/blog/2020/coral
Интересный обзор решений для аналитики и их ценообразование в статье “The Two Philosophies of Cost in Data Analytics
Dask is a free and open-source library for parallel computing in Python. Dask helps you scale your data science and machine learning workflows. Dask makes it easy to work with Numpy, pandas, and Scikit-Learn, but that’s just the beginning. Dask is a framework to build distributed applications that has since been used with dozens of other systems like XGBoost, PyTorch, Prefect, Airflow, RAPIDS, and more. It’s a full distributed computing toolbox that fits comfortably in your hand.
AWS берет пример с datalearn и учит всех бесплатно. шучу конечно, это борьба за рынок.
Самое сложно при построении аналитического решения, это не построить решение, а сделать так, чтобы его использовали. Можно наделать много дашбордов, моделей и витрин данных, но никто не будет их использовать.

Когда мы, что-то строим, мы думаем - “какая полезная информация, как она будет полезна бизнесу”. Но это лишь у нас в голове. Это называется bias, мы рисуем оптимистичную картинку. Но я не про bias, сейчас, хотя считаю, что знание типов bias и вообще, что это такое, это очень важно. Про это хорошо написано в книге “Думай медленно, решай быстро”.

Пост, про необходимость использовании метаданных о данных или по простому - Data /Bi/Analytics portal. То есть это место, куда может зайти бизнес пользователь, и ввести в поисковой строке название показателя или измерения и найти, нужный отчет или таблицу + логику трансформаций. А если в компании (крупной) используются многие решения, то нужно сделать универсальный портал, а это уже как отдельный проект. Самый главный критерий здесь - это избежать ручной работы - Copy Paste. Так как все очень быстро устаревает.

В комментариях люди могут поделиться про свои успешные или неуспешные кейсы.

А вот от взрослых компаний:
Democratizing Data at Airbnb
Metacat: Making Big Data Discoverable and Meaningful at Netflix
Databook: Turning Big Data into Knowledge with Metadata at Uber
Turning Metadata Into Insights with Databook
DataHub: Popular metadata architectures explained
The journey of metadata at PayPal
Nemo: Data discovery at Facebook
Все привет, недавно познакомился с Машей, она ведёт авторский канал телеграм-канал о Python!

В нем:

🔺 топ ошибок новичков,
🔺 лайфхаки и трюки,
🔺 красивый код,
🔺 разбор вопросов с собеседований,

Тем, кто хочет понимать, что пишет: @python_in_depth

Как вы знает Python - это важный элемент для продвинутой аналитики данных, поэтому если вы используете его в работе или учитесь, то возможно будет интересно.
Амазон Редшифт встал как кость поперек горла у основателя Оракл, и при любой возможности, он не упускает возможности про это сказать. Обиделся, что потерял самого жирного клиента в лице Амазон. Вот теперь говорит, что snowflake погубит Redshift. И это действительно так, redshift 2015 года уже давно не конкурент, а вот современный redshift с нодами RA3 (где уже разделение storage и compute и можно хранить вроде 10Pb) серьезный конкурент. Так что благодаря Snowflake, у нас довольно крутой Redshift сейчас и даже data sharing есть, осталось time travel. И у АWS огромные ресурсы сделать его ещё лучше. Они это делают медленно, чтобы у текущих клиентов ничего не сломалось. Azure только недавно выпустил Azure Synapse, сам CEO Microsoft рассказывал про него. А у Microsoft клиентов куры не клюют... В общем, snowflake как явление и продукт это круто. Я, например, не хочу snowflake, это слишком просто будет, лучше помучаться с delta lake от Databricks.
Книга по data science. Согласно описанию совсем введение дают. A concise introduction to the emerging field of data science, explaining its evolution, relation to machine learning, current uses, data infrastructure issues, and ethical challenges.
Вы слышали про Саббатикалы? Вот и я нет. Оказывается это крутая тема, вопрос как ее провернуть.

Sabbaticals - a period of paid leave granted to a university teacher or other worker for study or travel, traditionally one year for every seven years worked.

В этом блоге хорошо про это рассказано. Идея в том, чтобы каждые 5-7 лет брать отпуск на год, чтобы позаниматься чем-то другим. Идея тяжелой работы не все нравится, и у некоторых хватает смелости уйти с работы на год и провести время с семьей, научиться готовить или путешествовать (термин популярный до covid).

В общем знайте, что есть такая возможность, и где-то после 30 - это хорошая идея одолжить годик от пенсии и провести его так как нравиться.

PS я пока не могу себе позволить такую роскошь🙄 а как хотелось бы))

А еще цитата понравилась - “They say that Amazon years are like dog years and I definitely feel that because I am burnt out. “ Амазон он такой😑

Вот еще - “Emails, even urgent work emails, can wait for 3/4 hours. If something is that urgent they can call me my phone (If I work for someone that can't tolerate waiting for 4 hours for me to get back to them, they can suck my d*** and find another employee)” Я вообще уже забил на email рабочий и свой, проверяю иногда))