Инжиниринг Данных

📈 Руководство по визуализации данных

Ребята из Германии сделали классное руководство по визуализации данных и открыли его под лицензией Creative Commons.

А чтобы никто не догадался и не оценил их труд — назвали максимально непонятно и спрятали на сайте в слабочитаемом виде.

Но я все равно нашел!

Поэтому теперь у вас есть бесплатная книга по визуальному представлению данных для отчетов и дашбордов. Подробная (150 страниц) и практическая (197 иллюстраций). В вебе, epub и pdf:

https://antonz.ru/dataviz-guide/

2.7K viewsDmitry Anoshin, 16:21

Инжиниринг Данных

Lakehouse = data warehouse + data lake. То есть берём лучшее, что есть у обоих подходов и получаем домик у озера))

Пример коммерческих решений snowflake, synapse analytics, databricks.

https://medium.com/snowflake/selling-the-data-lakehouse-a9f25f67c906

Medium

Selling the Data Lakehouse for a Data Cloud

The recent craze around the data lakehouse seems to me like much ado about nothing.

3.1K viewsDmitry Anoshin, edited 16:50

Инжиниринг Данных

Ещё один студент #datalearn нашел работу. До этого у него был небольшой опыт с Экселем и данным. Он работал с маркетинговыми кампаниями. Из 12 собеседований он получил 4 оффера. Я очень рад за человека, которые поставил цель и добился, даже несмотря на первоначальные неудачи и провалы. Вот его словами:

Дима, привет! Хочу выразить благодарность тебе и всему сообществу даталерн! Почти месяц прошёл с тех пор, как я на новой работе. Работа нравится, связана с обработкой и хранением данных, как я и хотел изначально. По ЗП тоже не обидели.

Но не скажу, что это было легко :) Кучу нового пришлось изучить, а еще больше приходится изучать уже на работе) Но, как говорится, дорогу осилит идущий.

Записался на курс одним из первых, когда он только стартовал в июне или конце мая, точно не помню. Скорее так, для общего развития. Про sql если что-то и знал, то это select звездочка. Слова data warehouse, кимболл, звезда - все это звучало для меня, как клингонский.
Но потом ничего, втянулся. Ты понятно объясняешь и самое главное дал мне понимание всей картины, как это работает вместе. Кто есть кто в команде по работе с данными и зачем вообще это нужно.
По отдельным инструментам вроде sql, tableau , bash и питона я уже отдельные курсы гуглил и их проходил, благо их навалом.

Оглядываясь назад, дал бы себе следующие советы

1. Выбрать что тебе ближе bi, data engineer, аналитика данных, data science и. т. д и сфокусироваться на этом.

2. Чем раньше начнешь ходить на собесы, тем лучше. Быстрее поймешь чего не хватает, правильнее расставишь приоритеты в обучении. Мысли вроде, да я ещё подтяну это или то, тогда начну ходить - это все отмазки мозга, чтобы не вылазить из зоны комфорта. Идеального момента никогда не будет, всегда будет чего то не хватать. Еще и забудете, что учили ранее.

3. Любая информация забывается, если её не повторять и нигде не использовать.
Я три раза курсы по базовому sql проходил. Три раза за неполный год Карл! А потому что на старой работе он был не нужен, а перечитывать теорию мне было лень. Только, когда начал пилить свои пет проекты, где использовал sql и складывал их на гитхаб, тогда в памяти начало что-то откладываться. Отсюда ещё одна рекомендация

4. Заведите репозиторий на гитхабе и скидывайте туда свои проекты. Или дашборды в табло паблик, смотря чем решили заняться. Прошли курс- сделали проект. Так и в памяти лучше отложится и на собеседовании можно показать. И на работе пригодится, если попадется похожая задача, то сэкономите время, будете хоть понимать куда копать

3.3K viewsDmitry Anoshin, edited 21:59

Инжиниринг Данных

Интересные новости, к вопросу жив Hadoop или мертв🤞

Apache Foundation объявила, что 19 продуктов идут на пенсию, 11 из которых big data штуки.

Конечно концепты Hadoop важны и применяются по сей день, но уже не в первоначальном виде.

https://www.zdnet.com/article/apache-software-foundation-retires-slew-of-hadoop-related-projects/

ZDNET

Apache Software Foundation retires slew of Hadoop-related projects

Retirements of 13 big data-related Apache projects -- including Sentry, Tajo and Falcon -- have been announced in 11 days. It looks like the idealistic days of Hadoop and big data are officially over.

3.4K viewsDmitry Anoshin, 21:13

Инжиниринг Данных

Все так, но мы часто забываем об этом. Ничего лишнего, только по делу. Кстати в Амазоне для позицйи Senior и выше, будет тестовое задание по writing. Сейчас у нас в Microsoft культуры writing нет, одни power point, печалька.

3.2K viewsDmitry Anoshin, 00:26

Инжиниринг Данных

AWS event на русском https://pages.awscloud.com/EMEA_FIELD_WEBINAR_RU-CIS--4-0--Amazon-Web-Services_7014z0000014Qjdregistration.html

Amazon Web Services, Inc.

AWS has the services to help you build sophisticated applications with increased flexibility, scalability and reliability.

2.9K viewsDmitry Anoshin, 03:20

Инжиниринг Данных

У #datalearn ,есть небольшое сообщество девушек. Недавно они взяли интересное интервью с Ксенией Певзнер, она - руководитель по маркетинговой аналитике самого крупного российского легального онлайн кинотеатра “Окко”
https://youtu.be/jOQXozaOYuo
Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.

YouTube

DATALEARN | ИНТЕРВЬЮ С КСЕНИЕЙ ПЕВЗНЕР, РУКОВОДИТЕЛЬ МАРКЕТИНГОВОЙ АНАЛИТИКИ ОНЛАЙН КИНОТЕАТРА ОККО

🔥 Интервью руководителя по маркетинговой аналитике самого крупного российского легального онлайн кинотеатра “Окко” Ксении Певзнер каналу DataLearn. Беседа об аналитике, жизненном пути, необходимых компетенциях и многом другом.

👍🏻Интервью провела куратор…

3.0K viewsDmitry Anoshin, edited 14:24

Инжиниринг Данных

Небольшой ролик про AWS use cases для спутников. Отличная идея для стартапа - аналитика спутниковых данных. А то все маркетинговые кампании анализируем))

YouTube

AWS for Aerospace and Satellite

Be inspired. Follow pioneer astronaut Peggy Whitson as she gains first-hand insights from Major Gen. Clint Crosier (Ret.) on how AWS helps space customers take research and discovery to the next level. Explore how NASA’s Mars Mission, Maxar Technologies,…

2.8K viewsDmitry Anoshin, 18:16

Инжиниринг Данных

Новая книжка с хорошим названием, а про контент не знаю... https://www.amazon.co.uk/dp/1781335214/ref=cm_sw_r_cp_awdb_imm_7PVA8KR6F625WZMMSHWB

2.8K viewsDmitry Anoshin, 02:17

Инжиниринг Данных

Cheetsheet по delta lake https://github.com/delta-io/delta/blob/master/examples/cheat_sheet/delta_lake_cheat_sheet.pdf

GitHub

delta/examples/cheat_sheet/delta_lake_cheat_sheet.pdf at master · delta-io/delta

An open-source storage framework that enables building a Lakehouse architecture with compute engines including Spark, PrestoDB, Flink, Trino, and Hive and APIs - delta-io/delta

2.7K viewsDmitry Anoshin, 04:20

Инжиниринг Данных

Вопрос для тех кто использует Delta Lake:
1) Почему вы используете Delta Lake, а не хранилище данных?
2) Какие Инструменты вы используете?
3) Используете ли вы external metastore или по умолчанию (internal)?
4) Используете ли Streaming для Delta Lake?

Вот мои ответы:
1) Я использую delta lake, потому что хочу лучше разобрать в этом подходе и заодно Python и Spark подтянуть. Мог бы обойтись и традиционным хранилищем на Azure.
2) 4 месяца использовал Databricks. Очень классный продукт. К сожалению, перешел на Azure Synapse Analytics. Пытаюсь понять насколько сильно этот продукт отстает и как дальше жить:)
3) В Databricks и HDInsight я использовал external megastore, так как это позволяет разделить на элементы, и я могу создавать back up metastore, могу один и тот же metastore использовать для HDInsight и Databricks. В общем очень удобно. Если удалю computing resources, мой metastore останется неизменным.
4) Была надежда использовать Streaming для Databricks. Synapse не поддерживает.

Интересно послушать про ваш опыт с Delta Lake.

PS Если посмотреть на продукты Microsoft, то как правило это mass market - SQL Server, Power BI. То есть огромное количество пользователей. Часто сами инструменты не самые лучшие, но темнеменее по кол-ву пользователей всех обходят. Сам факт, что в Synapse Analytics есть одновременно возможность писать SQL и использовать Spark в notebooks, говорит мне о том, что теперь минимальная планка для человека, работающего с данными не только знание SQL, но и знание Spark и языка для манипуляции данных Python, Spark.

2.9K viewsDmitry Anoshin, 04:48

Инжиниринг Данных

3.0K viewsDmitry Anoshin, 06:18

Инжиниринг Данных

Forwarded from Reveal the Data

Давно хотел написать про стандарт IBCS, а тут выдался отличный повод — Антон Жиянов cделал удобную pdf версию этого стандарта. Антон, большое спасибо!

Описал в статье, что я думаю по поводу этого стандарта: выделил основные идеи, которые мне запомнились, и привёл примеры его реализации в Tableau и Power BI. В целом, очень рекомендую читать этот стандарт, но некоторые вещи применять с осторожностью.

Я с Data Yoga, кстати, тоже делал темплейт в Табло для проекта ВизСтандарт. Узнал, что его даже применяют другие компании. Ещё вспомнился вот этот пост, про систему близкую по духу и стилю к IBCS.

#статья

3.0K viewsDmitry Anoshin, 06:27

Инжиниринг Данных

У нас есть страничка в Facebook. Там мы публикуем те же материалы, что и в телеграм канале или тут, но возможно вашими лайками и репостами мы сможем рассказать о #datalearn новой аудитории. Если не сложно подписывайтесь. https://www.facebook.com/groups/datalearn/?ref=share и можете отмечать страничку, когда будете шарить сертификат или свои успехи в обучении.

Facebook

See posts, photos and more on Facebook.

3.2K viewsDmitry Anoshin, 14:48

Инжиниринг Данных

Мы уже на 3 модуле нашего супер курса по ML и DS. Там настолько все подробно и понятно рассказано Анастасией Риццо, что если вы даже с этим никогда не работали и не планируете работать, стоит ознакомиться, не пожалеете!

Регистрация: https://datalearn.ru/kurs-po-ml-ds

Курс бесплатный, потому что он бесценный 🤫

YouTube

ML-101 | Module 03 | Lesson 01 | Classification: Algorithms | Anastasia Rizzo

Курс Getting Started with Machine Learning and Data Science (ML-101).

В этом уроке мы:

Пройдем немного теории Классификации и некоторые её алгоритмы:

📌 Logistic Regression
📌 KNN
📌 Naive Bayes
📌 Support Vector Machine
📌 Decision Tree Classifier…

3.6K viewsDmitry Anoshin, 17:00

Инжиниринг Данных

На подходе новый шедевр от Tableau Zen Master №1 - Steve Wexler. Я его кстати видел вживую на Бостон Табло Юзер Групп, жалко не было книги The Big Book of Dashboards для автографа. И он выступал на Amazon Tableau User Group вместе с Ромой Буниным😎 https://www.datarevelations.com/books/

3.4K viewsDmitry Anoshin, edited 03:27

Инжиниринг Данных

Не поспоришь, спасибо Безосу)) https://www.businessinsider.com/jeff-bezos-return-amazon-stock-investment-1997-house-sell-amzn-2021-4?amp

Business Insider

Jeff Bezos shared a note from a couple that bought 2 shares of Amazon in 1997 - and are now using the proceeds to buy a house after…

In 1997, a couple bought two shares of a new book-selling company for their 12-year-old son. For the years following the purchase, the son wanted to cash in the stock, but the parents insisted he hold.

3.3K viewsDmitry Anoshin, 04:43

Инжиниринг Данных

https://medium.com/bigdatarepublic/two-steps-towards-a-modern-data-platform-37c74e7c104b

Medium

Two steps towards a modern data platform

It’s easy to get lost with many options like Data Lakes, Lakehouses and Data Meshes. How do you go about developing such a data platform?

3.2K viewsDmitry Anoshin, 03:49

Инжиниринг Данных

Накопилось вкладок за неделю:
From Jupyter Notebooks to Production Data Pipelines: Our Framework for Delivering Data Projects
Root Cause Analysis for Data Engineers
Reliable tracking: Validating Snowplow events using Cypress & Snowplow Micro

The Design of Strongly Consistent Global Secondary Indexes in Apache Phoenix — Part 1
The Design of Strongly Consistent Global Secondary Indexes in Apache Phoenix — Part 2
Introduction to Upserts in Apache Pinot

Fine-Grained Time Series Forecasting at Scale With Facebook Prophet and Apache Spark: Updated for Spark 3
Apache Spark 3.1 Release: Spark on Kubernetes is now Generally Available

Real-time Data Infrastructure at Uber
Detecting Image Similarity in (Near) Real-time Using Apache Flink

Wikipedia data engineering practices with Nuria Ruiz
How to add custom KPIs to Airflow

How we built our Lakeless Data Warehouse
Predicting FT Trending Topics

Building the world's fastest website analytics
Time series forecasting (Part 1 of 3): Understanding the fundamentals

Building Smarter Search Products: 3 Steps for Evaluating Search Algorithms
Data Engineering’s Role Is Scaling Beyond Scope — And That Should Be Celebrated

What is a productive data engineering team?

3.2K viewsDmitry Anoshin, 16:57

Инжиниринг Данных

Вы прокачались, спору нет
И сыплете словами ловко,
Наверное, за много лет
Развили в терминах сноровку.

Вот так всегда: эйчар на встрече,
Явив павлинии хвосты,
Задавит мысли красноречием,
А как устроишься — в кусты.

Что программисту интересно?
Хороший офис, доля в деле?
А я сейчас отвечу честно:
Нам интересно много денег.

Садись сюда, меня послушай,
Я расскажу тебе без бэ:
Мы любим спать, гулять и кушать,
И радость приносить семье.

Нам наплевать на опенспейсы,
Аджайл, скрам и кипиай,
Нам важно быть всегда в процессе
И чтоб работы через край.

Наш ум — уже почти компьютер
И с IDE он заодно.
И если честно, нам до пупа,
Идёт ли босс на IPO.

Мы быстро merge your best solution
Deploy на сервер и commit.
Бывает, сон у нас нарушен
И голова с утра болит.

Я покажусь тебе токсичным,
Быть честным в наше время — токс.
Но набираете обычно
Вы не жемчужины — навоз.

Тех, кто пройдёт все сто этапов
И пишет на листочках код,
Кто смирно сложит обе лапы
И в офис посидеть придёт.

Он будет очень честно кодить,
И тихо ctrl-с github,
Потом всё крашится на проде,
Но это тестер виноват.

Хороший разработчик, зая,
Не будет мокрою рукой
Писать, что сортировку знает,
Он просто код покажет свой.

Не нужно пыли алгоритмов,
Они все гуглятся, ты знай.
А нужно множество коммитов
И чистый код, и codestyle.

Умелый нужен рефакторинг,
Возможность legacy убрать,
Хороший нужен мониторинг,
Чтоб ноды вечно не ронять.

И продакт адекватный нужен,
Который не проформы ради
ТЗ созданием загружен
И знает, что клиенты — б**ди.

Нам нужен диалог с начальством —
И адекватный диалог!
Чтоб без понтов и без бахвальства
Наш босс задачи ставить мог.

Нам нужен новый, ценный опыт,
Разнообразие задач,
Ты не услышишь грустный ропот
В момент айтишных неудач.

Нам всё равно на ваш agile,
Он нам давно не по душе.
Мы бажный код дебагом жарим,
И задолбались мы уже.

Гамак нам в офисе не нужен,
Митап засунь себе в mindcart.
Работа наша — hard и fusion,
Ну то есть синтез и прям hard.

Нам code review бы адекватный
И адекватный интерфейс,
И монитор чтоб был приятный —
Он светит сутками нам в face.

Нам наплевать на корпораты,
И на ассесмент наплевать.
Важны коллеги и зарплата,
И важно цену себе знать.

Ты хочешь слышать мой английский?
На нем читаю и молчу.
С провинциальной я пропиской
И удаленку я хочу.

А в целом нам немного нужно:
Бэклог продуманных задач,
Чтоб не тянуть из всех натужно,
Чего им надо — it’s too much.

Доверие и благодарность —
Ведь программист же человек.
А эту вашу элитарность
Оставьте тем, кто платит чек.

Мы жизнь переливаем в цифру
И правим алгоритмом мир.
Мы баги превращаем в фичи
Ты give me task and hold my beer.

Тебе же в поисках — удачи,
Айтишный мир is superior.
Ты смелая, а это значит,
Найдёт тебя твой best senior.
https://habr.com/ru/post/553022/

Хабр

Ответ HR-девицам

Re: IT-холостяк и три HR-девицы to HRMuse HR, позволь тебе ответить С высот айтишника седин: Ты знаешь, прогеры — не дети, Мы не последний хрен едим. Вы п...

3.0K viewsDmitry Anoshin, edited 16:58

About

Blog

Apps

Platform