Инжиниринг Данных

Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)

Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.

👍9

7.26K viewsDmitry, edited 02:23

Инжиниринг Данных

Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.

GitLab

Files · master · binderhub / testing-data-pipelines-with-data-validation · GitLab

Instructors: Han Wang and Kevin Kho

👍62🔥13

12.6K viewsDmitry, edited 06:00

Инжиниринг Данных

В Индии очень похожая проблема (как в РФ) - взрослых специалистов никто не любит и не хочет брать на работу, несмотря на опыт. Знаете таких коллег, кому сложно найти работу из за возраста?

Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.

🔥36👍14

9.74K viewsDmitry, edited 15:53

Инжиниринг Данных

Я уверен, что многие из вас пользуются командной строкой. Я уже писал про zsh и oh my zsh. Напишу еще раз, так как сегодня установил на Windows, все так же работает как и на Mac.

Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.

На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))

На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.

Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?

👍92🔥13❤1

7.33K viewsDmitry, 01:48

Инжиниринг Данных

Пример аналитического open source решения на GCP. На месте GCP и Big Query может быть любое хранилище и любое облако. dbt, airflow, meltano, open metadata не требуют много мощностей и легко запускаются в Docker. В качестве языка используется Python и SQL.

PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?

👍19🔥3🤔3

7.49K viewsDmitry, 00:05

Инжиниринг Данных

Data Quality - старо как мир, а вот термин Data Observability достаточно свежее, хотят обозначает monitoring/alerting на основе data validations правил (недавно шарил python код). Есть и популярные решения как monte carlo b data fold. Я как раз использую monte carlo для Snowflake.

👍25

9.86K viewsDmitry, 17:31

Инжиниринг Данных

Последние 2 года я работаю с git системами Azure DevOps, GitLab, GitHub. Делая commits каждый день не задумываясь, что происходит и как это работает. МНТ (метод научного тыка) обычно работает. Читать документацию я тоже не люблю. Но работая все больше и больше с Software Engineers на data projects я и общаясь с талантливыми программистами за бутылочкой сидра🙃 я решил все-таки начать пользоваться документацией. Спустя 12 лет, у дорос до документации😝

Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.

Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора

Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.

YouTube

Introduction to Git with Scott Chacon of GitHub

This talk introduces the Git Version Control System by looking at what Git is doing when you run the commands you need to do basic version control with it. We'll look at how to use Git to do the basics, while seeing how it differs from Subversion, what staging…

👍27😁5❤4

7.72K viewsDmitry, edited 04:13

Инжиниринг Данных

Law of triviality (Закон тривиальности Паркинсона) - «Время, потраченное на обсуждение пункта, обратно пропорционально рассматриваемой сумме»

То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.

В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).

Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.

👍44🔥10

7.26K viewsDmitry, 09:00

Инжиниринг Данных

Forwarded from Data Coffee

Мастера оформления профилей в LinkedIn

#datacoffee

😁151🔥23🤔1🤩1

6.65K viewsDmitry, 05:16

Инжиниринг Данных

Интересная конференция, как говорят, без BS:)

Ну или просто пример бюджетного маркетинга🙃

👍4

6.88K viewsDmitry, 20:51

Инжиниринг Данных

Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать ~~драконов~~ данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄

Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇

😁27👍5🤔2

6.8K viewsDmitry, 00:06

Инжиниринг Данных

Forwarded from Dmitry

This media is not supported in your browser

VIEW IN TELEGRAM

Интересный инструмент, рисовать диаграмки БД , вместо drag-drop, пишем код, и можно его хранить в repo. https://dbdiagram.io/

🔥41👍10🤔1

7.29K viewsDmitry, 13:57

Инжиниринг Данных

Это — самый короткий путь к работе в SberDevices!

4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!

Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!

Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.

Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.

Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb

🤬9👍3

7.52K viewsDmitry, 15:02

Инжиниринг Данных

Давайте я расскажу про setup на работе:
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor

Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.

Dock станция Targus USB-C Universal Dual Video 4K

Камера Logitech Miro 4K Pro Webcam

Touch Pad для apple

Клавиатура Magic Keyboard with Touch ID

Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.

Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)

PS из всего этого я только купил Atracker и Spotify💵

🔥23👍15🎉1

7.42K viewsDmitry, edited 23:27

Инжиниринг Данных

Что-то в Германии совсем печаль https://habr.com/ru/post/685974/ как вообще в Европе с зарплатами? Кто работает там поделитесь в комментах

Хабр

Блеск и нищета IT в Германии

Уже четыре года я работаю Java разработчиком в небольшой немецкой компании. В начале прошлого года я увидел на столе одного из моих «кураторов» забытый листок с расчётом заработной платы за месяц....

😁12😢4🤔3🔥2👍1🎉1

8.21K viewsDmitry, 14:25

Инжиниринг Данных

Очень понравилась статья - Maker's Schedule, Manager's Schedule

Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️

Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.

Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.

Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.

Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.

👍75🔥6❤1👏1

7.99K viewsDmitry, 20:12

Инжиниринг Данных

Datalearn немного встрял, потому что появилось много дополнительной работы и сейчас иногда приходиться работать с 6 утра до 10 вечера. Знания и опыт тоже растёт и будет чем поделиться.

Возникла идея упростить процесс. Например, раньше я делал презентацию и потом по ней рассказывал и показывал демо, это занимает 6-8 часов. Если сократить процесс, например открыть кучу вкладок или главу в книге o’reilly и по ней пройтись, то процесс ускориться в разы, может стоит так доделать всё? Ну или ещё варианты?

Другой concern что западные облака и compute resellers (snowflake, databricks и тп) - недавно услышал такой термин, не очень востребованы в РФ, и может быть ценности в datalearn меньше из-за этого.

👍58🤔3❤1🥰1😁1🤬1

8.83K viewsDmitry, 17:32

Инжиниринг Данных

snowflake-the-definitive-guide.pdf

26.1 MB

Snowflake: The Definitive Guide

You’ll learn how Snowflake users can build modern integrated data applications and develop new revenue streams based on data. Using hands-on SQL examples, you’ll also discover how the Snowflake Data Cloud helps you accelerate data science by avoiding replatforming or migrating data unnecessarily.

-Efficiently capture, store, and process large amounts of data at an amazing speed
-Ingest and transform real-time data feeds in both structured and semistructured formats and deliver meaningful data insights within minutes
-Use Snowflake Time Travel and zero-copy cloning to produce a sensible data recovery strategy that balances system resilience with ongoing storage costs
-Securely share data and reduce or eliminate data integration costs by accessing ready-to-query datasets available in the Snowflake Marketplace

👍34🔥1

10.3K viewsDmitry, 04:26

Инжиниринг Данных

Сейчас многие организации говорят, что они не только data-driven (с этим более менее понятно) но и product-driven. Недавно познакомился с термином DACI. Вам знаком такой? Вот хорошее описание этого framework https://www.atlassian.com/team-playbook/plays/daci

Atlassian

DACI: A Decision-Making Framework | Atlassian Team Playbook

Use this DACI template to assign roles and responsibilities to each member of the team, making decision-making more efficient and effective.

👍14

9.98K viewsDmitry, 20:04

Инжиниринг Данных

Интересно, много людей еще пользуются SAP BusinessObjects? Попалась статья про их Roadmap.

Сообщили про несколько вещей:
- Self Service Analytics - еще с 2013 года развивают SAP Lumira
- Интеграция с облачным DWH SAP HANA, тоже не ново.
- Операционная отчетность (что-то из экосистемы SAP)

В целом совсем грустно, наверно у кого SAP BO сидят еще на версии 3, а если повезло то и на 4, других релизов-то и не было.

Кстати SAP BO оказался самым крутым инструментом для того, чтобы учить BI. Там есть все, но он не перегружен как Microstrategy. Для меня лушчая школа BI - SAP Business Objects, с Universes, вычисляемыми мерами, с локальным и веб клиентом.
Там есть все, что необходимо.

SAP BI Blog

The SAP Business Intelligence Roadmap

The SAP Business Intelligence Roadmap: Evolution and Convergence By Jonathan Haun, Senior Director, BI and Technology Many of our clients want to know how best to navigate SAP’s business intelligen…

👍11

12K viewsDmitry, 21:16

About

Blog

Apps

Platform