Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)

Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
👍9
Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
👍62🔥13
В Индии очень похожая проблема (как в РФ) - взрослых специалистов никто не любит и не хочет брать на работу, несмотря на опыт. Знаете таких коллег, кому сложно найти работу из за возраста?

Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.
🔥36👍14
Я уверен, что многие из вас пользуются командной строкой. Я уже писал про zsh и oh my zsh. Напишу еще раз, так как сегодня установил на Windows, все так же работает как и на Mac.

Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.

На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))

На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.

Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?
👍92🔥131
Пример аналитического open source решения на GCP. На месте GCP и Big Query может быть любое хранилище и любое облако. dbt, airflow, meltano, open metadata не требуют много мощностей и легко запускаются в Docker. В качестве языка используется Python и SQL.

PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?
👍19🔥3🤔3
Data Quality - старо как мир, а вот термин Data Observability достаточно свежее, хотят обозначает monitoring/alerting на основе data validations правил (недавно шарил python код). Есть и популярные решения как monte carlo b data fold. Я как раз использую monte carlo для Snowflake.
👍25
Последние 2 года я работаю с git системами Azure DevOps, GitLab, GitHub. Делая commits каждый день не задумываясь, что происходит и как это работает. МНТ (метод научного тыка) обычно работает. Читать документацию я тоже не люблю. Но работая все больше и больше с Software Engineers на data projects я и общаясь с талантливыми программистами за бутылочкой сидра🙃 я решил все-таки начать пользоваться документацией. Спустя 12 лет, у дорос до документации😝

Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.

Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора

Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.
👍27😁54
Law of triviality (Закон тривиальности Паркинсона) - «Время, потраченное на обсуждение пункта, обратно пропорционально рассматриваемой сумме»

То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.

В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).

Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.
👍44🔥10
Forwarded from Data Coffee
Мастера оформления профилей в LinkedIn

#datacoffee
😁151🔥23🤔1🤩1
Интересная конференция, как говорят, без BS:)

Ну или просто пример бюджетного маркетинга🙃
👍4
Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать драконов данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄

Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
😁27👍5🤔2
Forwarded from Dmitry
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инструмент, рисовать диаграмки БД , вместо drag-drop, пишем код, и можно его хранить в repo. https://dbdiagram.io/
🔥41👍10🤔1
Это — самый короткий путь к работе в SberDevices!

4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!

Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!

Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.

Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.

Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb
🤬9👍3
Давайте я расскажу про setup на работе:
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor

Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.

Dock станция Targus USB-C Universal Dual Video 4K

Камера Logitech Miro 4K Pro Webcam

Touch Pad для apple

Клавиатура Magic Keyboard with Touch ID

Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.

Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)

PS из всего этого я только купил Atracker и Spotify💵
🔥23👍15🎉1
Очень понравилась статья - Maker's Schedule, Manager's Schedule

Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️

Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.

Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.

Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.

Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.
👍75🔥61👏1
Datalearn немного встрял, потому что появилось много дополнительной работы и сейчас иногда приходиться работать с 6 утра до 10 вечера. Знания и опыт тоже растёт и будет чем поделиться.

Возникла идея упростить процесс. Например, раньше я делал презентацию и потом по ней рассказывал и показывал демо, это занимает 6-8 часов. Если сократить процесс, например открыть кучу вкладок или главу в книге o’reilly и по ней пройтись, то процесс ускориться в разы, может стоит так доделать всё? Ну или ещё варианты?

Другой concern что западные облака и compute resellers (snowflake, databricks и тп) - недавно услышал такой термин, не очень востребованы в РФ, и может быть ценности в datalearn меньше из-за этого.
👍58🤔31🥰1😁1🤬1
snowflake-the-definitive-guide.pdf
26.1 MB
Snowflake: The Definitive Guide

You’ll learn how Snowflake users can build modern integrated data applications and develop new revenue streams based on data. Using hands-on SQL examples, you’ll also discover how the Snowflake Data Cloud helps you accelerate data science by avoiding replatforming or migrating data unnecessarily.

-Efficiently capture, store, and process large amounts of data at an amazing speed
-Ingest and transform real-time data feeds in both structured and semistructured formats and deliver meaningful data insights within minutes
-Use Snowflake Time Travel and zero-copy cloning to produce a sensible data recovery strategy that balances system resilience with ongoing storage costs
-Securely share data and reduce or eliminate data integration costs by accessing ready-to-query datasets available in the Snowflake Marketplace
👍34🔥1
Сейчас многие организации говорят, что они не только data-driven (с этим более менее понятно) но и product-driven. Недавно познакомился с термином DACI. Вам знаком такой? Вот хорошее описание этого framework https://www.atlassian.com/team-playbook/plays/daci
👍14
Интересно, много людей еще пользуются SAP BusinessObjects? Попалась статья про их Roadmap.

Сообщили про несколько вещей:
- Self Service Analytics - еще с 2013 года развивают SAP Lumira
- Интеграция с облачным DWH SAP HANA, тоже не ново.
- Операционная отчетность (что-то из экосистемы SAP)

В целом совсем грустно, наверно у кого SAP BO сидят еще на версии 3, а если повезло то и на 4, других релизов-то и не было.

Кстати SAP BO оказался самым крутым инструментом для того, чтобы учить BI. Там есть все, но он не перегружен как Microstrategy. Для меня лушчая школа BI - SAP Business Objects, с Universes, вычисляемыми мерами, с локальным и веб клиентом.
Там есть все, что необходимо.
👍11