Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Lakehouse: A New Generation of Open Platforms that UnifyData Warehousing and Advanced Analytics - paper 2021 года про архитектуру Lakehouse

Пост про обзор Lakehouse paper.

The paper tries to motivate introduction of Lakehouse by high engineering efforts required to maintain “Data Lake” + EDW tandem (that is caused by data lake misuse for cost cutting EDW license), EDW data staleness (which was solved by CDC long ago), EDW lack of advanced analytics support (every EDW vendor provides them), unstructured data processing needs (you don’t want unstructured data inside your EDW). But the actual motivation is the willingness of Databricks to position their solution as a competitor in the cloud EDW market and describe its key features, further generalising their approach to look more comprehensive than their competitors. Unfortunately, I don’t see unique challenges it solves, so for now I will treat Lakehouse as another marketing buzzword.
👍9
Media is too big
VIEW IN TELEGRAM
Приглашаем на вебинар «Отток клиентов. Тихая смерть омниканальной стратегии. Обратная сторона LTV».

📆 25 августа (четверг) в 17:00 МСК.

На вебинаре узнаете, как снизить отток и вообще работать с базой, сокращая затраты и увеличивая прибыль, а также соберёте инсайты из разных сфер.

У микрофонов:
⚡️ Максим Мозговой, директор и управляющий партнер компании SegmentValue.
Ex-директор по CRM и аналитике Wargaming, GameHouse, Сбербанк, МТС, Промсвязьбанк, Wildberries, Lamoda, IVI.
⚡️ Стас Розен, основатель агентства Dau Relationship Marketing
Ex-Head of Digital&CRM в Pernod Ricard Rouss. Развивал программы лояльности в Philips, работал с ключевыми клиентами в агентствах Actis Wunderman и Progression (GE Money Bank, Microsoft, PepsiCo).
⚡️ Давид Вачадзе, директор агентства интерактивного маркетинга BrandMobile.
Ex-руководитель компаний ThinkWave, BIX (e-business интегратор, CRM решения), более 20 лет опыта создания и развития высокотехнологичных бизнесов.

📌Участие бесплатное, регистрация уже идет в чат-боте.
👍6🤬2🔥1
7 причин не становиться тимлидом

Мне понравился комментарий - "Плюньте в тех, кто проповедует идею, что тимлид — это следующая ступень для роста разработчика, это не так. Это совершенно другая роль, она не лучше и не хуже — просто она другая." - два чая этому господину.
👍47😁3🤔21🔥1👏1
Все хотят делать простые и понятные решения, в нашем случае аналитические, но почему-то всегда получается наоборот. Мы строим монстров, которых сложно поддерживать и оптимизировать, которые стоят много денег и как маленькие дети всегда нуждаются в нашем внимание. Как же так?
👍28😢6
Подкаст про данные - Data Radicals. У них был интересный спикер - founder of BusinessObjects, еще до SAP:)

Подкаст называется The Beginning of Business Intelligence, где Bernard Liautaud по-простому нам расскажет, что же такое BI.
👍9
Валидация данных (data validation) - очень важная штука. DV это относиться к data quality. Вообще это частый вопрос на собеседованиях про вакансии с данными.

Как правило - это набор тестов, правил, проверок, которые позволяют нам убедиться, что данные, которые мы используем для принятия решений верны и аккуратны.

В реальном мире все данные можно назвать грязными и у вас обязательно будут проблемы из-за их качества. А если, ошибочка попала на стол к руководителю, то можно и по шапке получить. Хотя в мире данных, всегда можно свалить на плохой процесс/софт/кривые руки пользователя и слабый сигнал Wifi.

К сожалению, мы сначала делаем решения, а уже потом, может быть, задумываемся про проверки качества данных. А должно быть наоборот.

Как правило можно начать с простых проверок:
- значение не равно NULL
- значение одно из заданного списка
- ID уникальный в таблице
- сумма больше 0
- цифра в заданном диапазоне

Сейчас популярно несколько инструментов:
- dbt (для трансформации данных) - там есть строенная функциональность тестирования данных, удобная и простая
- great expectation - самый популярный framework. Работает с Pandas, Spark, и SQL через SQLAlchemy. Утилита еще создает отчеты по валидации данных, которые могут быть расшарены с командой.
- Pandera - простой framework для работы с Pandas.
- SodaSQL - простой framework для работы с SQL.

На самом деле я хотел поделиться материалами и примерами в python с использованием GE и Pandera. Недавно посмотрел тренинг Testing Data Pipelines with Data Validation. Ссылка на репозиторий, там код и теория. Можете потренироваться.
👍62🔥13
В Индии очень похожая проблема (как в РФ) - взрослых специалистов никто не любит и не хочет брать на работу, несмотря на опыт. Знаете таких коллег, кому сложно найти работу из за возраста?

Хотя по факту молодые не заинтересованы работать долго на одном месте, а наоборот готовы прыгать с места на места ради опыта и повышения дохода.
🔥36👍14
Я уверен, что многие из вас пользуются командной строкой. Я уже писал про zsh и oh my zsh. Напишу еще раз, так как сегодня установил на Windows, все так же работает как и на Mac.

Вообще, если у вас есть слабенький ноутбук, лучше сразу поставьте Linux и учите data на linux. Он ест меньше ресурсов и все необходимое уже есть.

На Windows по умолчанию есть CMD и PowerShell. Для Microsoft это нормально, а вот за его пределами, ХЗ))

На Windows нужно поставить Ubuntu WSL. А затем вы можете поставить zsh и oh my zsh.

Было бы классно сделать вебинар по настройке и использованию командной строки. А вдруг есть желающие?
👍92🔥131
Пример аналитического open source решения на GCP. На месте GCP и Big Query может быть любое хранилище и любое облако. dbt, airflow, meltano, open metadata не требуют много мощностей и легко запускаются в Docker. В качестве языка используется Python и SQL.

PS Meltano вообще интересный, они дают сразу целую платформу где уже из коробки у вас есть ETL (connectors для ingest, и dbt для трансформации), Aiflow для оркестрации и Preset для BI. Кто-нибудь использовал?
👍19🔥3🤔3
Data Quality - старо как мир, а вот термин Data Observability достаточно свежее, хотят обозначает monitoring/alerting на основе data validations правил (недавно шарил python код). Есть и популярные решения как monte carlo b data fold. Я как раз использую monte carlo для Snowflake.
👍25
Последние 2 года я работаю с git системами Azure DevOps, GitLab, GitHub. Делая commits каждый день не задумываясь, что происходит и как это работает. МНТ (метод научного тыка) обычно работает. Читать документацию я тоже не люблю. Но работая все больше и больше с Software Engineers на data projects я и общаясь с талантливыми программистами за бутылочкой сидра🙃 я решил все-таки начать пользоваться документацией. Спустя 12 лет, у дорос до документации😝

Сегодня вот узнал, что git это база данных, и что все хранится у вас локально в папке .git, еще научился использовать git tag для release кода, в моем случае AWS Glue pyspark.

Полезные материалы:
- Introduction to Git with Scott Chacon of GitHub
- Книга этого же автора

Не ленитесь, почитайте первые 3 главы. Есть даже на русском копия, только смысла нет читать на русском.
👍27😁54
Law of triviality (Закон тривиальности Паркинсона) - «Время, потраченное на обсуждение пункта, обратно пропорционально рассматриваемой сумме»

То есть, люди по своей природе будут сначала обсуждать простые и понятные вещи и всегда будут откладывать на потом действительно важные вещи.

В ИТ используется bike-shed effect ( «эффект велосипедного сарая»).

Почему велосипедный сарай? Потому что, в 1958 году был пример вымышленного комитета, работа которого заключалась в согласовании проекта атомной электростанции. Большую часть времени участники комитета тратили на обсуждение мелких и простых для понимания вопросов, вроде материалов для строительства сарая для велосипедов работников, оставляя без внимания конструкцию самой электростанции, — что является гораздо более важным, но одновременно и гораздо более сложным вопросом.
👍44🔥10
Forwarded from Data Coffee
Мастера оформления профилей в LinkedIn

#datacoffee
😁151🔥23🤔1🤩1
Интересная конференция, как говорят, без BS:)

Ну или просто пример бюджетного маркетинга🙃
👍4
Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать драконов данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄

Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
😁27👍5🤔2
Forwarded from Dmitry
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инструмент, рисовать диаграмки БД , вместо drag-drop, пишем код, и можно его хранить в repo. https://dbdiagram.io/
🔥41👍10🤔1
Это — самый короткий путь к работе в SberDevices!

4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!

Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!

Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.

Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.

Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb
🤬9👍3
Давайте я расскажу про setup на работе:
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor

Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.

Dock станция Targus USB-C Universal Dual Video 4K

Камера Logitech Miro 4K Pro Webcam

Touch Pad для apple

Клавиатура Magic Keyboard with Touch ID

Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.

Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)

PS из всего этого я только купил Atracker и Spotify💵
🔥23👍15🎉1
Очень понравилась статья - Maker's Schedule, Manager's Schedule

Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️

Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.

Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.

Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.

Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.
👍75🔥61👏1