Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Forwarded from Data Coffee
Мастера оформления профилей в LinkedIn

#datacoffee
😁151🔥23🤔1🤩1
Интересная конференция, как говорят, без BS:)

Ну или просто пример бюджетного маркетинга🙃
👍4
Конференция, про которую я скидывал выше организована на платформе Hopin, организатор девушка, или я бы даже сказал мать драконов данных Lauren Balik, которая не стесняется в выражениях и безконца мандражит Fivetran и другие бесполезные балайки😄

Как я понял, там что-то не работало, и она оставила отзыв. Правада через 20 минут удалила, шедевральный такой ответ, я могу такое же сказать своему менеджеру в Microsoft Gaming, нам с ним осталось 30 дней🤭 Только в моем случае я не платил premium, я почти 2 года работу работал, так-то😇
😁27👍5🤔2
Forwarded from Dmitry
This media is not supported in your browser
VIEW IN TELEGRAM
Интересный инструмент, рисовать диаграмки БД , вместо drag-drop, пишем код, и можно его хранить в repo. https://dbdiagram.io/
🔥41👍10🤔1
Это — самый короткий путь к работе в SberDevices!

4 сентября участвуй в One Day Offer: пройди fast-интервью за 1 день и получи оффер мечты!

Кто мы? Создаём умные устройства, виртуальных ассистентов и другие продукты в области Speech Recognition, NLP, PLP SmartSearch. У нас очень сильная, а главное, драйвовая команда, в которой ты точно найдёшь проекты по душе!

Кого мы ищем? Специалистов в сферах Data Science, Machine Learning, data-аналитиков, data-инженеров. Опыт работы в DS/ML от 2 лет.

Что такое One Day Offer? Это возможность за 1 день заявить о себе, пройти все этапы отбора и получить предложение присоединиться к команде.

Узнай больше и оставь заявку здесь: http://sber.me/?p=16SFb
🤬9👍3
Давайте я расскажу про setup на работе:
1 монитор - Dell 32 Monitor - P3222QE - 4K Resolution, IPS Technology USB-C Hub Monitor

Macbook pro 16” 10-Core CPU 32-Core GPU 32GB Unified Memory 1TB SSD Storage - Ноут очень приятный и даже без монитора, но M1 реально проблема для Python библиотек. Еще есть интересная функция, когда рядом есть Mac или Ipad я могу мышкой с одного перескакивать на другой и копировать с одного на другой.

Dock станция Targus USB-C Universal Dual Video 4K

Камера Logitech Miro 4K Pro Webcam

Touch Pad для apple

Клавиатура Magic Keyboard with Touch ID

Наушники Apple AirPods Pro - недавно попробовал, очень остался доволен, умный bluetooth, который сам перескакивает между устройствами, очень легкие и удобные.

Ipad Mini - использую для календаря, чтения O’Reilly, Spotify (первый раз оформил подписку недавно, остался доволен, пока любимый трек это Бесприданница😅), еще использую программу Atracker - для учета времени работы, где и сколько, сразу понятно сколько чистого времени было посвящено работе и учебе. (За трекер спасибо товарищу)

PS из всего этого я только купил Atracker и Spotify💵
🔥23👍15🎉1
Очень понравилась статья - Maker's Schedule, Manager's Schedule

Из названия понятно, что бывает 2 типа персонажа - manager и maker, и что для manager хорошо, то для maker смерть☠️

Для менеджера это ок иметь по 5-6 встреч в день, а вот для творца или как его модно сейчас называть Individual Contributor (IC) - встречи только мешают. Я сам по себе знаю почти все встречи, которые у меня есть и на которых больше 3х человек - это чистый waste времени.

Но статья про другое, что для того, чтобы сделать кусочек работы, IC должен как минимум использовать блоки времени по 4 часа (половина рабочего дня), и если дробить день, то не будет и результата.

Я по себе знаю, если у меня есть окно 2 часа между встречами, то я особо ничего не сделаю. Поэтому самое продуктивное время это после окончания работы.

Хорошая статья, и полезная для менеджеров, чтобы не тревожить разработчиков без надобности и давать им больше времени для фокуса.
👍75🔥61👏1
Datalearn немного встрял, потому что появилось много дополнительной работы и сейчас иногда приходиться работать с 6 утра до 10 вечера. Знания и опыт тоже растёт и будет чем поделиться.

Возникла идея упростить процесс. Например, раньше я делал презентацию и потом по ней рассказывал и показывал демо, это занимает 6-8 часов. Если сократить процесс, например открыть кучу вкладок или главу в книге o’reilly и по ней пройтись, то процесс ускориться в разы, может стоит так доделать всё? Ну или ещё варианты?

Другой concern что западные облака и compute resellers (snowflake, databricks и тп) - недавно услышал такой термин, не очень востребованы в РФ, и может быть ценности в datalearn меньше из-за этого.
👍58🤔31🥰1😁1🤬1
snowflake-the-definitive-guide.pdf
26.1 MB
Snowflake: The Definitive Guide

You’ll learn how Snowflake users can build modern integrated data applications and develop new revenue streams based on data. Using hands-on SQL examples, you’ll also discover how the Snowflake Data Cloud helps you accelerate data science by avoiding replatforming or migrating data unnecessarily.

-Efficiently capture, store, and process large amounts of data at an amazing speed
-Ingest and transform real-time data feeds in both structured and semistructured formats and deliver meaningful data insights within minutes
-Use Snowflake Time Travel and zero-copy cloning to produce a sensible data recovery strategy that balances system resilience with ongoing storage costs
-Securely share data and reduce or eliminate data integration costs by accessing ready-to-query datasets available in the Snowflake Marketplace
👍34🔥1
Сейчас многие организации говорят, что они не только data-driven (с этим более менее понятно) но и product-driven. Недавно познакомился с термином DACI. Вам знаком такой? Вот хорошее описание этого framework https://www.atlassian.com/team-playbook/plays/daci
👍14
Интересно, много людей еще пользуются SAP BusinessObjects? Попалась статья про их Roadmap.

Сообщили про несколько вещей:
- Self Service Analytics - еще с 2013 года развивают SAP Lumira
- Интеграция с облачным DWH SAP HANA, тоже не ново.
- Операционная отчетность (что-то из экосистемы SAP)

В целом совсем грустно, наверно у кого SAP BO сидят еще на версии 3, а если повезло то и на 4, других релизов-то и не было.

Кстати SAP BO оказался самым крутым инструментом для того, чтобы учить BI. Там есть все, но он не перегружен как Microstrategy. Для меня лушчая школа BI - SAP Business Objects, с Universes, вычисляемыми мерами, с локальным и веб клиентом.
Там есть все, что необходимо.
👍11
Forwarded from Nikolay Golov
Привет :) ... Вышла моя следующая статья, про cost-efficient Snowflake по итогам 3 лет использования.
И про то, как стартовать развитие дата платформы в новой компании.
https://medium.com/manychat-team/data-modeling-today-launching-cost-effective-analytics-for-manychat-764d305f287b
👍33
Товарищ расписал каким образом в организациях получаются не масштабируемые "SQL spaghetti":

1. Business users need simple financial and growth metrics
2. Engineers set up basic pipelines from S3 (Often Fivetran)
3. Data Producers see the data platform as a black box
3. A lone data engineer creates early versions of the core data infra
4. The DE rarely has time to document/plan the architecture properly
6. Product teams hire analysts to answer more complex questions
7. Early DE is barely kept 'in the loop' for product and data needs
8. Pipeline development begins becoming harder to manage
9. Data infrastructure tooling is taken more seriously
10. Teams consider the shift to Snowflake, Databricks, dbt, etc
11. Data consumers use tools to materialize datasets on their own
12. The list of data dependencies grows longer and wider
13. Early maintainers start to leave the company
14. Years of institutional knowledge is lost
15. Even more analysts hired to deal with the complexity
16. Data engineers no longer kept in the product/data feedback loop
17. Producers make upstream changes breaking the downstream
18, Extensive processes are put in place to prevent breakage
19. Producers become hesitant to generate the data consumers need
20. Unintended regressions continue to cause chaos
21. Consumers layer on SQL to account for errors and tech debt
22. Business logic becomes impossible to decipher
23. Teams tack on columns to pre-built tables for their use case
24. Ownership becomes very unclear
25. Data Quality issues wreak havoc on trustworthiness
26. Data engineering team is blamed for the mess
27. Data teams suggest a refactor, but the business is resistant
28. Service tickets for data engineering pile up and overflow
29. Product spends more time data wrangling than analysis
30. Everyone complains how 'no one cares about data'

В этом процессе большую роль играет technical debt, не желание бизнеса разбираться в данных, отсутствие понимания между data producers/data consumers, использование не правильных инструментов, снижение качества работы из-за бизнес приоритетов... Проблемы легко описать и назвать, а решить их уже дорогое и времязатратное занятие, которое не всем организациям по силам. Ведь всегда во всех не удачах можно обновить кого-нибудь, но не признать вину самому.

У меня даже есть пример. Организация, которая продает облачный продукт для пользователей за короткое время выросла с 200 до 900 сотрудников. Дата команда выросла с 3 до 12 человек, включая VP, Director, Sr Manager. Стало ли лучше? Нет.
- Решение до сих пор базируется на не технологиях не предназначенных для своей задач
- Каждый день 80 процентов озера данных перезаписывается (история меняется)
- dbt модели строятся поверх старых с минимальными изменениями без рефакторинга существующих
- пользователи не могу найти нужные данные или вообще не имееют доступа к данных
- документации как не было так и нет
- у дата инженеров нет доступа к системам источников
- у аналитиков внутри департаментов вообще нет никакого доступа к данным кроме BI

Список можно продолжать, но идея в том, что даже при увеличении аналитической команды без изменений и модернизации существующего решения будет очень низкий КПД.

Недавно, организация уволила всех топов в маркетинге и продуктах и заменила их новыми. Посмотрим, что будет дальше🍿

Со своей стороны я уже смог решить 2 большие проблемы, отказавшись от старых решений по выгрузке данных (это был микс pandas, luigi, python на EC2) и заменив их AWS Glue Spark.
👍323😢2🤔1
DE skill matrix
👍44😢12😁3
Существует несколько терминов, которые, как говорят коллеги - confused.

Итак, есть база данных, и базы данных бывают SQL и NoSQL.

Мы обычно работаем с SQL. Пример, это Postgres, MySQL, sql server.

Такую базу данных можно использовать как хранилище данных или как источник данных для хранилища данных. Если это заточник, 99% это OLTP, а мы с помощью ETL/ELT или даже CDC, забираем данные в хранилище.

NoSQL, например MongoDb, это уже источник, обычно нам надо знать как мы можем забрать данные из неё.

Дальше непосредственно хранилище данных, что прежде всего означает SQL интерфейс, это либо тот же Postgres/sql server или кластер (аналитическая БД) как greenplum, redshift и тп.

Дальше - озеро данных. Это из мира big data, когда у нас есть файловое хранилище и отдельно compute, чтобы обрабатывать это данные. Интерфейс может быть любой. - SQL, Java, python и тп, зависит от абстракции.

Дальше у нас lake house, как понятно из названия это гибрид озёра и хранилища. Само по себе озеро обычно не обладает возможность UPDATE, DELETE и других операций, к которым мы привыкли, а вот lake house может! Примеры это delta lake, iceberg, hudi. Все работают со Spark. Самый популярный вендор это databricks.

Вот snowflake, по факту схож с понятием lake house, но для простоты он считается хранилищем данных (базой), хотя там базы то и нет.

Теперь хочу посмотреть на другую терминологию.

Сейчас часто можно видеть data platform. Это слово универсальное, ей можно обозвать любое решение для хранения и обработки данных.

Но в индустрии его трактуют по другому.

Вот пример, с которым я работаю. Есть 2 команды - традиционная DE и data platform команда.

Инженеры платформы собирают данные из систем источников с помощью Kafka cdc, складывают их в файловое хранилище (aws s3). Он отвечают за входящие данные, не используют SQL, по факту это software engineers.

Downstream команда, уже создаёт хранилище данных на Snowflake, забирая данные из S3, строя модели данных в snowflake, добавляют данные из sales force и других api через fivertran и готовят данные для tableau/looker, используя montecarlo, airflow, dbt, alation.

Раньше я думал, что de = data platform engineer. Это не так, я в этом убедился когда провалил собес в Epic на такую позицию, требования там другие.

Можете в комменты чего-нибудь интересное скинуть по теме.
👍645
Если вы соскучились по западнным конференциям и спикерам, где известные личности будут рассказывать о важности аналитики и данных, то вот вам замечательный event - https://www.matillion.com/data-unlocked/

Спикеры интересные, презентации думаю тоже будут красивые, раньше я с таких идеи воровал для своих:)
👍16
Сколько времени нужно посвящать учёбе и профессиональному развитию?

Ясень пень, это все относительно. Новичкам, нужно посвящать время больше, старичкам меньше😎

Если ваша задача получить первую работу в новой области (возможно это что-то связанное с данными и аналитикой), то учиться надо все свободное время.

А если у вас уже есть работа в этой области, то самый хороший вариант это использовать подход Амазон - 70/20/10.

70% - вы тратите на работу и учитесь по ходу.
20% - вы тратите на дополнительные материалы, курсы и книги.
10% - конференция, митапы, онлайн трансляции и тп.

Как делаю я? Так как у меня есть понимание в общем и мне понятна картина мира аналитических решений, то у меня обычно возникает 2 проблемы:
1) я не знаю специфику бизнеса, и тут быстрых вариантов нет, только опыт. Например в Xbox gaming я вкатывался почти год, чтобы комфортно понимать о чем речь.

2) Тулы (технологии) - тулов как грязи, чего там только нет, часто уже что-то используется в компании. По опыту скажу, лучше не тратить время на МНТ (метод научного тыка), а взять сразу книгу или курс по конкретной технологии и сделать его от корки до корки, так подвид быть по snowflake, airflow, dbt, databricks, terraform, Tableau, power bi, и много чего другого. Так вы сэкономите много времени себе и сделаете меньше ошибок.

А как вы учитесь? Какие советы дадите начинающим?
👍70