Инжиниринг Данных – Telegram

Инжиниринг Данных

23.5K subscribers

1.98K photos

56 videos

192 files

3.2K links

Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce

Download Telegram

About

Blog

Apps

Platform

Инжиниринг Данных

23.5K subscribers

Инжиниринг Данных

Рома Бунин опубликовал результаты анализа рынка вакансий в сравнении 2022/2021 на HH. Получается, что дата инженер все еще востребован, а вот data science и аналитики просели. Когда то так же было с data science, а потом каждый 2ой изучал этот предмет и хотел быть data scientist. Посмотрим как долго продержится инженер данных.

Для меня аналогия хорошей профессии - это электрик и сантехник. Так как понятно, чем занимаются люди и за что им платят, какую пользу приносят с первого дня работы. Есть набор инструментов и методик, всем они нужны. Так же и инженер данных, все понятно и прозрачно.

А вот чем занимается аналитик и data scientist, тут как повезет, от Excel до ML и MLOps.

Reveal the Data

Если говорить в разрезе профессий, то больше всего по количеству вакансий упали BI-аналитики и Data Science позиции. При этом у BI-аналитиков ещё и совсем не выросла зарплата, что возможно связано с уходом вендоров.

Кажется, что лучше всего себя чувствуют…

🫡22🍓6🤷6🗿5🐳3🌚3🍾2👨‍💻2

8.46K viewsDmitry, 15:19

Инжиниринг Данных

Оперативненько! уже есть курсы по ChatGPT, бросайте ваши питоны и скули, и учите жпт!

🗿44🌚9🙈7🍓3

8.39K viewsDmitry, 22:39

Инжиниринг Данных

HR юмор всегда самый смешной🍩 и правдивый...

❤‍🔥170👻7🌚6

8.5K viewsDmitry, edited 18:18

Инжиниринг Данных

Tableau Keynote 2023 key points.pdf

В приложение небольшая презентация, которая суммирует Tableau Conference Keynote. А вот ссылку на полное видео в Linkedin.

❤‍🔥5

9.23K viewsDmitry, 23:17

Инжиниринг Данных

😫before chatGPT & Co
6 hours of debugging
can save you 5 min

🤩with chatGPT & Co
chatGPT account can
save 6 hours of debugging
5 min of reading documentation
4 hours of writing code
2 hours of searching for right command or code snippet

👾32❤‍🔥8🫡5🐳2🦄2🤷2

8.25K viewsDmitry, 06:35

Инжиниринг Данных

Список дел в ChatGpt за неделю:

1. Написал кучу Terraform скриптов для AWS Batch, AWS ECS, ECR, IAM - задача запускать dbt в контейренере в ECS, чтобы он мог ворочить данные в Redshift.

2. PoC Glue Spark - именно сам PySpark, который сэкономил очень много времени для описании огромного JSON.

3. AWS CLI команды в bash для запуска glue jobs из CLI и мониторинга

4. Кучу команд для AWS EMR утилитки s3-dict-cp и bash для автоматизации (включая функции), команды для hadoop hdfs

5. Glue pyspark для проекта по компресии данных, что-то s3-dict-cp не перформит для моих задач.

Эти примеры сэкономили мне ОЧЕНЬ много времени. Самое главное, что у меня есть понимание, что нужно делать, а chatGPT лишь автоматизирует набор кода, который я бы и сам написал, но потратил кучу времени на поиск решений. А так вот все успел.

Так что мои топ 3 use cases:
- Terraform (или любой другой инфраструктурный код)
- bash
- PySpark

SQL пока сам пишу☺️

🫡54❤‍🔥12👾4🌭1

8.27K viewsDmitry, edited 23:09

Инжиниринг Данных

Сегодня познакомился с новым термином - “early optimizer” в статье Datadog’s $65M/year customer mystery solved, где рассказывают про Coinbase, который потратил в год 65М баксов на observability инструмент. Вот вам SaaS cloud computing во всей красе, может кушать деньги очень хорошо. Coinbase как и другие крипто компании росли как на дрожжах, потому что крипта тоже росла (хотя чего лукавить, чего только не росло). Я сам был "экспертом" по инвестициям в tech маркет и недвижимость.

В общем, coinabase слез с datadog и ушел в Open Source - Clickhouse, Grafana и тд. Таким образом, optimize их инфраструктуру, чтобы порезать косты.

Чтобы понять, что лучше - строить свое или купить готовое - автор использует формулу:

$infra_cost + $platform_team_cost < $current_vendor_costs

Можно прикинуть, что вам понадобится 1м на платформу + 2-3м на команду 4-5 человек (за год) и того, получается 4-5м в го. Соответственно цена в 65м выглядит космической. Да и деньги больше так никому не дают.

Даже Microsoft написал всем, что повышений и бонусов не ждите. А я и не ждал, если честно. 🦥

Тяжелые нынче времена для ынженеров и их ~~менеджеров~~ надзирателей😒

The Pragmatic Engineer

Datadog’s $65M/year customer mystery solved

The internet has been speculating the past few days on which crypto company spent $65M on Datadog in 2022. I confirmed it was Coinbase, and here are the details of what happened.

🌭4🍓2🐳1🙈1💅1🗿1

7.7K viewsDmitry, 09:08

Инжиниринг Данных

Работать много часов в день не так уж и плохо. 😎🙈😅

🗿48❤‍🔥16🌭14🙈13👨‍💻11🤷1

7.69K viewsDmitry, edited 15:32

Инжиниринг Данных

Когда мы создаем дашборды, мы хотим, сделать их не только красивыми, но и полезными.

Чтобы дашборд был полезный, он должен на позволять углубляться (drill down) и искать причинно-следственные связи.

Мне понравилась картинка про Metric Tree - где пользователь может провалиться вниз и найти ответы на свои вопросы, найти те самые data insights, которые помогут сделать decision making.

What you want is to figure out what actions you need to take to improve the effectiveness of your business at achieving the goals it was designed for.

It’s not that hard to build a data tool to answer any question managers and executives think about. Pretty much all vendors are focusing on this.

Meanwhile nobody is telling them what questions they should ask. It’s assumed they already know. The truth is they don’t.

Figuring out what to do to improve a business (or organization) so it achieves its goals more effectively is the key to operational excellence.

🦄22🍓8❤‍🔥2🌚2🐳1💅1🗿1

8.17K viewsDmitry, 17:44

Инжиниринг Данных

#weeklydatanewsdump

Как обычно накопились ссылки за неделю.

The dbt Semantic Layer: what’s next - свежий пост про Metric Layer. Концепт не простой, но важный. Главная задача - навести порядок в показателях. Так как dbt позволяет нам легко плодить модели (sql запросы), то очень быстро можно развести такой бардак, что BI инструментам с Self-Service и не снилось.

Introducing MetricFlow: Your powerful, open source metric framework - Open Source фреймворк для Metric Layer. (не работал с ним)

Бесплатный курс по Apache Kafka от Confluent.

Salesforce Introduces the Next Generation of Tableau, Bringing Generative AI for Data and Analytics to Everyone - табло презентовало GPT функциональность в своем продукте. Только ленивый не интегрируется с generative AI. Табло еще года 3-4 назад добавил функциональность text to insights с использование NLP, но как-то не пошло, как и у Power BI с voice to insights. Посмотрим, как сейчас пойдет. В любом случае все эти прибамбасы не решат базовых проблем с качеством данных, документацией, моделью хранилищ данных и тп. Старом как мир - shit it, shit out. Имеется ввиду, что положим в хранилище или BI, то и получим. Пока еще AI не делает за нас работу по созданию аналитического решения под ключ.

UK Government Data Maturity Assessment Framework - пример фреймворка, как навести порядок в данных.

How Swimply Built Its Hyper Growth Data Stack with Snowflake, Fivetran, and Monte Carlo - Data Observability инструмент Montecarlo (я им пользуюсь для Snowflake и очень доволен) делится примером современного решения с использованием Snowflake, dbt, segement, looker и тп. Супер типовое решение в западной компании, с которым приятно работать, так как нет open source внедрений из "💩 и палок".

Seven Tips for Using S3DistCp on Amazon EMR to Move Data Efficiently Between HDFS and Amazon S3 - я уже делился про свою задачку по компрессии 2-3 Petabytes данных. В итоге я попал на S3 Rate Limit... Использовал Glue Spark в итоге, так как каждый джоб могу запускать в изоляции, но вот Rate limit он для всех один, и опять уперся, что решение не масштабируется.

Demystifying Table Formats in Data Lake (feat. Apache Iceberg) - обзорная статья про Lakehouse.

Mastering Collaboration as A Data Engineer - How to become a 3X Data Engineer by being a team player - статья как быть супер пупер инженером данных. Автор явно упустил, что хороший и плохой инженер зарабатывает примерно одинаково, что увольняют их так же одинаково, и даже больше шансов, что уволят инженера кто более опытный и больше получает. Поэтому я бы учил людей не как быть 3х инженером, а как зарабатывать 3х с 0х стрессом. Поэтому не видитесь на всякую лажу😎 Как бы вы не старались, вас все равно могут уволить, сократить, или просто забить на ваше повышение и прибавку к зп.

Я почти закончил читать довольно маленькую книгу - Escaping the Build Trap: How Effective Product Management Creates Real Value. (вы можете легко найти PDF), книга супер:
1. Вы узнаете про product менеджмент
2. Вы сможете понять, в чем заключается build trap для инженера (особенно когда мы фигачим data pipelines, dashboards и тп)

Я добавил PySpark + AWS CLI команды для Glue (makefile) в GitHub. На одном проекте был хакатон, и я взял один день cloudflare логов 250гб, и через Glue запустил 24 jobs одновременно, у каждой был свой compute. 1jobs = 1 hour partition. Нужно было распарсить JSON и сохранить результат в Parquet и писать запросы через Athena. Сейчас это все работает на Snowflake через EXTERNAL TABLES и dbt-external утилитка, чтобы создать dbt source таблицы. На другом проекте я собираюсь использовать тот же dbt-external для Redshift (чтобы уйти от Athena).

Результаты:
Glue - 5 минут, цена 16$
Snowflake - 4 часа, цена 67$ (это был то, как это сейчас работает).

Вопрос использования инструмента(ов) это большой Tradeoff между удобством, ценой, скилами команды.

❤‍🔥24🫡4🗿1

7.93K viewsDmitry, edited 18:58

Инжиниринг Данных

Все новое - хорошо забытое старое или как Амазон Видео сократил расходы на 90% и отказался от микросервисной архитектуры и построил монолит.

Хорошо, что в мире хранилищ данных с этим проще. Мы конечно можем построить serverless озеро данных и использовать AWS Lambda в качестве ETL event-driven инструмента, но хз что из этого получится в long term.

PS из всего многообразия с которым я работал, самый удобный это Snowflake, вот реально вообще голова не болит про административные задачки. Правда ценник 120К USD в месяц, но зато работает хорошо, иногда долго, но работает и не ломается.

Monolith Strikes Back: PrimeVideo Slashed Costs by 90%

The monolith: the ultimate solution to lower cloud costs?

❤‍🔥11🐳6

7.43K viewsDmitry, edited 21:19

Инжиниринг Данных

Товарищ высказался по поводу нехватки тренингов в области Self-Service BI.

Достаточно просто начать использовать BI решение для простых задач, но когда начинается рост, тут уже начинаются проблемы. Из-за не знания best practices инструмент используется неправильно и не эффективно.

Так же он заметил, что раньше компании покупали продукт и поддержку/тренинги, чтобы эффективно внедрять, а теперь все экономят.

Да и вендоры, тоже экономят на этом поприще, показывают нам простые примеры и красивые дашборды, но ни слова про серьезное использование для большой организации.

Как у вас с этим?

🐳11💅4🤷‍♂3🗿1

7.1K viewsDmitry, 17:18

Инжиниринг Данных

Очень хорошо замечено. Но мне кажется это относится к full time job, когда вам платят за 40 часов и вы должны работать часов 30 макс в неделю, но вы работаете 60-70 часов в неделю. Тут нужно аккуратно.

Это возможно в начале карьеры, чтобы опыта набраться, но когда есть опыт и вы наивно полагаете, что вам прибавят зарплату и повысят вас, то тут вы уже очень наивны и неопытны.

Но есть и другая сторона медали. Одно дело если у вас уже жизнь устроена и вы гонитесь пытаетесь достичь чего-то в ущерб семье и детям, а совсем другое, если у вас ничего нет, и вам нужно "кормить" семью, оплачивать обучение, да еще и тянуть ипотеку. Так что может быть через 20 лет лучше вспоминать как вы работали много в своей недвижке, чем "сосать лапу" на съеме и сводить концы с концами.

А может быть есть золотая середина - работаь мало, получать много, и куча времени на семью. Это наверно про джедайские техники=)

🌭41❤‍🔥24🤷9

7.39K viewsDmitry, 05:37

Инжиниринг Данных

Старый мем! Если у вас не было такого в карьере, что вы сломали прод, то считайте у вас еще не началась карьера🙈

Хотя сейчас Snowflake, Databricks (Delta Lake) и многие другие дают возможность делать UNDROP таблицы с фичей Time-Travel... Конечно если вы не ищете путей урезать косты, и первое, что вы урежете Time-Travel.

Я сам сейчас играюсь с 🔥 продом, запустив s3-dist-cp на проде, и натравил на папку, где 900гб логов, чтобы их архивировать, AWS EMR не смог... На вопрос менеджера, мы ничего не потеряли - я ответил - ничего. А что еще можно ответить, я же не проверял сколько было файлов/даты, сколько стало🫣

Так что совет от бывалого, делайте всегда бекапы, тестируйте на UAT/DEV среде, чтобы нервы беречь, или имейте как кошка несколько жизней, это я про работы😉

🫡50🙈18👻7❤‍🔥3🍌1🍾1

8.66K viewsDmitry, 11:22

Инжиниринг Данных

VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес

⏰Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация

Каждая российская компания, которая стремится к росту, вынуждена развивать собственную разработку.
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем.

В программе:

🔹 Как повысить эффективность разработки с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты
🔹 Тренды и примеры миграции на российские базы данных
🔹 Практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.

👉 Зарегистрироваться

#реклама

🗿10🐳7🙈7🦄5👾3🫡2🍌1🍓1

9.77K viewsDmitry, 14:05

Инжиниринг Данных

Forwarded from Это разве аналитика?

😂😂😂 хорошего начала рабочей недели 😂😂😂

❤‍🔥122🫡39🦄9👻8👾5😈1

7.05K viewsDmitry, 06:14

Инжиниринг Данных

Меньше чем через 10 минут будет KeyNote CEO Microsoft про новые аналитические решения и возможности! https://register.build.microsoft.com/

9:00 AM (pst) Microsoft Build opening: Satya Nadella shares how Microsoft is creating new opportunities for developers across our platforms in this new AI era.

9:15 AM The era of the AI Copilot: Join Microsoft Chief Technology Officer Kevin Scott and OpenAI President and Cofounder Greg Brockman to explore how Microsoft and OpenAI’s full-stack AI platform, fueled by Azure, the world’s supercomputer, can empower developers, startups, and entrepreneurs to innovate and develop the next generation of AI apps and tools that will make the impossible possible.

10:00 AM Next generation AI for developers with the Microsoft Cloud: Join Microsoft’s Scott Guthrie, EVP Cloud + AI, as he discusses how Microsoft is making AI innovation real for developers today with experiences like GitHub Copilot, Azure’s OpenAI Service, and the Microsoft Cloud platform and tools you need to produce next-gen, AI-infused applications.

Microsoft Build

Connect, code, and grow at Microsoft Build. This is your moment to collaborate, and problem solve with your peers, refactor your skills, and experiment with available code snippets—all in Seattle, May 19–22.

❤‍🔥9

7.01K viewsDmitry, 15:55

Инжиниринг Данных

Media is too big

VIEW IN TELEGRAM

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated

Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами.

Что открывает выделенный режим Dedicated:
— возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно;
— ускорение работы моделей машинного обучения для задач по анализу данных.

Что ещё изменилось в Yandex DataSphere:
— режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения;
— появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения.

Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

#реклама

🗿15🫡7🍌4💯1

6.51K viewsDmitry, edited 17:18

Инжиниринг Данных

Встречайте - новый аналитический продукт - Microsoft Fabric. Что же это такое? Я могу рассказать свое видение этого продукта.

Прежде всего, давайте вернемся в прошлое. Давным-давно у Microsoft была линейка продуктов:
- Microsoft SQL Server - классическая база данных, которая служила и хранилищем данных, и backend OLTP базой
- Integration Service - классический ETL инструмент с UI
- Analysis Service - приложение для кеширование данных SQL Server (SQL запросов) в кубы - MOLAP, чтобы ускорить работу с отчетностью, идеально для кросс таблиц и Excel. И язык там MDX.
- Reporting Service - сервис для отчетных форм.

Так было в 90х и даже многие сейчас это используют - on premise.

Потом появился Tableau, и задал всем жару. Оказывается BI может быть не ИТ. Где-то в 2015 году я впервые услышал про Power BI (в Виннипеге, но так и не попал на бесплатный тренинг от Майкрософт. Вообще недавняя травма от работы со списком продуктов Microsoft выше еще не прошла, и меня немножко передергивало от слово Microsoft BI... (сейчас немного лучше, но все равно, не мое)

Потом все люди бросились внедрять облачное хранилище данных Amazon Redshift (внутри до сих пор живет postgres) и мигрировать "шкафы" Терадата, Нитиза и Экзадата в облако.

Azure довольно долго раскачивался. И потом родил Azure SQL Data Warehouse - это ответ Redshift и уже появился Snowflake c decouple Compute и Storage. Внутри был (и есть) SQL Server, но теперь его аж 60 инстансов (может быть логических, а может быть физических).

Спарка у Microsoft не было, и они решили запилить супер популярный AWS Databricks на облаке Azure -> Azure Databricks. И это был (и есть) очень успешный продукт. Он в разы лучше стандартного BigData решения на HDInsight (Managed Hadoop) + Spark/Hive.

Потом Microsoft понял, что жесть какая-то в конфигурации всех сервисов вместе - Azure SQL DW, Data Factory, Power BI. Да и вообще SQL победил в мире аналитики и BI и 90% аналитических решений стало строится на SQL flavour. Ну и конечно dbt хорошо всем зашел, чтобы наложить бизнес логику на SQL и закинуть в репозиторий.

В ноябре 2019 выпустили Synapse Analytics - это такой зонтик (workspace), в котором мы один раз залогинились и у нас доступ ко всем сервисам. Заодно вышел Synapse Spark (с поддержкой .net🤯).

Вроде как помогло устаканить решения Хранилищ Данных и Озера данных. Так же Microsoft не стал изобретать велосипед и взял за основу lake house - delta lake (как у Databricks). Таким образом еще один стандарт закрепился. Уже в 2021 Майкрософт сказал всем внутри валить с Databricks на "сырой Synapse" - это называется использовать "dog food", то есть внутренняя бета, с кучей проблем. Зато страданиями своих сотрудников в результате получается нормальный продукт, иногда😜

И несмотря все эти трансформации, Power BI не очень уж дружил с Data Warehouse, и особенно Delta Lake. А еще есть Azure Data Explorer для real time analytics.

И они потратили почти 2 года на next step в эволюции своего решения, то, что сегодня вы могли лицезреть на Microsoft Build - релиз Microsoft Fabric, то есть полная интеграция аналитических сервисов в интерфейс Power BI Service. Теперь всё там, кто-то уже писается кипятком, и лента в LinkedIn завалена новостями об этом. А еще объявили об использовании Co-pilot для рисования графиков Power BI в стиле ChatGPT.

Несмотря на мое отношения ко всем продуктам Microsoft, можно сделать выводы:
- Power BI комьюнити самое сильное в мире и возможно база пользователей тоже опережает все другие вендоры

- У Microsoft много инженерных и продукт ресурсов для создания новых решений и двигать индустрию вперед. Возможно они отталкиваются от пользователей Power BI, Excel (их большинство), а они хотят мечту любого аналитика - делать все и сразу из BI инструмента, ну вот и результат, теперь аналитик может все!

- В продолжение "может", теперь аналитик может сжечь столько денег в Azure, что год назад это было практически нереально😂

- На фоне таких больших обновлений в Microsoft, другие BI решения сильно отстают и уже реально в Gartner им не догнать.

What is Microsoft Fabric - Microsoft Fabric

Microsoft Fabric is an all-in-one analytics solution that covers everything from data movement to data science, real-time analytics, and business intelligence.

❤‍🔥31🗿5👻3

7.47K viewsDmitry, 06:12

Инжиниринг Данных

- А вот с точки зрения (моей) как инженера, сделать такой "уникальный продукт", который дает 100% контроль аналитикам ко всей инфраструктуре - ну такое. Будет очень много confusing. Ну может я просто уже "динозавр" и не могу свыкнуться с мыслью, что вот парой кликов могут заменить инженера данных. Но продают красиво! Прям получается Фабрика Звезд аналитики.

- Иконки новые классные, в стиле Windows 11.

Вот вам несколько ссылок:
Introducing Microsoft Fabric - классный пост от PM в его блоге.

Modernize your Enterprise Data Warehouse & generate value from data with Microsoft Fabric - видосик с выступления

What is Microsoft Fabric? - официальная документация.

Ну посмотрим как пойдет. С точки зрения продаж все будет чики пики. Ведь Microsoft используется во многих компаниях S&P500, и там решения по внедрению спускаются сверху. Скажу делать Фабрику, значит Фабрику. Не на тра***** c Synapse, теперь вот на новый заход с Fabric🥴

Пишите ваше мнение в комментах! Ну и не забывайте присылать ссылки на Вальдберис на супер дилсы где все по 1 рублю!

Introducing Microsoft Fabric

This week at Microsoft Build, we announced the future. With an introduction like that, I should probably remind everyone that this is my personal blog, my personal perspective, and my personal opin…

❤‍🔥25🐳3🌭1

7.87K viewsDmitry, 06:12

Инжиниринг Данных

Семён, у которого есть труба данных (жалко не нефти), расшарил классный пост с конференции dbt - "Excel at nothing: How to be an effective generalist", где товарищ рассказывает, что он особе нигде не эксперт, но всего понемножку знает и чувствует себя очень хорошо, и не хочет быть менеджером.

Я полностью поддерживаю такой подход и видения успешного Individual Contributor, который может въехать в любую тему и технологию и приносить пользу бизнесу с 1го дня. И действительно в моем случае все хорошо и с оферами и с 💸.

А как у вас?

Труба данных

Про дальнейшее развитие

https://www.youtube.com/watch?v=wB0ulHmvU7E

Классический вопрос, который мне задавали нескольких последних карьерных консультациях: а что дальше то делать? Куда дальше идти? Куда движется индустрия?
Типичная проблема: IC (расти в…

🫡17❤‍🔥10🗿3🐳1

7.08K viewsDmitry, 15:33