Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
❤‍🔥24🫡8🙈2
Решил помочь найти спикера для курса в университете в Тюмени, возможно даже онлайн вести уроки. Если бы не мои собственные работы и дела, с удовольствием бы провел время в Тюмени. Вдруг кто-то хочет применить свои знания и есть желание поделится опытом, преподавать в университете (можно удаленно). По оплате и условиям в личку у Гузель.

Здравствуйте, меня зовут Гузель, я занимаюсь развитием практико-ориентированной (ориентация на нефтегазовую отрасль) магистерской программы: Разработка интеллектуальных систем в Тюменском государственном университете. Ищу преподавателя(ей) на 2 дисциплины: "Методы распределенной обработки больших объемов данных" и "Методы распределенной обработки потоковых данных". На каждую из дисциплин запланировано по 40 пар (по 80 ак.часов). Это примерно по 3 пары в день на 5 недель. У нас модульная система обучения. Эти дисциплины запланированы на конец мая - июнь. Желательно конечно приехать к нам в Тюмень (тогда можно и плотнее поставить пары - по 4-5-6 пар в день, как будет удобно), но можно и онлайн на платформе MS Teams. Проезд и проживание оплачивается, как в принципе и проведение занятий, подробнее можно в личку: https://t.me/gn_chaparova, или на почту g.n.chaparova@utmn.ru.

Верхнеуровнево, что хотим видеть в дисциплинах:
1) Хранение Big Data, Распределенные и параллельные вычисления, Связь Data Science и Инжиниринга данных, Архитектура Hadoop, HDFS, MapReduce, Hive, Hbase, Архитектура Apache Spark, Spark Core, Data Streaming, Управление данными, ETL/ELT, Облачные решения, Адаптация ML-алгоритмов к распределенной среде и инструментам big data, Spark ML компоненты и модели, ML Engineering, Инструменты развертывания ML решений, Визуализация больших данных и BI инструменты.
2) Система реального времени, Различия между системами реального времени и потоковыми системами, Типичные паттерны взаимодействия, Масштабирование, Отказоустойчивость, Транспортировка данных из звена сбора данных, Анализ потоковых данных, Архитектуры распределённой обработки потоков, Алгоритмы анализа потоковых данных, Сохранение результатов сбора и анализа потоковых данных, Фильтрация потока, Инструменты: Apache Flink, Apache Storm, Apache Kafka, Apache Nifi, Apache Airflow, DBT Tool, Apache Sqoop. Буду рада сотрудничеству.
🍓14❤‍🔥9🌚4🙈4🤷3🐳2🤷‍♂1
Мир не будет прежним - "ETL in Power BI", дальше будет Big Data in Excel, Dashboards in Notepad, Streaming in Bathroom, Sleeping in Kitchen and so on.

Тортики они пекут в Power BI ... а потом пойди разгреби эти "пирожки" когда у вас будет 200 дашбордов, десятки показателей и 5-10из них будут "Revenue".

Забыли книгу рецептов добавить - ChatGPT🙈
👻60🙈19🌭5🌚4😈3💅3🤷3❤‍🔥2
Forwarded from Виталий Шляпа
Спасибо большое курсу Data Learn и ребятам в чате!:)
Благодаря вам я нашёл работу в зарубежной компании и могу жить за границей, там, где мне нравится :)
Я начал проходить модули в октябре 2022г и в марте 2023 получил оффер!:) к этому моменту было пройдено 4.5 модулей, все были очень полезные, сыграли основную роль в трудоустройстве.
Потратил на рассылку резюме около 2х месяцев, в сумме выслал 230шт + Cover Letters :) было всего 3 отклика, но с третьего меня взяли и все получается отлично, навыков хватает :))


Может, это кому-то поможет:
1) До Data Learn я изучил Python (по книгам) и SQL (тренажёр на степик), на это ушло примерно 4 месяца. Мой опыт поиска вакансий говорит о том, что это необходимые навыки.
2) Не рекомендую изучать Python таким образом, как я :)) это долго и неэффективно, лучше пройти пару курсов на степике.
3) для конкретно той вакансии, по которой меня взяли, я изучил подробно их требования, вписал их в Резюме и дополнительно вкратце посмотрел уроки по MongoDB, оптимизации SQL-запросов (индексы), хранимым процедурам. Именно по этим вещам задавались вопросы, это было решающим.
+ проходил курс по Airflow, не закончил его, хотя указывал уже в резюме :))
4) Ещё я занимался всё это время английским с репетитором. У меня был уже довольно Хороший разговорный уровень (наверное, В1), нужно было подтянуть конструкции итп. Это необходимый навык, которым желательно начать заниматься как можно раньше.
5) теперь поработав есть идея для проекта, который, как мне кажется, должен помочь в поиске работы: взять какой-либо датасет. Загрузить его в MongoDB, как будто это сырые данные, поступающие с сайта или ещё откуда-либо. И с помощью Python написать ETL-процессы, которые будут:
А) брать данные из этого датасета
Б) трансформировать их с помощью pandas (или ещё как-то)
В) загружать, либо в SQL, либо в другую коллекцию MongoDB.
Г) на основе этого можно сделать дашборды
Нужно постараться сделать все красиво, по канонам программирования, написать документацию.
В итоге получится база данных, в которой будут храниться удобные таблицы для отчетности. Это то, чем я сейчас в принципе и занимаюсь на работе (кроме дашбордов) :)
Всем удачи, все получится, главное стараться и набраться немного терпения :)
Если хотите, пишите вопросы, помогу, чем смогу :)
❤‍🔥214🍾19🐳11👨‍💻5🫡4🍌3
Книга The Staff Data Engineer's безусловно идеально пойдет всем, кто хочет оставаться индивидуальным контрибьютером (IC), ну или просто разработчиком. Это альтернатива позиции менеджера. Я сам уже на этой позиции почти год в достаточно крупной американской компании. Разница достаточно большая между ролью старшего разработчика и стафф. Если старший разработчик эксперт в построении решений ("руки"), то уровень стафф должен еще видеть Big Picture для всей организации, синхронизироваться с бизнесом и разными командами, чтобы приносить пользу всей организации.

Другими словами от вас будут ждать Impact, вам будут ставить большую задачу, а вы уже сами ищите правильный варианта. От вас нет ожидания, что вы сделаете отчет или pipeline за один день, вы должны помочь решить, а нужен ли этот отчет и pipeline, насколько правильный подход выбран и тд. Важна качественная коммуникация с другими командами и business stakeholders.

Как то делился комментарием инженера из Амазона - Оплачивают за результат, а повышают за ваше отношение к работе. То есть, допустим вы много работаете и закрываете задачи и проекты, за это вам платят и дают бонус условный, а чтобы перейти на следующий уровень вам необходимо уже фокусироваться на behaviour, взаимоотношениях с коллегами, engineering best practices. Каждый раз когда остаются открытые вопросы и "висяки" я всегда стараюсь к ним возвращаться и не жду, что проблема решится сама собой. Такие же ожидания и у моего менеджера.

Я вас сильно не буду грузить своим небольшим опытом, так как есть замечательный обзор этой книги в 2х частях Обзор книги "The Staff Engineer's Path" и другой на схожую тематику Обзор книги “Staff Engineer”.

В целом пока все довольны, что я делаю. Но моему менеджеру не понравилось, что у меня нет career path и career goals. Так как я 50% в дата команде, а другие 50% в technical sales (в смысле не продаю сам, а делаю аналитические решения для technical account managers). То у меня есть возможность сделать большой impact на всю организацию и мой менеджер заинтересован сделать меня Principal инженером. Вся эта история мне напоминает "морковку перед носом осла", что обычно приводит к выгоранию. Другая проблема - это компенсация. Согласно моим подсчетам в Канадских реалиях, моя зп staff на 20-25% меньше возможного, и тогда при повышении на принципал (а это 1,5 - 2 года тяжкого труда), она вырастет всего на 20% максимум. Стоки я не рассматриваю, они не ликвидные следующие несколько лет.

Для себя я решил, что виду сильно не буду показывать, раз предлагают opportunity, буду соглашаться. Мне не так обидно, потому, что эта позиция 1/4 моего дохода на данный момент. Но я же всегда за справедливое распределение капитала среди инженеров😎
❤‍🔥47🫡11🗿1
У меня накопилось несколько интересных ссылок по инжинирингу данных, спешу с вами поделиться. Есть еще список машин, которые мне нравятся, но пока не понятно не понятно, что победит здравомыслие или не здравомыслие😂

Airbyte (кривой open source продукт с ETL connectors) опубликовал 2 поста по теме моделирования данных, идеально будет для собеседований.
- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1)
- Data Modeling – The Unsung Hero of Data Engineering: Modeling Approaches and Techniques (Part 2)

Snowflake опубликовал статья про Deep performance analysis with the new “query operator stats” in Snowflake - если вы работает со снежинкой, прочитайте.
Snowflake users can finally dig deep into query stats with this new function. This data was only available in the query profile visualization, and now you can get it in your SQL world with GET_QUERY_OPERATOR_STATS(). Let’s review the new function, and how to use it to get deeper insights while benchmarking.

Databricks купил AI-centric data governance platform Okera:
Databricks is aiming to integrate Okera’s technology into their existing data governance solution, Unity Catalog. The goal of the integration is to provide more AI-powered functionality to the Databricks platform.

Так же они выпустили бета - Databricks Marketplace (Public Preview): an open marketplace for data, analytics, and AI

Fujitsu консалтинг опубликовал A Practitioners Guide to Databricks vs Snowflake - где якобы сравнили 2 продукта, и пришли к выводу, что нужно покупать Кирпичи, и заказывать внедрение у Fujitsu. Как ни как сделали обзор фич каждого из продуктов.

Небольшой tutorial по DuckDb.

Европейские коллеги отправятся на https://datainnovationsummit.com/ в Стокгольм, а Северо Американские коллеги на Snowflake в Las Vegas.

PS Ранее я писал про архивирование S3 JSON в JSON.GZ, я попробовал 2 метода Spark (через RDD) и S3 DICT CP, оба варианта работают, но решил взять S3 dict cp, в обоих случаях ChatGPT 4 для меня написал код, которые сделает для меня PoC, что сэкономило кучу времени. Так как гуглить каждый параметр и команду заняло бы много времени.
❤‍🔥27👨‍💻6🐳3👻1
Вроде не 1ое апреля. Но Power BI я бы даже и устанавливать не стал бы😅
🤷‍♂36🗿10🫡4🍌3👻3
Про пост выше, я имел ввиду, что в должности VP такие шуточки не уместно, явно говорит о его компетенции как VP, да и дополнительные шильдики MP, CLTD тоже это подтверждают. Решил самоутвердится за счет несчастного Tableau😝

Тем не менее, я уже намекал на новинку от Power BI несколько раз, над который мы трудились довольно долго, и даже я немножечко почувствовал. 24-25 Мая будет Microsoft Build на котором будет анонс нового продукта от Power BI.

Программа:
- Microsoft Build keynote: Analytics in the age of AI
- Transform productivity with AI experiences for analytics
- Eliminate data silos with the next-generation data lake
- Modernize your data integration for petabyte-scale analytics
- Unlock value from your data with a modern data warehouseу
- Use Spark to accelerate your lakehouse architecture
- Secure, govern, and manage your data at scale
- Go from models to outcomes with end-to-end data science workflows
- Empower every BI professional to do more with data
- Sense, analyze, and generate insights with real-time analytics
- Accelerate your data potential with Microsoft

Как я понимаю, все это можно будет делать через Power BI Service. Что значит Azure Cloud + Power BI работают в связке.

Парадокс - Power BI мега популярен, возможно из-за удобства и популярности Excel и Windows для пользователей. А вот Azure Cloud аналитические решения не очень. Их продают в S&P500 компании, но реально работает хреново (data warehouse, data lake).

Даже если вы не работаете с Power BI, думаю будет полезный ивент, где затронут множество решений. В основном будут продукт менеджеры рассказывать, так что глубоко копать не будут. Уже после мероприятия можно будет более подробно посмотреть на новые фичи.

И да, к сожалению, табло нас так не радует, но у них и своего облака нет. А вот у Looker, Quicksight, DataLens оно есть, но тоже не сильно помогает.
🐳7😈2🫡2💅1
Рома Бунин опубликовал результаты анализа рынка вакансий в сравнении 2022/2021 на HH. Получается, что дата инженер все еще востребован, а вот data science и аналитики просели. Когда то так же было с data science, а потом каждый 2ой изучал этот предмет и хотел быть data scientist. Посмотрим как долго продержится инженер данных.

Для меня аналогия хорошей профессии - это электрик и сантехник. Так как понятно, чем занимаются люди и за что им платят, какую пользу приносят с первого дня работы. Есть набор инструментов и методик, всем они нужны. Так же и инженер данных, все понятно и прозрачно.

А вот чем занимается аналитик и data scientist, тут как повезет, от Excel до ML и MLOps.
🫡22🍓6🤷6🗿5🐳3🌚3🍾2👨‍💻2
Оперативненько! уже есть курсы по ChatGPT, бросайте ваши питоны и скули, и учите жпт!
🗿44🌚9🙈7🍓3
HR юмор всегда самый смешной🍩 и правдивый...
❤‍🔥170👻7🌚6
Tableau Keynote 2023 key points.pdf
8.7 MB
В приложение небольшая презентация, которая суммирует Tableau Conference Keynote. А вот ссылку на полное видео в Linkedin.
❤‍🔥5
😫before chatGPT & Co
6 hours of debugging
can save you 5 min

🤩with chatGPT & Co
chatGPT account can
save 6 hours of debugging
5 min of reading documentation
4 hours of writing code
2 hours of searching for right command or code snippet
👾32❤‍🔥8🫡5🐳2🦄2🤷2
Список дел в ChatGpt за неделю:

1. Написал кучу Terraform скриптов для AWS Batch, AWS ECS, ECR, IAM - задача запускать dbt в контейренере в ECS, чтобы он мог ворочить данные в Redshift.

2. PoC Glue Spark - именно сам PySpark, который сэкономил очень много времени для описании огромного JSON.

3. AWS CLI команды в bash для запуска glue jobs из CLI и мониторинга

4. Кучу команд для AWS EMR утилитки s3-dict-cp и bash для автоматизации (включая функции), команды для hadoop hdfs

5. Glue pyspark для проекта по компресии данных, что-то s3-dict-cp не перформит для моих задач.

Эти примеры сэкономили мне ОЧЕНЬ много времени. Самое главное, что у меня есть понимание, что нужно делать, а chatGPT лишь автоматизирует набор кода, который я бы и сам написал, но потратил кучу времени на поиск решений. А так вот все успел.

Так что мои топ 3 use cases:
- Terraform (или любой другой инфраструктурный код)
- bash
- PySpark

SQL пока сам пишу☺️
🫡54❤‍🔥12👾4🌭1
Сегодня познакомился с новым термином - “early optimizer” в статье Datadog’s $65M/year customer mystery solved, где рассказывают про Coinbase, который потратил в год 65М баксов на observability инструмент. Вот вам SaaS cloud computing во всей красе, может кушать деньги очень хорошо. Coinbase как и другие крипто компании росли как на дрожжах, потому что крипта тоже росла (хотя чего лукавить, чего только не росло). Я сам был "экспертом" по инвестициям в tech маркет и недвижимость.

В общем, coinabase слез с datadog и ушел в Open Source - Clickhouse, Grafana и тд. Таким образом, optimize их инфраструктуру, чтобы порезать косты.

Чтобы понять, что лучше - строить свое или купить готовое - автор использует формулу:

$infra_cost + $platform_team_cost < $current_vendor_costs

Можно прикинуть, что вам понадобится 1м на платформу + 2-3м на команду 4-5 человек (за год) и того, получается 4-5м в го. Соответственно цена в 65м выглядит космической. Да и деньги больше так никому не дают.

Даже Microsoft написал всем, что повышений и бонусов не ждите. А я и не ждал, если честно. 🦥

Тяжелые нынче времена для ынженеров и их менеджеров надзирателей😒
🌭4🍓2🐳1🙈1💅1🗿1
Работать много часов в день не так уж и плохо. 😎🙈😅
🗿48❤‍🔥16🌭14🙈13👨‍💻11🤷1
Когда мы создаем дашборды, мы хотим, сделать их не только красивыми, но и полезными.

Чтобы дашборд был полезный, он должен на позволять углубляться (drill down) и искать причинно-следственные связи.

Мне понравилась картинка про Metric Tree - где пользователь может провалиться вниз и найти ответы на свои вопросы, найти те самые data insights, которые помогут сделать decision making.

What you want is to figure out what actions you need to take to improve the effectiveness of your business at achieving the goals it was designed for.

It’s not that hard to build a data tool to answer any question managers and executives think about. Pretty much all vendors are focusing on this.

Meanwhile nobody is telling them what questions they should ask. It’s assumed they already know. The truth is they don’t.

Figuring out what to do to improve a business (or organization) so it achieves its goals more effectively is the key to operational excellence.
🦄22🍓8❤‍🔥2🌚2🐳1💅1🗿1
#weeklydatanewsdump

Как обычно накопились ссылки за неделю.

The dbt Semantic Layer: what’s next - свежий пост про Metric Layer. Концепт не простой, но важный. Главная задача - навести порядок в показателях. Так как dbt позволяет нам легко плодить модели (sql запросы), то очень быстро можно развести такой бардак, что BI инструментам с Self-Service и не снилось.

Introducing MetricFlow: Your powerful, open source metric framework - Open Source фреймворк для Metric Layer. (не работал с ним)

Бесплатный курс по Apache Kafka от Confluent.

Salesforce Introduces the Next Generation of Tableau, Bringing Generative AI for Data and Analytics to Everyone - табло презентовало GPT функциональность в своем продукте. Только ленивый не интегрируется с generative AI. Табло еще года 3-4 назад добавил функциональность text to insights с использование NLP, но как-то не пошло, как и у Power BI с voice to insights. Посмотрим, как сейчас пойдет. В любом случае все эти прибамбасы не решат базовых проблем с качеством данных, документацией, моделью хранилищ данных и тп. Старом как мир - shit it, shit out. Имеется ввиду, что положим в хранилище или BI, то и получим. Пока еще AI не делает за нас работу по созданию аналитического решения под ключ.

UK Government Data Maturity Assessment Framework - пример фреймворка, как навести порядок в данных.

How Swimply Built Its Hyper Growth Data Stack with Snowflake, Fivetran, and Monte Carlo - Data Observability инструмент Montecarlo (я им пользуюсь для Snowflake и очень доволен) делится примером современного решения с использованием Snowflake, dbt, segement, looker и тп. Супер типовое решение в западной компании, с которым приятно работать, так как нет open source внедрений из "💩 и палок".

Seven Tips for Using S3DistCp on Amazon EMR to Move Data Efficiently Between HDFS and Amazon S3 - я уже делился про свою задачку по компрессии 2-3 Petabytes данных. В итоге я попал на S3 Rate Limit... Использовал Glue Spark в итоге, так как каждый джоб могу запускать в изоляции, но вот Rate limit он для всех один, и опять уперся, что решение не масштабируется.

Demystifying Table Formats in Data Lake (feat. Apache Iceberg) - обзорная статья про Lakehouse.

Mastering Collaboration as A Data Engineer - How to become a 3X Data Engineer by being a team player - статья как быть супер пупер инженером данных. Автор явно упустил, что хороший и плохой инженер зарабатывает примерно одинаково, что увольняют их так же одинаково, и даже больше шансов, что уволят инженера кто более опытный и больше получает. Поэтому я бы учил людей не как быть 3х инженером, а как зарабатывать 3х с 0х стрессом. Поэтому не видитесь на всякую лажу😎 Как бы вы не старались, вас все равно могут уволить, сократить, или просто забить на ваше повышение и прибавку к зп.

Я почти закончил читать довольно маленькую книгу - Escaping the Build Trap: How Effective Product Management Creates Real Value. (вы можете легко найти PDF), книга супер:
1. Вы узнаете про product менеджмент
2. Вы сможете понять, в чем заключается build trap для инженера (особенно когда мы фигачим data pipelines, dashboards и тп)

Я добавил PySpark + AWS CLI команды для Glue (makefile) в GitHub. На одном проекте был хакатон, и я взял один день cloudflare логов 250гб, и через Glue запустил 24 jobs одновременно, у каждой был свой compute. 1jobs = 1 hour partition. Нужно было распарсить JSON и сохранить результат в Parquet и писать запросы через Athena. Сейчас это все работает на Snowflake через EXTERNAL TABLES и dbt-external утилитка, чтобы создать dbt source таблицы. На другом проекте я собираюсь использовать тот же dbt-external для Redshift (чтобы уйти от Athena).

Результаты:
Glue - 5 минут, цена 16$
Snowflake - 4 часа, цена 67$ (это был то, как это сейчас работает).

Вопрос использования инструмента(ов) это большой Tradeoff между удобством, ценой, скилами команды.
❤‍🔥24🫡4🗿1
Все новое - хорошо забытое старое или как Амазон Видео сократил расходы на 90% и отказался от микросервисной архитектуры и построил монолит.

Хорошо, что в мире хранилищ данных с этим проще. Мы конечно можем построить serverless озеро данных и использовать AWS Lambda в качестве ETL event-driven инструмента, но хз что из этого получится в long term.

PS из всего многообразия с которым я работал, самый удобный это Snowflake, вот реально вообще голова не болит про административные задачки. Правда ценник 120К USD в месяц, но зато работает хорошо, иногда долго, но работает и не ломается.
❤‍🔥11🐳6
Товарищ высказался по поводу нехватки тренингов в области Self-Service BI.

Достаточно просто начать использовать BI решение для простых задач, но когда начинается рост, тут уже начинаются проблемы. Из-за не знания best practices инструмент используется неправильно и не эффективно.

Так же он заметил, что раньше компании покупали продукт и поддержку/тренинги, чтобы эффективно внедрять, а теперь все экономят.

Да и вендоры, тоже экономят на этом поприще, показывают нам простые примеры и красивые дашборды, но ни слова про серьезное использование для большой организации.

Как у вас с этим?
🐳11💅4🤷‍♂3🗿1
Очень хорошо замечено. Но мне кажется это относится к full time job, когда вам платят за 40 часов и вы должны работать часов 30 макс в неделю, но вы работаете 60-70 часов в неделю. Тут нужно аккуратно.

Это возможно в начале карьеры, чтобы опыта набраться, но когда есть опыт и вы наивно полагаете, что вам прибавят зарплату и повысят вас, то тут вы уже очень наивны и неопытны.

Но есть и другая сторона медали. Одно дело если у вас уже жизнь устроена и вы гонитесь пытаетесь достичь чего-то в ущерб семье и детям, а совсем другое, если у вас ничего нет, и вам нужно "кормить" семью, оплачивать обучение, да еще и тянуть ипотеку. Так что может быть через 20 лет лучше вспоминать как вы работали много в своей недвижке, чем "сосать лапу" на съеме и сводить концы с концами.

А может быть есть золотая середина - работаь мало, получать много, и куча времени на семью. Это наверно про джедайские техники=)
🌭41❤‍🔥24🤷9