Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Семён, у которого есть труба данных (жалко не нефти), расшарил классный пост с конференции dbt - "Excel at nothing: How to be an effective generalist", где товарищ рассказывает, что он особе нигде не эксперт, но всего понемножку знает и чувствует себя очень хорошо, и не хочет быть менеджером.

Я полностью поддерживаю такой подход и видения успешного Individual Contributor, который может въехать в любую тему и технологию и приносить пользу бизнесу с 1го дня. И действительно в моем случае все хорошо и с оферами и с 💸.

А как у вас?
🫡17❤‍🔥10🗿3🐳1
🙈37🐳16🍌6❤‍🔥4😈2🎄2🌚1🍾1👨‍💻1
👾21🍌3🤷‍♂2👻2🌚1
Нормально компании свои отзывы редактируют. Сначала увольняют несколько тысяч человек, потом бедняги пишут отзывы на Glassdoor, рейтинг компании падает. Потом приходит HR, ставит новый Target поднять рейтинг на 3+, и начинают чистить и лепить левые отзывы. 🤬
😈29🐳6🗿4🤷2
Станьте специалистом широкого профиля в работе с данными — научитесь разрабатывать архитектуру данных на курсе Яндекс Практикума.

Выпускники смогут:
◾️ проектировать хранилища и пайплайны;
◾️ использовать инструменты DE: оркестраторы, контейнеры и не только;
◾️ работать со стриминговой обработкой данных и облачными хранилищами;
◾️ создавать хранилища Data Warehouse и Data Lake.

Что будет на учёбе:
— Реальные рабочие задачи и командные проекты.
— Код-ревью и персональные советы от действующих инженеров данных.
— Вебинары и продакшн-опыт от экспертов в инженерии данных.

→ Приходите учиться, если хотите развить свои компетенции или перейти на должность Data Engineer.

#реклама
🗿43❤‍🔥6🌚4🍾2💅2🍌1
Один из самых главных экспертов по Табло мирового уровня Andy Kriebel (конечно после Романа Бунина) создал свой сайт и учит как создавать классные визуализации.

Today 400 people got access to over 100 tips for building charts and mastering the fundamentals of Tableau .

Grab them here. Sign up for my newsletter and click the Past Issues button.

You’ll get future tips delivered straight to your inbox every Friday.
❤‍🔥34🌚3😈2
Канада для многих выглядит очень привлекательной страной для иммиграции и жизни. Отличное видео (правда на английском) - Cost of life and Software Engineer Salaries in Canada но с понятным акцентом👌 - если кратко то "Канадская мечта" - это какой-то скам. (про это вы узнаете из видео, почему автор так считает).

Всем рекомендую посмотреть, особенно если вы недавно приехали или собираетесь. Я подтвержу каждое слово автора, я примерно сам в таких условиях лет 5 жил, одно мне повезло, что недвижка 7 лет назад стоила на 60% дешевле, и человек работающий в ИТ со средней зарплатой мог себе позволить, что-то купить недалеко от города.
🍓12🙈10🍌5❤‍🔥2🐳2🗿1
Очень хорошая статья про Microsoft Fabric. И как заметили в комментариях, fabric это не про фабрику, а про слои "ткани". Фабрика это у нас было про data factory...

Вот так вот незаметно прошли 8 лет в англоговорящей стране, где кроме data/IT терминологии, ипотечной и кредитной терминологии мои познания иностранного языка заканчиваются😅 Обычно в сложных вопросах языка я консультируюсь с детьми.

Вот отличная статья в человека, который создавал Mode - Microsoft builds the bomb.

Он очень классно рассмотрел плюсы и минусы этого продукта, и один из выводов:

Moreover, even if Microsoft’s execution isn’t perfect, Fabric still presents one new danger to the modern data stack: It gives buyers an integrated alternative. To this point, the only unified data platforms have been legacy ones, and the only modern data platforms have been fragmented. We haven't seen just how much—or how little!—data teams are frustrated by that fragmentation, since it's been part and parcel of products that are SaaS-based, cloud-first, and at least gesture towards a consumer-grade user experience. Fabric changes that.

Действительно и Synapse и Fabric убирают много головной боли для ИТ и руководителей.

The choice is no longer legacy versus modern, but all-in-one versus best-of-breed. Place your bets, I suppose.

То есть теперь можно выбрать решение, которое "все в одном" или выбирать отдельные элементы и городить уже свое.

Так же он хорошо заметил, что у Microsoft отличные отношения с СIO крупнейших компаний, и они уже активно продают идею unified платформу, которая изначально была у Databricks, но там был только DE+ML. А тут весь Azure Cloud под боком.

Мое мнение - как часто бывает с новыми продуктами Microsoft - реальный опыт внедрения окажется не такой радужный. Посмотрим, как пойдет. И ждем ответки от AWS, Google.
🍾4🦄2❤‍🔥1💅1
DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции

Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL

В этом видео вы узнаете про:

📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed vs Unmanaged
📌 Примеры SQL запросов в PySpark
📌 Кеш в Spark
📌 Результат SQL запроса в DataFrame и наоборот
📌 Пример работы с различными файлами в Spark - Parquet, CSV, JSON, AVRO, ORC
📌 Пример использования Spark для бинарных файлов и изображений
📌 Функции и операции Spark
📌 UNION, JOIN для DataFrame
📌 Window Functions
📌 UDF
📌 Партиционирование данных и оптимизация с командами coalesce, repartition.

В качестве лабораторной работы вам нужно будет выполнить все запросы из примеров в CLI и Databricks.
❤‍🔥63🫡10🌭1
Годами у меня вырабатывался рецепт быстрого входа в профессию. Вы спросите в какую профессию? Я точно не люблю использовать такие слова как BI инженер, дата инженер, аналитик и тп, потому что когда вас берут на работу в 80% случаях они сами не знают как должна называется ваша должность, и что вам нужно будет делать. называю это модным западным словом Individual Contributor (IC) в области связанной с данными. Именно про это этот канал, datalearn.

Для успешного data IC, вам нужно:
- Понимать зачем аналитика и данные
- Как можно использовать данные, чтобы помогать бизнесу/продукту двигаться вперед

- Понимать как выглядит типичная data команда, что они делают и как помогают бизнесу в измерении эффективности
-
Знать 5-10 метрик показателей и что вообще такое метрика? Вот есть у вас таблица с данными, как из нее получить метрику? Лучший книга для этого Lean Analytics. Закроет вопрос метрик и показателей навсегда

- Понимать какие форматы данных бывают и уметь с ними работать (всего можно 3 знать CSV, JSON, PARQUET)

- Знать SQL отличное - главный технический навык для работы с данными

- Уметь грузить данные в БД (база данных) и выгружать из БД (как угодно) - это и есть ETL, и конечно же трансформировать эти данные внутри БД (это и есть data pipeline или ETL Job), а последовательность data pipelines/etl jobs называется Direct Acyclic Graph (DAG)

- И если вы вдруг будете выгружать/загружать, то неплохо бы поставить это дело на расписание - data orchestration/scheduler

- Не боятся слово КОД, SQL это тоже код. Это всего лишь инструкции для машины и chatGPT вам на пальцах расскажет про любой код

- Ну само собой вам будет легче писать запросы, формулы, и разбираться в чужом коде с chatGPT (ваш настольный ассистент), к сожалению многие еще не используют его

- Не боятся командной строки и знать 10-15 основных команд (навигация, текстовый редактор)

- Выбрать одну IDE (редактор кода) и привыкнуть к нему - из бесплатных самый лучший Visual Code

- Знать один BI инструмент достаточно хорошо и уметь подключаться к БД

- На вопрос - Почему медленно работает и как решить проблему отвечать нужно посмотреть план выполнения запроса, то есть понять как получить тот самый план выполнения SQL запроса для вашей БД и как его можно интерпретировать с помощью google/chatgpt

- Обязательно версионность кода в Git (GitHub, GitLab, Azure DevOps). Самые простые вещи Branch, Merge, Commit, Code Review

- Простое резюме в google doc,

Конечно можно список расширять вширь и в глубь. Я постарался написать самый минимум. Python не стал указывать, так как упор на SQL. Одновременно Python и SQL будет сложно с 0. Да и много профессий, где можно без coding skills.

Если говорить про ТОП3:

1. SQL
2. Business Domain
3. BI

То есть если вы сможете на собеседовании внятно объяснить как вы помогали бизнесу с помощью данных:
- Повышать прибыль
- Понижать расходы
- Избегать рисков
- Исследовать новые фичи\продукты\рынки

То этого будет достаточно чтобы получить хорошую базу и уже выбрать куда развиваться. Кто-то хочет быть программистом, кто-то продукт менеджером, кому-то нравится заниматься интеграцией данных и создание платформ данных и тп.

Можете в комменты покидать ваши ТОП3 скила для успешного входа в профессию.

Ах, самый главный скил - "приукрашивать" и "сочинять". Обязательно прочитайте книгу Фантазёры Николая Носова, вот вам нужно будет прокачать этот навык, чтобы ваши первые 20 собеседований прошли успешно🦥
❤‍🔥173🫡30🙈4🐳3🍓3👻3😈2
Я работаю на одном проекте в крупнейшем телеком операторе в Канаде. Это как раз где JSON нужно сжать в gunzip. Сегодня прислали презентацию с оргструктурой ИТ, я не поленился посчитал - 120+ VPs, Sr Directors, Directors. Даже есть Director Snowflake&Ops (ага тот, самый, который хранилище данных).

Про проект с компрессией, про которую я ранее писал, у меня лед тронулся и уже данные сжимаются. В итоге у меня работает 2 способа:

- boto3+python на AWS Glue compute (без spark) - я могу запускать сотни jobs параллельно, но очень быстро все упадет из-за S3 Rate Limit (по-моему 3500 per second). Поэтому отбросил его. Но можно настроить boto3, чтобы избегать перегрузки.

- использую s3-dict-cp на дешевом кластере. С помощью питона я создал 200-300 txt файлов с S3 paths, таким образом, чтобы в одном файле было ~100-120 партиций. Ну, а дальше с помощью Shell script запустил цикл на EMR CLI и он уже берет каждый файлик и обрабатывает его, а потом помечает как processed и копирует в другую S3 папку. Код потом добавлю в гит свой.

Еще был вариант интересный про Lambda, но не добрался до него.
🍓13🗿7🦄2😈1
State of the art - замечательный Landing Page, судя по-всему сделан Airbyte. Не знаю насколько можно ему верить, но зарплата в 600к в наши дни для "честных" инженеров, мне кажется, редкость, даже в долине. Хотя после массовых увольнений акции Meta, Microsoft, Amazon пошли вверх. В Канаде, по моим подсчетам, можно за год заработать 600к+ канадских, но как было сказано в видео выше, про стоимость жизни в Канаде, очень обидно отдавать 50% на налоги, при этом содержать бомжей и дармоедов и на дом мечты, да и просто на дом, все равно не хватит. Не будем о грустном, лучше про опрос.

В нем поучаствовало 886 человек. Я думаю, что это определенная аудитория, которая использует популярные решения, то есть высокая вероятность bias.

Сразу видно вывод - Insight 1: Airbyte and Fivetran are clear leaders for Data Ingestion layer. Ну, понятно же, за счёт счет банкет. Fivetran использую, работает Окей.

Как же без dbt - Insight 2: dbt has most positive sentiment for Data Transformation, but pandas is actually most used. Вообще сравнивать dbt и pandas, ну такое. Наверно где-то потерялся Excel, тем более dbt for Excel существует.

Insight 3: Snowflake and BigQuery clearly at the top for Data Warehouses; Azure Synapse lagging behind badly - я даже больше сажу, Snowflake явно лидирует. А Synapse уже заменили на Fabric. И Microsoft не будет тягаться в категории хранилищ, у них платформа, у других даже шансов нет. Обычно сравнивают Databricks vs Snowflake, ну тут решили не палить конкурента.

Insight 4: For Data Orchestration, most people are still using self hosted Airflow, but Dagster is coming up the ranks - действительно Airflow очень популярен. Про dagster не знаю, а вотPrefect используем. Да и с Airflow open source очень много проблем, никакой стабильности.

Insight 5: For Business Intelligence, the giants Looker and Tableau are still ruling the roost, but there is also significant churn from Tableau to the newer set of solutions - Power BI явно не популярен среди тех, кто использует dbt, snowflake, aiflow. Оно и понятно, это совсем другая аудитория.

Insight 6: For Data Quality, Great Expectations and Monte Carlo are leading the pack, but more people have not yet tried or explored the tools than have - мне тоже очень нравится MonteCarlo. Не раз уже спасал своими алертами. Там свои алгоритмы, которые собирают различную статистику по использованию, загрузки таблиц. Действительно полезная вещь. Но можно тоже самое и бесплатно сделать.

Insight 7: For Reverse ETL, Hightouch and Census are neck and neck, but the vast majority of the market is still up for grabs. Использую только Hightouch. До сих пор не очень понял ценность этих игрушек дорогих, все можно сделать через API, но время сокращает.

Insight 8: For Data Catalogs, DataHub, Atlan and Amundsen are leading for now, but the vast majority of the market is also up for grabs - Я сейчас работаю с Alation. И в другом месте добавляем DataHub. Все каталоги бесполезные без кураторства.

Еще из интересного список podcasts&youtube channels&data communities.

Чего не хватает:
- Решений по стримингу и возможно use cases по стримингу
- предпочтения по языку для работы с данными, не у всех же Python
- соотношения code vs SQL для работы с данными
- вообще кто-то среди них использует облачный hadoop?
- DevOps для аналитики (terraform bicep, cloud formation), git, CI/CD
❤‍🔥26🗿3
Интересная графика, сколько в среднем инженер работает 2 года на одном месте, потому что, если вы останетесь, то вы будете получать на 50% меньше, чем могли бы.

Все смены работы, обычно на повышают зарплату на 40%. А когда я сидела в Амазоне 5 лет, и отстал на 80% от рынка.

Сидеть хорошо, если у вас есть другие интересы или источники дохода. А иначе, ни денег, ни знаний.
🗿53❤‍🔥8🐳7👨‍💻4🙈3🦄3
The State of Data Engineering 2023 - еще один landing page, но уже от LakeFS. Я не использовал LakeFS, по-моему это решения для версионности озера данных и работает с различными платформами - Athena, Spark, Kafka, Presto. Если кто использует, расскажите на пальцах, что за штука и зачем? Век живи, век учись! А лучше вебинарчик! Я вообще за любой вебинарчик!🥹

В отчете следующие категории:
- Ingest - решения для стриминга и batch, ETL/ELT, low-code/no-code/code. Многие решения выглядят знакомыми и популярными. Действительно, все они могут грузить данные из источника в таргет.

- Data Lake - решения, которые хранят файлы - Hadoop, S3, Azure Storage и тд. Тоже, все выглядит логично.

- Metadata - состоит из: Metastroe пример Hive каталога, AWS Glue, Open Table formats (Lakehouse): Hudi, Delta, Iceberg, Data Version Control Infra.

- Compute Engines - есть Distributed Compute (имеется ввиду только вычислительные мощности как Spark) и Analytics Engines (привычные хранилища данных, тоже кстати distributed)

- Pipelines - категория Orchestrations (scheduler/cron для выполнения ETL jobs в заданной последовательности aka Direct Acyclic Graph) и Data Observation - для мониторинга качества данных

- Practitioners Apps - WTF? Тут и MLOps и data centric AI/ML и ML observability и даже есть dbt в Analytics Workflow категории. А вот BI нету, как так?

- Governance - решения для дата каталогов.

Вообще life-hack для вендоров:
1. Покупаете классный домен
2. Делаете сайт визитку с красивыми графиками/опросами/выводами
3. ChatGPT пишет вам отчет, что ваш тул лучший среди лучших

Хотя, наверно, все и так это делают😅
❤‍🔥7🐳4🌭2🎄2
VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес

Когда: 8 июня, 12:00
📍 Где: Москва
⚡️ Last call: успевайте зарегистрироваться на конференцию для руководителей компаний и ИТ-специалистов разных направлений. Регистрация закрывается 7 июня в 12:00

В программе:

🔹 Как повысить эффективность разработки ИТ-решений с помощью облачных сервисов.
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты проектов.
🔹 Тренды и примеры миграции на российские базы данных.
🔹 Лучшие практики облачной безопасности.
У вас будет возможность задать вопросы экспертам и узнать мнение коллег из других компаний. Не упустите возможность получить новую информацию, сделать свой бизнес эффективнее и повысить безопасность работы в облачной среде.

👉 Зарегистрироваться

#реклама
🌭5🍌4❤‍🔥1🙈1
4 часа и вы в теме! Бесплатные курсы от Deeplearning:

- ChatGPT Prompt Engineering for Developers
- LangChain for LLM Application Development
- How Diffusion Models Work
- Building Systems with the ChatGPT API

Не уверен, что вам это поможет, но трендово же?!
🌚8🍌6❤‍🔥3🍾3
Forwarded from Книжный куб (Alexander Polomodov)
Путь аналитика. Практическое руководство IT-специалиста

Лет шесть назад я прочитал эту книгу Веры Ивановой и Андрея Перерва и она показалась мне достаточно неплохой. Плюс книги в том, что авторы довольно структурировано описывает карьерную лестницу аналитика, приводя список требований к каждой из ступенек, а также указывая способы перехода на новую ступеньку. Также в книге есть много указаний на материалы, которые реально стоит изучить. А минусы в том, что ряд моментов, указанных автором, относится к дискуссионным и с моей точки зрения не нужны:) Если говорить про содержание книги, то она состоит из 7 глав, среди которых есть вводная часть, шаги карьерной лестницы аналитика и заключение, а также много примеров и шаблонов в дополнительных материалах
1. Общие понятия
2. Профиль и квалификация аналитиков
3. Младший аналитик
4. Аналитик
5. Старший/ведущий аналитик
6. Начальник отдела анализа
7. Итак

Итого, книга показалась мне полезной для прочтения любому, кто идет или планирует идти по этому пути аналитика.

#SoftwareDevelopment #Software #Analyst
🐳19❤‍🔥7🌚5
7 июня пройдёт Alfa Analyze IT Meetup — встреча для системных аналитиков. Основные темы и спикеры:

🎯 Как аналитику проще погрузиться в архитектуру?

Борис Пишванов и Михаил Салахов, Solution-архитекторы из Альфы, расскажут, почему может твориться «дичь» на проекте и как из неё приготовить «шашлык»

🎯 Как вести фронтовую документацию рядом с кодом

Игорь Савинов, System Analyst, поделится тем, как ведется документация в Альфа-Банке, какие проблемы приходится решать

🎯 Метрики эффективности процессов системного анализа

С Сергеем Воробьевым, Head of Efficiency Development в Альфе, разберёмся в процессах погружения в компетенции

🎯 Куда расти системному аналитику?

Юлия Лебедева, Competency Lead в Сбере, Анатолий Олейнер, Software Architect в СИБУР диджитал и Иван Стефу, Product Owner в Альфа-Банке обсудят пути развития для аналитиков

Когда: 7 июня в 18:30
Где: Москва, пр-т Андропова, 18, к. 3 или подключайтесь онлайн

Регистрируйтесь, чтобы не пропустить! Количество мест ограничено.

#реклама
🌭6❤‍🔥3🌚1
Аналитика данных - это не только о числах и создании дашбордов. Это о понимании бизнес-контекста, задавании правильных вопросов и интерпретации данных в бизнес рекомендации и решения.

Эффективные аналитики и инженеры обладают сочетанием технической экспертизы, бизнес проницательности и критического мышления, позволяющих преобразовывать сырые данные в пользу для бизнеса.
❤‍🔥58🌚6🗿6🤷‍♂1🌭1