Инжиниринг Данных

Все новое - хорошо забытое старое или как Амазон Видео сократил расходы на 90% и отказался от микросервисной архитектуры и построил монолит.

Хорошо, что в мире хранилищ данных с этим проще. Мы конечно можем построить serverless озеро данных и использовать AWS Lambda в качестве ETL event-driven инструмента, но хз что из этого получится в long term.

PS из всего многообразия с которым я работал, самый удобный это Snowflake, вот реально вообще голова не болит про административные задачки. Правда ценник 120К USD в месяц, но зато работает хорошо, иногда долго, но работает и не ломается.

Think Machina

Monolith Strikes Back: PrimeVideo Slashed Costs by 90%

The monolith: the ultimate solution to lower cloud costs?

❤‍🔥11🐳6

7.43K viewsDmitry, edited 21:19

Инжиниринг Данных

Товарищ высказался по поводу нехватки тренингов в области Self-Service BI.

Достаточно просто начать использовать BI решение для простых задач, но когда начинается рост, тут уже начинаются проблемы. Из-за не знания best practices инструмент используется неправильно и не эффективно.

Так же он заметил, что раньше компании покупали продукт и поддержку/тренинги, чтобы эффективно внедрять, а теперь все экономят.

Да и вендоры, тоже экономят на этом поприще, показывают нам простые примеры и красивые дашборды, но ни слова про серьезное использование для большой организации.

Как у вас с этим?

🐳11💅4🤷‍♂3🗿1

7.1K viewsDmitry, 17:18

Инжиниринг Данных

Очень хорошо замечено. Но мне кажется это относится к full time job, когда вам платят за 40 часов и вы должны работать часов 30 макс в неделю, но вы работаете 60-70 часов в неделю. Тут нужно аккуратно.

Это возможно в начале карьеры, чтобы опыта набраться, но когда есть опыт и вы наивно полагаете, что вам прибавят зарплату и повысят вас, то тут вы уже очень наивны и неопытны.

Но есть и другая сторона медали. Одно дело если у вас уже жизнь устроена и вы гонитесь пытаетесь достичь чего-то в ущерб семье и детям, а совсем другое, если у вас ничего нет, и вам нужно "кормить" семью, оплачивать обучение, да еще и тянуть ипотеку. Так что может быть через 20 лет лучше вспоминать как вы работали много в своей недвижке, чем "сосать лапу" на съеме и сводить концы с концами.

А может быть есть золотая середина - работаь мало, получать много, и куча времени на семью. Это наверно про джедайские техники=)

🌭41❤‍🔥24🤷9

7.39K viewsDmitry, 05:37

Инжиниринг Данных

Старый мем! Если у вас не было такого в карьере, что вы сломали прод, то считайте у вас еще не началась карьера🙈

Хотя сейчас Snowflake, Databricks (Delta Lake) и многие другие дают возможность делать UNDROP таблицы с фичей Time-Travel... Конечно если вы не ищете путей урезать косты, и первое, что вы урежете Time-Travel.

Я сам сейчас играюсь с 🔥 продом, запустив s3-dist-cp на проде, и натравил на папку, где 900гб логов, чтобы их архивировать, AWS EMR не смог... На вопрос менеджера, мы ничего не потеряли - я ответил - ничего. А что еще можно ответить, я же не проверял сколько было файлов/даты, сколько стало🫣

Так что совет от бывалого, делайте всегда бекапы, тестируйте на UAT/DEV среде, чтобы нервы беречь, или имейте как кошка несколько жизней, это я про работы😉

🫡50🙈18👻7❤‍🔥3🍌1🍾1

8.66K viewsDmitry, 11:22

Инжиниринг Данных

VK Cloud Conf: как перенести лучшие практики разработки ИТ-компаний в классический бизнес

⏰Когда: 8 июня, 12:00
📍Где: Москва и онлайн
⚡️ Регистрация

Каждая российская компания, которая стремится к росту, вынуждена развивать собственную разработку.
На VK Cloud Conf эксперты VK и крупнейших российских компаний поделятся опытом организации разработки, работы с данными и информационной безопасности в облаке.
Вы узнаете, какими инструментами и подходами можно сократить время вывода новых разработок на рынок. Спикеры обсудят архитектуру современных аналитических систем.

В программе:

🔹 Как повысить эффективность разработки с помощью облачных сервисов
🔹Подходы к работе с данными: примеры масштабных дата-решений, особенности и результаты
🔹 Тренды и примеры миграции на российские базы данных
🔹 Практики облачной безопасности в условиях требований к конфиденциальности данных
Конференция будет полезна руководителям компаний и ИТ-специалистам разных направлений.

👉 Зарегистрироваться

#реклама

🗿10🐳7🙈7🦄5👾3🫡2🍌1🍓1

9.77K viewsDmitry, 14:05

Инжиниринг Данных

Forwarded from Это разве аналитика?

😂😂😂 хорошего начала рабочей недели 😂😂😂

❤‍🔥122🫡39🦄9👻8👾5😈1

7.05K viewsDmitry, 06:14

Инжиниринг Данных

Меньше чем через 10 минут будет KeyNote CEO Microsoft про новые аналитические решения и возможности! https://register.build.microsoft.com/

9:00 AM (pst) Microsoft Build opening: Satya Nadella shares how Microsoft is creating new opportunities for developers across our platforms in this new AI era.

9:15 AM The era of the AI Copilot: Join Microsoft Chief Technology Officer Kevin Scott and OpenAI President and Cofounder Greg Brockman to explore how Microsoft and OpenAI’s full-stack AI platform, fueled by Azure, the world’s supercomputer, can empower developers, startups, and entrepreneurs to innovate and develop the next generation of AI apps and tools that will make the impossible possible.

10:00 AM Next generation AI for developers with the Microsoft Cloud: Join Microsoft’s Scott Guthrie, EVP Cloud + AI, as he discusses how Microsoft is making AI innovation real for developers today with experiences like GitHub Copilot, Azure’s OpenAI Service, and the Microsoft Cloud platform and tools you need to produce next-gen, AI-infused applications.

Microsoft Build

Connect, code, and grow at Microsoft Build. This is your moment to collaborate, and problem solve with your peers, refactor your skills, and experiment with available code snippets—all in Seattle, May 19–22.

❤‍🔥9

7.01K viewsDmitry, 15:55

🆕 Yandex Cloud добавила новый режим работы в Yandex DataSphere — Dedicated

Yandex DataSphere — это сервис для полного цикла машинного обучения, в котором есть все необходимые инструменты для разработки и интеграции с другими облачными сервисами.

Что открывает выделенный режим Dedicated:
— возможность зарезервировать виртуальную машину в облаке под свой проект и работать с ней сколько нужно;
— ускорение работы моделей машинного обучения для задач по анализу данных.

Что ещё изменилось в Yandex DataSphere:
— режим Serverless остаётся, вы также можете его выбрать и оплачивать вычислительные мощности только во время реального обучения;
— появилась новая версия Jupyter Notebook, это популярный редактор кода для ML-разработки. Обновили интерфейс и добавили предустановленные расширения.

Все подробности можете узнать по ссылке, а обсудить в сообществе разработчиков и аналитиков Yandex DataSphere➡️

#реклама

🗿15🫡7🍌4💯1

6.51K viewsDmitry, edited 17:18

Инжиниринг Данных

Встречайте - новый аналитический продукт - Microsoft Fabric. Что же это такое? Я могу рассказать свое видение этого продукта.

Прежде всего, давайте вернемся в прошлое. Давным-давно у Microsoft была линейка продуктов:
- Microsoft SQL Server - классическая база данных, которая служила и хранилищем данных, и backend OLTP базой
- Integration Service - классический ETL инструмент с UI
- Analysis Service - приложение для кеширование данных SQL Server (SQL запросов) в кубы - MOLAP, чтобы ускорить работу с отчетностью, идеально для кросс таблиц и Excel. И язык там MDX.
- Reporting Service - сервис для отчетных форм.

Так было в 90х и даже многие сейчас это используют - on premise.

Потом появился Tableau, и задал всем жару. Оказывается BI может быть не ИТ. Где-то в 2015 году я впервые услышал про Power BI (в Виннипеге, но так и не попал на бесплатный тренинг от Майкрософт. Вообще недавняя травма от работы со списком продуктов Microsoft выше еще не прошла, и меня немножко передергивало от слово Microsoft BI... (сейчас немного лучше, но все равно, не мое)

Потом все люди бросились внедрять облачное хранилище данных Amazon Redshift (внутри до сих пор живет postgres) и мигрировать "шкафы" Терадата, Нитиза и Экзадата в облако.

Azure довольно долго раскачивался. И потом родил Azure SQL Data Warehouse - это ответ Redshift и уже появился Snowflake c decouple Compute и Storage. Внутри был (и есть) SQL Server, но теперь его аж 60 инстансов (может быть логических, а может быть физических).

Спарка у Microsoft не было, и они решили запилить супер популярный AWS Databricks на облаке Azure -> Azure Databricks. И это был (и есть) очень успешный продукт. Он в разы лучше стандартного BigData решения на HDInsight (Managed Hadoop) + Spark/Hive.

Потом Microsoft понял, что жесть какая-то в конфигурации всех сервисов вместе - Azure SQL DW, Data Factory, Power BI. Да и вообще SQL победил в мире аналитики и BI и 90% аналитических решений стало строится на SQL flavour. Ну и конечно dbt хорошо всем зашел, чтобы наложить бизнес логику на SQL и закинуть в репозиторий.

В ноябре 2019 выпустили Synapse Analytics - это такой зонтик (workspace), в котором мы один раз залогинились и у нас доступ ко всем сервисам. Заодно вышел Synapse Spark (с поддержкой .net🤯).

Вроде как помогло устаканить решения Хранилищ Данных и Озера данных. Так же Microsoft не стал изобретать велосипед и взял за основу lake house - delta lake (как у Databricks). Таким образом еще один стандарт закрепился. Уже в 2021 Майкрософт сказал всем внутри валить с Databricks на "сырой Synapse" - это называется использовать "dog food", то есть внутренняя бета, с кучей проблем. Зато страданиями своих сотрудников в результате получается нормальный продукт, иногда😜

И несмотря все эти трансформации, Power BI не очень уж дружил с Data Warehouse, и особенно Delta Lake. А еще есть Azure Data Explorer для real time analytics.

И они потратили почти 2 года на next step в эволюции своего решения, то, что сегодня вы могли лицезреть на Microsoft Build - релиз Microsoft Fabric, то есть полная интеграция аналитических сервисов в интерфейс Power BI Service. Теперь всё там, кто-то уже писается кипятком, и лента в LinkedIn завалена новостями об этом. А еще объявили об использовании Co-pilot для рисования графиков Power BI в стиле ChatGPT.

Несмотря на мое отношения ко всем продуктам Microsoft, можно сделать выводы:
- Power BI комьюнити самое сильное в мире и возможно база пользователей тоже опережает все другие вендоры

- У Microsoft много инженерных и продукт ресурсов для создания новых решений и двигать индустрию вперед. Возможно они отталкиваются от пользователей Power BI, Excel (их большинство), а они хотят мечту любого аналитика - делать все и сразу из BI инструмента, ну вот и результат, теперь аналитик может все!

- В продолжение "может", теперь аналитик может сжечь столько денег в Azure, что год назад это было практически нереально😂

- На фоне таких больших обновлений в Microsoft, другие BI решения сильно отстают и уже реально в Gartner им не догнать.

Docs

What is Microsoft Fabric - Microsoft Fabric

Microsoft Fabric is an all-in-one analytics solution that covers everything from data movement to data science, real-time analytics, and business intelligence.

❤‍🔥31🗿5👻3

7.47K viewsDmitry, 06:12

Инжиниринг Данных

- А вот с точки зрения (моей) как инженера, сделать такой "уникальный продукт", который дает 100% контроль аналитикам ко всей инфраструктуре - ну такое. Будет очень много confusing. Ну может я просто уже "динозавр" и не могу свыкнуться с мыслью, что вот парой кликов могут заменить инженера данных. Но продают красиво! Прям получается Фабрика Звезд аналитики.

- Иконки новые классные, в стиле Windows 11.

Вот вам несколько ссылок:
Introducing Microsoft Fabric - классный пост от PM в его блоге.

Modernize your Enterprise Data Warehouse & generate value from data with Microsoft Fabric - видосик с выступления

What is Microsoft Fabric? - официальная документация.

Ну посмотрим как пойдет. С точки зрения продаж все будет чики пики. Ведь Microsoft используется во многих компаниях S&P500, и там решения по внедрению спускаются сверху. Скажу делать Фабрику, значит Фабрику. Не на тра***** c Synapse, теперь вот на новый заход с Fabric🥴

Пишите ваше мнение в комментах! Ну и не забывайте присылать ссылки на Вальдберис на супер дилсы где все по 1 рублю!

BI Polar

Introducing Microsoft Fabric

This week at Microsoft Build, we announced the future. With an introduction like that, I should probably remind everyone that this is my personal blog, my personal perspective, and my personal opin…

❤‍🔥25🐳3🌭1

7.87K viewsDmitry, 06:12

Инжиниринг Данных

Семён, у которого есть труба данных (жалко не нефти), расшарил классный пост с конференции dbt - "Excel at nothing: How to be an effective generalist", где товарищ рассказывает, что он особе нигде не эксперт, но всего понемножку знает и чувствует себя очень хорошо, и не хочет быть менеджером.

Я полностью поддерживаю такой подход и видения успешного Individual Contributor, который может въехать в любую тему и технологию и приносить пользу бизнесу с 1го дня. И действительно в моем случае все хорошо и с оферами и с 💸.

А как у вас?

Труба данных

Про дальнейшее развитие

https://www.youtube.com/watch?v=wB0ulHmvU7E

Классический вопрос, который мне задавали нескольких последних карьерных консультациях: а что дальше то делать? Куда дальше идти? Куда движется индустрия?
Типичная проблема: IC (расти в…

🫡17❤‍🔥10🗿3🐳1

7.08K viewsDmitry, 15:33

Инжиниринг Данных

https://children-of-ai.florian-douetteau.com/

Florian-Douetteau

The Children of AI

As creators of artificial intelligence, what future are we leaving for our children?

6.73K viewsDmitry, 03:30

Инжиниринг Данных

🙈37🐳16🍌6❤‍🔥4😈2🎄2🌚1🍾1👨‍💻1

7.25K viewsDmitry, 06:59

Инжиниринг Данных

👾21🍌3🤷‍♂2👻2🌚1

6.86K viewsDmitry, 13:58

Инжиниринг Данных

Нормально компании свои отзывы редактируют. Сначала увольняют несколько тысяч человек, потом бедняги пишут отзывы на Glassdoor, рейтинг компании падает. Потом приходит HR, ставит новый Target поднять рейтинг на 3+, и начинают чистить и лепить левые отзывы. 🤬

Pragmaticengineer

Layoffs push down scores on Glassdoor: this is how companies respond

Several tech companies face a fresh problem after cutting jobs: their rating on Glassdoor nosedives. But there’s a way they manage to fix this. I show what companies are doing - and why.

😈29🐳6🗿4🤷2

7.02K viewsDmitry, edited 19:26

Инжиниринг Данных

Станьте специалистом широкого профиля в работе с данными — научитесь разрабатывать архитектуру данных на курсе Яндекс Практикума.

Выпускники смогут:
◾️ проектировать хранилища и пайплайны;
◾️ использовать инструменты DE: оркестраторы, контейнеры и не только;
◾️ работать со стриминговой обработкой данных и облачными хранилищами;
◾️ создавать хранилища Data Warehouse и Data Lake.

Что будет на учёбе:
— Реальные рабочие задачи и командные проекты.
— Код-ревью и персональные советы от действующих инженеров данных.
— Вебинары и продакшн-опыт от экспертов в инженерии данных.

→ Приходите учиться, если хотите развить свои компетенции или перейти на должность Data Engineer.

#реклама

🗿43❤‍🔥6🌚4🍾2💅2🍌1

7.03K viewsDmitry, 06:59

Инжиниринг Данных

Один из самых главных экспертов по Табло мирового уровня Andy Kriebel (конечно после Романа Бунина) создал свой сайт и учит как создавать классные визуализации.

Today 400 people got access to over 100 tips for building charts and mastering the fundamentals of Tableau .

Grab them here. Sign up for my newsletter and click the Past Issues button.

You’ll get future tips delivered straight to your inbox every Friday.

❤‍🔥34🌚3😈2

8.11K viewsDmitry, 15:39

Инжиниринг Данных

Канада для многих выглядит очень привлекательной страной для иммиграции и жизни. Отличное видео (правда на английском) - Cost of life and Software Engineer Salaries in Canada но с понятным акцентом👌 - если кратко то "Канадская мечта" - это какой-то скам. (про это вы узнаете из видео, почему автор так считает).

Всем рекомендую посмотреть, особенно если вы недавно приехали или собираетесь. Я подтвержу каждое слово автора, я примерно сам в таких условиях лет 5 жил, одно мне повезло, что недвижка 7 лет назад стоила на 60% дешевле, и человек работающий в ИТ со средней зарплатой мог себе позволить, что-то купить недалеко от города.

🍓12🙈10🍌5❤‍🔥2🐳2🗿1

7.88K viewsDmitry, 21:44

Инжиниринг Данных

Очень хорошая статья про Microsoft Fabric. И как заметили в комментариях, fabric это не про фабрику, а про слои "ткани". Фабрика это у нас было про data factory...

Вот так вот незаметно прошли 8 лет в англоговорящей стране, где кроме data/IT терминологии, ипотечной и кредитной терминологии мои познания иностранного языка заканчиваются😅 Обычно в сложных вопросах языка я консультируюсь с детьми.

Вот отличная статья в человека, который создавал Mode - Microsoft builds the bomb.

Он очень классно рассмотрел плюсы и минусы этого продукта, и один из выводов:

Moreover, even if Microsoft’s execution isn’t perfect, Fabric still presents one new danger to the modern data stack: It gives buyers an integrated alternative. To this point, the only unified data platforms have been legacy ones, and the only modern data platforms have been fragmented. We haven't seen just how much—or how little!—data teams are frustrated by that fragmentation, since it's been part and parcel of products that are SaaS-based, cloud-first, and at least gesture towards a consumer-grade user experience. Fabric changes that.

Действительно и Synapse и Fabric убирают много головной боли для ИТ и руководителей.

The choice is no longer legacy versus modern, but all-in-one versus best-of-breed. Place your bets, I suppose.

То есть теперь можно выбрать решение, которое "все в одном" или выбирать отдельные элементы и городить уже свое.

Так же он хорошо заметил, что у Microsoft отличные отношения с СIO крупнейших компаний, и они уже активно продают идею unified платформу, которая изначально была у Databricks, но там был только DE+ML. А тут весь Azure Cloud под боком.

Мое мнение - как часто бывает с новыми продуктами Microsoft - реальный опыт внедрения окажется не такой радужный. Посмотрим, как пойдет. И ждем ответки от AWS, Google.

benn.substack

Microsoft builds the bomb

What Fabric is, and what I want it to be.

🍾4🦄2❤‍🔥1💅1

7.14K viewsDmitry, 15:30

Инжиниринг Данных

DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции

Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL

В этом видео вы узнаете про:

📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed vs Unmanaged
📌 Примеры SQL запросов в PySpark
📌 Кеш в Spark
📌 Результат SQL запроса в DataFrame и наоборот
📌 Пример работы с различными файлами в Spark - Parquet, CSV, JSON, AVRO, ORC
📌 Пример использования Spark для бинарных файлов и изображений
📌 Функции и операции Spark
📌 UNION, JOIN для DataFrame
📌 Window Functions
📌 UDF
📌 Партиционирование данных и оптимизация с командами coalesce, repartition.

В качестве лабораторной работы вам нужно будет выполнить все запросы из примеров в CLI и Databricks.

YouTube

DATALEARN | DE - 101 | МОДУЛЬ 7-5 SPARK SQL и SPARK функции

Мы уже познакомились с Spark и писали запросы с помощью PySpark, так сказать Python flavor. А теперь мы посмотрим на Spark SQL

В этом видео вы узнаете про:

📌 Методы SparkSession для работы с SQL
📌 Как создавать таблицы и вьюхи
📌 Виды таблиц - Managed…

❤‍🔥63🫡10🌭1

7.86K viewsDmitry, 23:44

Инжиниринг Данных

Годами у меня вырабатывался рецепт быстрого входа в профессию. Вы спросите в какую профессию? Я точно не люблю использовать такие слова как BI инженер, дата инженер, аналитик и тп, потому что когда вас берут на работу в 80% случаях они сами не знают как должна называется ваша должность, и что вам нужно будет делать. называю это модным западным словом Individual Contributor (IC) в области связанной с данными. Именно про это этот канал, datalearn.

Для успешного data IC, вам нужно:
- Понимать зачем аналитика и данные
- Как можно использовать данные, чтобы помогать бизнесу/продукту двигаться вперед

- Понимать как выглядит типичная data команда, что они делают и как помогают бизнесу в измерении эффективности
-
Знать 5-10 метрик показателей и что вообще такое метрика? Вот есть у вас таблица с данными, как из нее получить метрику? Лучший книга для этого Lean Analytics. Закроет вопрос метрик и показателей навсегда

- Понимать какие форматы данных бывают и уметь с ними работать (всего можно 3 знать CSV, JSON, PARQUET)

- Знать SQL отличное - главный технический навык для работы с данными

- Уметь грузить данные в БД (база данных) и выгружать из БД (как угодно) - это и есть ETL, и конечно же трансформировать эти данные внутри БД (это и есть data pipeline или ETL Job), а последовательность data pipelines/etl jobs называется Direct Acyclic Graph (DAG)

- И если вы вдруг будете выгружать/загружать, то неплохо бы поставить это дело на расписание - data orchestration/scheduler

- Не боятся слово КОД, SQL это тоже код. Это всего лишь инструкции для машины и chatGPT вам на пальцах расскажет про любой код

- Ну само собой вам будет легче писать запросы, формулы, и разбираться в чужом коде с chatGPT (ваш настольный ассистент), к сожалению многие еще не используют его

- Не боятся командной строки и знать 10-15 основных команд (навигация, текстовый редактор)

- Выбрать одну IDE (редактор кода) и привыкнуть к нему - из бесплатных самый лучший Visual Code

- Знать один BI инструмент достаточно хорошо и уметь подключаться к БД

- На вопрос - Почему медленно работает и как решить проблему отвечать нужно посмотреть план выполнения запроса, то есть понять как получить тот самый план выполнения SQL запроса для вашей БД и как его можно интерпретировать с помощью google/chatgpt

- Обязательно версионность кода в Git (GitHub, GitLab, Azure DevOps). Самые простые вещи Branch, Merge, Commit, Code Review

- Простое резюме в google doc,

Конечно можно список расширять вширь и в глубь. Я постарался написать самый минимум. Python не стал указывать, так как упор на SQL. Одновременно Python и SQL будет сложно с 0. Да и много профессий, где можно без coding skills.

Если говорить про ТОП3:

1. SQL
2. Business Domain
3. BI

То есть если вы сможете на собеседовании внятно объяснить как вы помогали бизнесу с помощью данных:
- Повышать прибыль
- Понижать расходы
- Избегать рисков
- Исследовать новые фичи\продукты\рынки

То этого будет достаточно чтобы получить хорошую базу и уже выбрать куда развиваться. Кто-то хочет быть программистом, кто-то продукт менеджером, кому-то нравится заниматься интеграцией данных и создание платформ данных и тп.

Можете в комменты покидать ваши ТОП3 скила для успешного входа в профессию.

Ах, самый главный скил - "приукрашивать" и "сочинять". Обязательно прочитайте книгу Фантазёры Николая Носова, вот вам нужно будет прокачать этот навык, чтобы ваши первые 20 собеседований прошли успешно🦥

❤‍🔥173🫡30🙈4🐳3🍓3👻3😈2

10.1K viewsDmitry, edited 17:32

About

Blog

Apps

Platform