Инжиниринг Данных
23.5K subscribers
1.98K photos
56 videos
192 files
3.2K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
⚡️ CockroachDB vs YDB vs YugabyteDB

Нашли ультимативный гайд по базам данных на английском языке.

В статье 🇬🇧
• исследование БД на основе популярного бенчмарк-теста YCSB;
• «сравнение яблок и апельсинов» или небольшая ретроспектива в историю исследований баз данных SQL;
• проверка производительности БД на разных сценариях.

Есть ли одна лучшая СУБД SQL, узнайте по ссылке 😉

#реклама
🗿8👾4❤‍🔥2🌚2🐳1🍾1
Хорошая статья на обзор продуктов для сбора событий внутри продукта - Amplitude, Mixpanel, Heap - Leaving product analytics - an analysis of the current state of product analytics and beyond

What is product analytics (in a nutshell) -

an approach to understanding how users or accounts use a digital product? With a focus on feature usage, cohort analysis, and based on retention. Product analytics is based on event data that is sent when users or systems perform a specific action. (ok, that is really short). But it has the important ingredients that we need in the next steps.

Лично для меня продуктовая аналитика - это самый интересный аспект работы. Общение в основном происходит с продукт менеджерами, как правило, они все очень проактивные и result oriented. Всегда есть понимание задачи, фичи, и как это дело измерять. Как правило задачи очень схожи вне зависимости от продукта.

А если вы еще прочитаете книги - Escaping the Build Trap: How Effective Product Management Creates Real Value и Lean Analytics то будет совсем замечательно.

Но есть одно НО, даже в этой статье. Прослеживается желание использовать продукт для продуктовой аналитики как главный источников для всех данных и insights. Даже в статье автор пишет, что хочет BI и Data Warehouse встроенные в продукт, наивный.
❤‍🔥13
Замечательно!

Чтобы бизнесу быть успешным, нужно понять кому и как много нужно врать. И ответка - когда мы ищем работу, тоже надо решить - кому и как много врать.

На честности далеко не уехать, точнее много не заработать.

А хотите быть хорошим(ей), тогда можно собак бездомных покормить, или помочь какой-нибудь no-profit организации.

Я вот в школу к детям хожу, coding преподаю, видео курсы записываю. Там я могу быть честным🦥
❤‍🔥45😈13🐳6🙉5🌚3
26 Июня в Лас Вегасе - Snowflake конференция. Путевку мне купили и я записался на следующие треки:

27 June
WN211A: What's New: Apache Iceberg in the Data Cloud
DE206: Fast Ingest with Snowflake
WN201A: What's New: Snowflake Compute Infrastructure
MD206: Architecture Patterns with Snowflake
DE208A: Data Engineering with Python in Snowflake
OS207A: Best Practices for Snowflake's Native Cost Optimization Capabilities
DE200A: Hands-On Lab: Data Engineering Pipelines with Snowpark Python


28 June
AA111: Bringing Trust in Data to the Center of the Room with dbt and Druva
ML106: Hands-On Lab: Getting Started with Snowpark for Machine Learning on SageMaker
MD221: Build an Intelligent Data Mesh with Snowflake and Ascend
AD306: Managing Change: DevOps in Snowflake
DE305: Near Real-Time Ingestion and Transformation on Snowflake
WN207B: What's New: Machine Learning with Snowflake (Repeat)

29 June
WN208B: What's New: Streaming with Snowflake (Repeat)
MA208: Snowflake on Snowflake: Supercharge Marketing Analytics with Snowflake and Streamlit
DE209: Building Pipelines with Dynamic Tables
DE218B: Hands-On Lab: Using dbt to for Analytics and ML-Ready Pipelines w/ SQL & Python
DE308: Orchestrating Data Pipelines with Snowpark dbt Python Models and Airflow Technical Deep Dive

Последний раз был на такой party в 2017 году, тогда после Night Data Party хотел за кеш купить лицензию Табло.🥴
❤‍🔥25🐳3👨‍💻1
Вот рекомендация книг в 2023 году! (взял в LinkedIn). Такое впечатление, что хорошие книги перестали писать, и все постят книги 10 летней давности.😒
🍌25🐳9🤷‍♂7🗿6❤‍🔥3
Я почти целый года работал с Microsoft Synapse (Dedicated Pool and Serverless), Azure Data Explorer (real time analytics) и занимался подготовкой к релизу Microsoft Fabric.

Я все время скучал по Databricks. И вот я снова работаю с Databricks вместо Synapse. Кстати узнал, что Synapse Spark Pool прям совсем не пошел, походу только S&P500 мучаются с ним из под палки. Сейчас снова изучаю тренинги как "класть кирпичи"👌
👨‍💻11❤‍🔥8🗿5
Отличная библиотека генерить фейковые данные для вашего демо решения, можно как Streaming, так и Batch. Вот вам и pet project с dbt, airflow, clickhouse, ну или платные альтернативы.
🍾36❤‍🔥18🐳4🌭3👨‍💻1
#weeklydatanewsdump

Начну с приятного - Xbox покажет Starfield Direct. Игру делала студия, которая делает Fallout, Skyrim и Doom. Кстати аналитику всю делают для этих игр на AWS Databricks + Scala.

Ну а дальше обычные data news.

Uber опубликовал статья - Spark Analysers: Catching Anti-Patterns In Spark Apps - важный аспект, если у вас тысячи пользователей и вы пытаетесь держать руку на пульсе и бороться с "кривыми руками" пользователей. Убер большой и может себе такое позволить.

Snowflake очень, я бы даже сказал очень-очень, активно продвигает Snowpark, стирая границы между традиционным хранилищем данных и big data решениям с Hadoop, Spark, Hive и тд - Snowpark: Designing for Secure and Performant Processing for Python, Java, and More. Да и по конференции снежинки можно заметить, что очень много тем завязано на Snowpark.

У Microsoft Fabric есть своя страница, где публикуются все новости. После недавнего релиза, я вижу, что количество проблем измеряется 1000 к одному, где на 1000 вопросов\проблем по Power BI (главный интерфейс fabric) приходится один про Data Factory, Synapse DW, Data Explorer). Я именно такого и ожидал, пользователям Power BI еще долго будет не понятно, че за на 😵 Мне кажется не готов мир еще к такому чудо продукту.

Пост про data modelling - The Data Modeling Divide. Тема с 80х и циклично появляется и пропадает.

Вышла книга - Data Modeling with Snowflake от SQLDbm (облачный продукт для моделирования хранилищ данных, у которого дела пошли в гору после партенерства со Snowflake). Ребята классно проводят время в San Diego и очень прикольно за ними наблюдать. Хочу отметить, что это один из немногих стартапов, который не искал внешних инвестиции, seeds, rounds и тп. Так как понимали, что за этим кроется, и у них все классно и без внешних вливаний. Обязательно с ними встречусь вживую на конференции, до этого только переписывались. Я про них еще писал в 2018 году в книжке jumpstart snowflake.

Еще одна замечательная вещь про Snowflake - вы можете детально смотреть на стоимость запросов и искать узкие места, все данные для этого есть - Calculating cost per query in Snowflake

Компания Checkout рассказывает как используют dbt+snowflake - Building dbt CI/CD at scale

Если вы используете Clickhouse - то вот отличное видео Tips and tricks every ClickHouse user should know

Ну и как не сообщить о релизе SQL:2023
💘24🦄9🐳6❤‍🔥3
📢 Привет, друзья!

Завтра (12 июня) в 20:00 по мск вебинар.

🎯 [Тема вебинара]: Game Changer: Переход из BI в мир игр

🔎 Спикер раскроет перед вами свою новую главу жизни, когда она решила покинуть мир BI и основать свою собственную студию настольных игр. Вы услышите о ее вдохновении, столкновениях с трудностями и экономической стороне ведения бизнеса. И самое интересное, вы узнаете, как ее знания и опыт в аналитике помогли ей успешно применить их в новой и увлекательной сфере.

📌 Ссылка на вебинар: https://youtube.com/live/7byO0N-aIJY?feature=share

До встречи на вебинаре! 💪💼
#вебинар #datalearn
❤‍🔥30🐳5🍾3👾2
Тема Privacy и Compliance достаточно важная. Часто могу спросить на собеседовании про это. У меня ответ просто - в хранилище\озере данных никаких клиентских данных (PII) и точка. Но и возможность удалить нужно клиент по запросы, чтобы соответствовать GDPR. На этом мои познания заканчиваются.

Но тема большая и возможно для руководителей обязательная. Впервые вижу книгу посвященную этой проблеме - Practical Data Privacy

Between major privacy regulations like the GDPR and CCPA and expensive and notorious data breaches, there has never been so much pressure to ensure data privacy. Unfortunately, integrating privacy into data systems is still complicated. This essential guide will give you a fundamental understanding of modern privacy building blocks, like differential privacy, federated learning, and encrypted computation. Based on hard-won lessons, this book provides solid advice and best practices for integrating breakthrough privacy-enhancing technologies into production systems.
❤‍🔥29🙈3🐳2🫡2🍌1
Город засыпает, просыпаются рекрутеры и делают выбор: кто попадет в команду разработки внутренних продуктов.

Мы в МТС любим играть в мафию и проводить One day offer. И подумали, почему бы не совместить эти две активности и заодно найти аналитиков разных профилей. Наша команда развивает сервисы в рамках экосистемы HR Tech. Например, разработка системы управления эффективностью или создание корпоративного портала для сотрудников. У нас амбициозные планы — стать первым цифровым HR с комплексным подходом к разработке и поддержке внутренних продуктов. Но для этого нам нужны настоящие профи.

Готовы участвовать и проверить — вы Дон SQL или мирный аналитик? Кликайте по ссылке и начните игру. Да, нужно успеть до 19 июня
🦄11🙈9🗿3❤‍🔥2👨‍💻2👾1
Попался репозиторий - Coding Interview University, в котором автор делится материалами, как он самостоятельно учился.

8-12 часов в день, несколько месяцев - именно это я всегда говорил в data learn. Нереально въехать в новую профессию, занимаясь 1-2 часа через день.

Поэтому важно поставить себе цель и приоритеты, и тогда будет все с👌, а иначе как в анекдоте ( в комментах)
❤‍🔥48🐳5🗿3🍌1
🍾55🐳9🌚7🗿4😈1
GitHub провел опрос о пользе AI tools для разработчиков и поделились результатами. Результаты позитивные, я полностью согласен, так как уже использование chatGPT заменил google.
❤‍🔥13🌚2
🚀 Хотите узнать, как собирать и анализировать данные в Telegram?

Тогда подключайтесь к бесплатному вебинару 20 июня 2023 года в 12:00.

Мы подробно расскажем и покажем, как с помощью serverless-сервисов реализовать упрощённый пайплайн поставки данных в Managed ClickHouse и визуализировать их в DataLens. На вебинаре:
• мы сделаем обзор serverless-сервисов и DataLens;
• вы узнаете, как решить задачи поставки и визуализации данных, используя связку: Managed ClickHouse, serverless-сервисов, DataLens, — и как реализовать эти задачи на примере аналитики данных Telegram-чатов.

Вебинар будет полезен бэкенд- и фронтенд-разработчикам, DevOps-специалистам, аналитикам и PM-ам.

Вебинар бесплатный — нужна только регистрация.

#реклама
❤‍🔥8🗿31
Пример решения на Azure Databricks для крупнейшего Северо-Американского телеком оператора. Так получилось, что я слегка помогают сразу двум операторам, один на AWS EMR+Spark и витрины в Snowflake, а другой на Azure Databricks (Delta Lake).
❤‍🔥25🗿1
🔥 Главная в России конференция про Kubernetes®

22 июня 2023 года состоится Kuber Conf — конференция для всех, кто работает с Kubernetes®. Вас ждёт 9 докладов, 12 спикеров, 180 минут техноконтента:

➡️ технические доклады, продуктовые обзоры, лучшие практики от разработчиков и экспертов по контейнерным технологиям;
➡️ создание сервисов и решение бизнес-задач с помощью Kubernetes в финтехе, e-commerce, HoReCa и не только;
➡️ неформальное общение с профессиональным сообществом, встреча старых друзей и новые знакомства.

Регистрируйтесь по ссылке, чтобы получить доступ к онлайн-трансляции Kuber Conf’23!
🙊5🐳2
Я решил изучить Emacs, стал читать книгу Harley Hahn's Emacs Field Guide

И в первой главе сразу:

Generally speaking, here is what we can say about the type of people who like to use Emacs (and because you are reading this book, I am assuming that these three statements apply to you):

1.  Emacs users are smart.
2.  Emacs users like to use computers.
3.  Emacs users enjoy teaching themselves how to use complicated, powerful tools.

Ну вы поняли😎

PS Emacs — один из наиболее мощных и широко распространённых редакторов, используемых в мире Unix. По популярности он соперничает с редактором vi и его клонами. В зависимости от ситуации, Emacs может быть:

- текстовым редактором;
- программой для чтения почты и новостей Usenet;
- интегрированной средой разработки (IDE);
- операционной системой;
- всем, чем угодно.

Всё это разнообразие достигается благодаря архитектуре Emacs, которая позволяет расширять возможности редактора при помощи языка Emacs Lisp. На языке C написаны лишь самые базовые и низкоуровневые части Emacs, включая полнофункциональный интерпретатор языка Lisp. Таким образом, Emacs имеет встроенный язык программирования, который может использоваться для настройки, расширения и изменения поведения редактора. В действительности, большая часть того редактора, с которым пользователи Emacs работают в наши дни, написана на языке Lisp.

Первая версия редактора Emacs была написана в 70-х годах 20-го столетия Richard Stallman (Ричардом Столманом) как набор макросов для редактора TECO. В дальнейшем, уже будучи основателем Фонда Свободного программного обеспечения Free Software Foundation и проекта GNU, Столман разработал GNU Emacs в развитие оригинального Emacs и до сих пор сопровождает эту программу.
(источник https://alexott.net/ru/writings/altlinux-emacs/#sec1 - самое интересное, что я общался с этим человеком, когда внедрял Databricks в Xbox, а теперь мне Bing выдал его пост сверху)

PPS Классное выступление How Emacs made me appreciate software freedom
❤‍🔥11🌚6💘1🦄1
Оказывается в Ванкувере проводится крупнейшая конференция - EEE/CVF Conference on Computer Vision and Pattern Recognition 2023 о которой я узнал из канала эйай ньюз

Автор канала Артем оказался в Ванкувере и после нескольких сообщений получилось организовать классную встречу на крыше с шикарным видом и bbq в самом центре Ванкувера на которую пришли все желающие среди его подписчиков.

Несмотря на то, что некоторым не продали алкоголь😜, мы отлично провели время, обсуди непростую жизнь иммигрантов и ИТишников, зарплаты, жизнь в Европе/Северной Америке и много другое.
❤‍🔥33🍌8🐳6🌚2
📊 Любопытный кейс Fix Price с аналитикой данных о продажах.

Долгое время команда Fix Price использовала платформу с ассоциативной архитектурой. Данные обрабатывали в оперативной памяти. Поняли, что много времени тратят на построение витрин данных — по три часа в день.

Изменили подход к построению структуры данных и внедрили СУБД на базе ClickHouse с предварительной обработкой xml-файлов с помощью Yandex Cloud Functions. Результат — теперь на один отчет тратится несколько секунд 🤩

Подробности по ссылке.
🦄18🗿8🙈6❤‍🔥2🍾1