Инжиниринг Данных

Привет!
Видел кстати какую штуку сделали по зарплатам? Там DE есть отдельно тоже, одна из самых оплачиваемых блин позиций! Я прям удивился.

3.42K viewsDmitry Anoshin, 16:57

Инжиниринг Данных

Готовлю модуль 6.2 - про введение в аналитические хранилища данных. Можно все уложить в 3-4 слайда, но я немножко покапался в гугле и нашел очень классный документ, который считается 1й статьей в журнале IBM в 1988 году:

The data warehouse concept started in 1988 when Barry Devlin and Paul Murphy published their groundbreaking paper in the IBM Systems Journal.

А вот и ссылка на документ http://altaplana.com/ibmsj2701G.pdf

PS огромное спасибо Сергею (@erfolg5862), он уже сделал офигенные лабы:
- для 6.2 (на базе виртеальной машины терадаты, куда нужно будет загрузить данные, и потом вы узнаете про data skew, statistics и главное поковыряетесь с сетевыми настройками и командной строкой)
- для 6.3 (про Redshift, где вы создадите кластер редшифта, загрузите данные и будете использовать техники оптимизации запросов, и еще будет интересный проект по миграции on-premise dw на cloud dw redshift)

Все это дает офигенный опыт Сергею и ему будет, что рассказать на собеседовании, будьте как Сергей😋

3.36K viewsDmitry Anoshin, edited 21:59

Инжиниринг Данных

Архитектура DW в 1988 году

3.28K viewsDmitry Anoshin, 21:59

Инжиниринг Данных

Ракеты у Безоса отменные, летают туда и обратно (я про космос). Теперь можно даже сувенир купить. Скоро будут шейные массажёры продавать на Амазон в форме ракет☺️

The Verge

Celebrate Jeff Bezos’ big day out to space with a $69 miniature dick rocket

Thank you capitalism!

3.43K viewsDmitry Anoshin, edited 02:19

Инжиниринг Данных

Обожаю эту картинку, жизненно. Дата команды фигачут дни напролет, строют платформы, отчеты и модели. Кому? Зачем? Для чего? Зато резюму получается красивое😎

3.8K viewsDmitry Anoshin, 03:13

Инжиниринг Данных

На 5 модуле про облачные вычисления я рассказывал про безопасность облачных решений и про security shared responsibility, которая нам говорит, что часть ответственности на клиентах, а другая на вендоре. В зависимости от service model (IaaS, PaaS и SaaS) это по разному. У SaaS считается самая высокая ответственность за безопасность на вендоре. Но это не спасает. Во всех новостях сегодня информация про SaaS NoSql базу данных Cosmos DB https://www.reuters.com/technology/exclusive-microsoft-warns-thousands-cloud-customers-exposed-databases-emails-2021-08-26/

Reuters

EXCLUSIVE Microsoft warns thousands of cloud customers of exposed databases

Microsoft on Thursday warned thousands of its cloud computing customers, including some of the world's largest companies, that intruders could have the ability to read, change or even delete their main databases, according to a copy of the email and a cyber…

3.34K viewsDmitry Anoshin, edited 17:19

Инжиниринг Данных

У вас есть хорошая возможность поднабраться нового опыта на бесплатном воркшопе от Azure Synapse - Azure hands-on webinar series
Data Engineering with Azure Synapse

Microsoft

Data Engineering with Azure Synapse

In this webinar, we’ll be 100% hands-on as we dive into Azure Synapse together to build scalable data pipelines.

3.31K viewsDmitry Anoshin, 18:01

Инжиниринг Данных

Серьезный материал от Databricks - как построить аналитическую платформу из 4х частей, сумарно 8 часов:
How to Build a Cloud Data Platform
Part 1- Architecture
Part 2 - ETL Processing
Part 3 - Structured Streaming
Part 4 - Machine Learning and Business Intelligence

Минимум любого аналитического решения - Архитектура, ETL, BI. Дальше уже по необходимости DS, Streaming.

4.09K viewsDmitry Anoshin, 18:09

Инжиниринг Данных

Оказывается самая топавая конференци по game dev - GDC. Следуя своим принципам проактивности, закинул запрос на выступление, шансов практически нет, так как там почти не бывает кейсов про аналитику, но личний challenge accepted.

Title: Building Modern Data Stack for Game Analytics
Overview: Nowadays, game development has become data-driven. Game studios over the world adopting analytics to inform decision making across all levels of industry. The core of game analytics and insights is telemetry data. The best strategy is to log data in the format that is closest to the defined in the code without any aggregation. This strategy insures the least possible bias operated on the data. Unfortunately, this strategy also risks levitating the amount of data logged, streamed and stored. It is vital to design and implement data platform that will handle tremendous volume of data, support mix workloads of use cases from Business Intelligence, Data Science and Business Users. Handle data privacy and establish security. During the talk we will cover the history of data platforms and review reference architectures and use cases for modern data stack and finish the presentation with our data stack modernization use case.

Gdconf

GDC Festival of Gaming

The GDC Festival of Gaming is where the entire B2B games industry comes together. From design and code to publishing, marketing, and investment, it's a place to learn, connect, collaborate, and shape the future of games.

3.58K viewsDmitry Anoshin, edited 19:02

Инжиниринг Данных

3.48K viewsDmitry Anoshin, 03:34

Инжиниринг Данных

Нашел прикольный сервис, который как уверяют создатели Free 4ever=)
Позволяет сделать мини профайл и собрать все важные ссылки в одном месте (можно и резюме ссылку и git и тп).
https://linktr.ee/dmitry.anoshin вот мой пример

3.57K viewsDmitry Anoshin, edited 03:50

Инжиниринг Данных

Английская версия википедии про хранилище данных получила дополнение про ETL/ELT. https://en.wikipedia.org/wiki/Data_warehouse

3.56K viewsDmitry Anoshin, edited 05:05

Инжиниринг Данных

В 95 процентах аналитических решений используется хранилище данных. Давайте будем считать, что это аналитическое хранилище данных. Но что это такое? Какие они бывают? Как давно они на рынке? На эти вопросы и другие я отвечу в этом уроке.

На этом уроке мы посмотрим фундаментыльные вещи про хранилище данных, а на последующих уроках, мы будем уже пробовать различные решения хранилищ данных и ETL/ELT инструментов. Практически каждый слайд можно трансформировать в вопрос для собеседования, и я сам, нераз, спрашивал на собеседованиях в Амазон эти вопросы на позицию инженера данных и bi разработчика.

Из модуля вы узнаете:
📌 История хранилищ данных
📌 База данных vs Хранилище данных
📌 Хранилище данных (DW) vs Платформа данных
📌 Характеристики хранилища данных
📌 Архитектура Shared Nothing vs Shared Everything
📌 Cloud vs On-premise Хранилища данных
📌 Облачная экономика на примере ETL jobs
📌 Open Source vs Commercial Хранилища данных
📌 Хранилища данных на базе существующей технологии (Postgres) или свои разработки
📌 Data warehouse as a Service или в ручную тюнить
📌 Современные и Legacy Хранилища данных
📌 OLTP vs OLAP
📌 ETL vs ELT
📌 Вендоры Хранилища данных на рынке (Gartner and Forrester)
📌 Сравнение скорости - benchmarking - TPC
📌 Benchmarking, отчет Gigaom и Fivetran по облачных хранилищам данных
📌 История Teradata
📌 Основы MPP Teradata, Data Distribution, Data Skew и Teradata CLI

На лабораторной работе вы будете использовать виртуальную мащину Teradata DW, вам нужно будет скачать ее и настроить доступ через конфигурацию сети. Дальше вы сможете загрузать данные через CLI инструмент и подключить Power BI. Таким образом у вас будет полноценное аналитическое решение (портативное), которое работает во многих компаниях.

4.29K viewsDmitry Anoshin, edited 01:06

Инжиниринг Данных

Прикольный комент про модуль 4. Ну в принципе так и есть))

3.3K viewsDmitry Anoshin, edited 01:30

Инжиниринг Данных

Статья 2009 года про the schedules of makers versus managers.

The post argues that managers are most productive when their days are full of meetings, but makers—engineers and writers, in Graham’s examples—need large chunks of uninterrupted time to be productive.

То есть, если вы менеджер, то meetings это хорошо, а если вы инженер, то meetings обходится вам дороже, и вам не нужно их много.

Мне понравилось как автор описал проскратинацию - To do their work, Graham’s makers need both focus and a kind of warming up: They have to load a bunch of ideas into their heads and settle into their task. It takes a while to get into this state—and a single interruption can snap you out of it.

То есть пол дня тупить в телефоне это нормально, просто load a bunch of ideas into head and settle into task

3.44K viewsDmitry Anoshin, 02:39

Инжиниринг Данных

Вот что бывает когда постишь вещи, которые до конца не понимаешь (у мужика много ужасных комментов, немного "вляпался")

3.26K viewsDmitry Anoshin, 05:33

Инжиниринг Данных

Data Engineering 101: Writing Your First Pipeline
In Airflow and Luigi

One of the main roles of a data engineer can be summed up as getting data from point A to point B.

We often need to pull data out of one system and insert it into another. This could be for various purposes. This includes analytics, integrations, and machine learning.

But in order to get that data moving, we need to use what are known as ETLs/Data pipelines.

These are processes that pipe data from one data system to another.

SeattleDataGuy’s Newsletter

Data Engineering 101: Writing Your First Pipeline

In Airflow and Luigi

3.65K viewsDmitry Anoshin, 05:41

Инжиниринг Данных

Databricks анонсировал Serverless SQL.

Under the hood of this capability is an active server fleet, fully managed by Databricks, that can transfer compute capacity to user queries, typically in about 15 seconds.

То есть вообще концепция serverless значит, что это где-то там, что-то там крутится и вертится само по себе, и всегда доступно нам, чтобы, например, выполнить SQL запрос. Самое популярное serverless решение было у AWS - Lambda functions (но не для SQL, а для Python, JS и тп):

AWS Lambda is a serverless compute service that lets you run code without provisioning or managing servers, creating workload-aware cluster scaling logic, maintaining event integrations, or managing runtimes.

Наприме, для DE и особенно для Redshift, лямбду можно использовтаь, чтобы при появлении новых файлов в S3, загружать их в Redshift. Вот пример A Zero-Administration Amazon Redshift Database Loader.

Athena (Presto от AWS) - тоже serverless SQL - Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to manage, and you pay only for the queries that you run.

Даже Redshift Spectrum (такая штука для аналитического хранилища данных Redshift, которая позволяет создавать External Files и писать SQL к озеру данных, то есть кучи файлов в S3, часто в формате Parquet) - is serverless and there’s nothing to provision or manage.

Сама по себе lambda выполняет наш код при наступлении события, можно, например, отправить открытку человеку, которые потратил 100т рублей на курсы и остался не доволен (digital открытку), если клиент написал нам письмо с недовольством на no-reply@<school name>.ru

Обратно к самой технологии Serverless SQL. Безусловно - это удобно, только возникаем concern с безопасность, так как ваши данные буду processing на стороне вендора - At the core of Databricks Serverless SQL is a compute platform that operates a pool of servers, located in Databricks’ account, running Kubernetes containers that can be assigned to a user within seconds. (зато Kubernetes!, не придумал пока как их использовать)

Ну и самый главный Serverless SQL это у Azure Synapse - Serverless SQL pool is a distributed data processing system, built for large-scale data and computational functions. Serverless SQL pool enables you to analyze your Big Data in seconds to minutes, depending on the workload.

В общем без них (без возможности Serverless SQL) никуда!

3.68K viewsDmitry Anoshin, edited 05:21

Инжиниринг Данных

Как у вас с #mentalhealth? Очень популярно сейчас на Западе...

3.43K viewsDmitry Anoshin, edited 10:44

Инжиниринг Данных

Databricks Raises $1.6 Billion Series H Investment at $38 Billion Valuation

Всего в Databricks было проинвестировано 3.4В, и он ещ ене на IPO. А в Snowflake - 1.4B и он уже на бирже. Я потерял доверие к Snowflake в этом году, так как цели владельцев стала погоня за доходом и сами создатели продукта ушли на задний план.

Этого пока не случилось с Databricks.

3.44K viewsDmitry Anoshin, 16:43

Инжиниринг Данных

Alexey Kirkorov:
Коллеги, ищу лидера команды Data Science. Порекомендуйте пожалуйста в личку, если у кого-то кто-то есть на примете. Описание позиции ниже. Также нужны финансисты на управленческую отчетность.

Коротко:

сновные задачи - лидерство в развитии процессов с использованием ML&DL и в разработке моделей DS. Команда 4 человека.
Для нас важно умение писать чистый, читаемый код на Python, знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.), опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг, опыт руководства командой.

Основные задачи:
• Выстраивание и развитие процессов с использованием ML&DL в компании:
o Сбор требований бизнеса, обсуждение и формализация бизнес-задач, их декомпозиция, планирование и оценка;
o Определение оптимальной архитектуры реализуемых решений;
• Руководство разработкой моделей (полный цикл: от формализации задачи и подбора внешних/внутренних источников до имплементации решений в бизнес-процессы):
o разработка рекомендательных моделей;
o оценки возможного потенциала клиента;
o максимизации совокупной доходности по клиенту;
o модели с аналитикой поведения клиента, формирующие сигналы необходимости коммуникации.
• Анализ больших объемов данных, выявление скрытых тенденций и закономерностей.
• Руководство командой по направлению анализа данных (4 человека).

Для нас важно:
• Высшее образование (математика/физика/программирование);
• Умение писать чистый, читаемый код на Python;
• Знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.);
• Опыт использования ML-библиотек и алгоритмов на Python (xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;
• Опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг;
• Опыт руководства командой;
• Хорошее понимание методов машинного обучения с точки зрения математики и умение адаптировать их под конкретные задачи;
• Уверенные знание SQL (составление сложных запросов и их оптимизация);
• Отличные навыки презентации результата;
• Понимание и опыт АB-тестирования;
• Плюсом будет:
o опыт работы с Linux, Docker, Airflow, MLflow;
o опыт работы с NLP инструментами NLTK, Pymorphy и пр.;
o опыт работы с BI инструментами Tableau, SSRS, Superset;
o опыт построения DL pipeline с использованием фреймворков TF/Pytorch/Keras;
o опыт использования Git, Jira, Confluence;
o опыт участия в хакатонах/соревнованиях по машинному обучению;
o пройденные курсы по ds/ml/cv.

🪆Сейчас на эту позицию вилка 3.0 - 4.0 млн.рублей годовой доход до вычета НДФЛ (13%). За вычетом этого налога сумма на руки.

Контакты по обеим вакансиям: Киркоров Алексей kirkorov@sberleasing.ru +79166599458 или Кирилин Кирилл Kirilin.KA@sberleasing.ru +7 916-593-76-83.

3.63K viewsDmitry Anoshin, 16:47

About

Blog

Apps

Platform