Data Engineering 101: Writing Your First Pipeline
In Airflow and Luigi
One of the main roles of a data engineer can be summed up as getting data from point A to point B.
We often need to pull data out of one system and insert it into another. This could be for various purposes. This includes analytics, integrations, and machine learning.
But in order to get that data moving, we need to use what are known as ETLs/Data pipelines.
These are processes that pipe data from one data system to another.
In Airflow and Luigi
One of the main roles of a data engineer can be summed up as getting data from point A to point B.
We often need to pull data out of one system and insert it into another. This could be for various purposes. This includes analytics, integrations, and machine learning.
But in order to get that data moving, we need to use what are known as ETLs/Data pipelines.
These are processes that pipe data from one data system to another.
SeattleDataGuy’s Newsletter
Data Engineering 101: Writing Your First Pipeline
In Airflow and Luigi
Databricks анонсировал Serverless SQL.
Under the hood of this capability is an active server fleet, fully managed by Databricks, that can transfer compute capacity to user queries, typically in about 15 seconds.
То есть вообще концепция serverless значит, что это где-то там, что-то там крутится и вертится само по себе, и всегда доступно нам, чтобы, например, выполнить SQL запрос. Самое популярное serverless решение было у AWS - Lambda functions (но не для SQL, а для Python, JS и тп):
AWS Lambda is a serverless compute service that lets you run code without provisioning or managing servers, creating workload-aware cluster scaling logic, maintaining event integrations, or managing runtimes.
Наприме, для DE и особенно для Redshift, лямбду можно использовтаь, чтобы при появлении новых файлов в S3, загружать их в Redshift. Вот пример A Zero-Administration Amazon Redshift Database Loader.
Athena (Presto от AWS) - тоже serverless SQL - Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to manage, and you pay only for the queries that you run.
Даже Redshift Spectrum (такая штука для аналитического хранилища данных Redshift, которая позволяет создавать External Files и писать SQL к озеру данных, то есть кучи файлов в S3, часто в формате Parquet) - is serverless and there’s nothing to provision or manage.
Сама по себе lambda выполняет наш код при наступлении события, можно, например, отправить открытку человеку, которые потратил 100т рублей на курсы и остался не доволен (digital открытку), если клиент написал нам письмо с недовольством на no-reply@<school name>.ru
Обратно к самой технологии Serverless SQL. Безусловно - это удобно, только возникаем concern с безопасность, так как ваши данные буду processing на стороне вендора - At the core of Databricks Serverless SQL is a compute platform that operates a pool of servers, located in Databricks’ account, running Kubernetes containers that can be assigned to a user within seconds. (зато Kubernetes!, не придумал пока как их использовать)
Ну и самый главный Serverless SQL это у Azure Synapse - Serverless SQL pool is a distributed data processing system, built for large-scale data and computational functions. Serverless SQL pool enables you to analyze your Big Data in seconds to minutes, depending on the workload.
В общем без них (без возможности Serverless SQL) никуда!
Under the hood of this capability is an active server fleet, fully managed by Databricks, that can transfer compute capacity to user queries, typically in about 15 seconds.
То есть вообще концепция serverless значит, что это где-то там, что-то там крутится и вертится само по себе, и всегда доступно нам, чтобы, например, выполнить SQL запрос. Самое популярное serverless решение было у AWS - Lambda functions (но не для SQL, а для Python, JS и тп):
AWS Lambda is a serverless compute service that lets you run code without provisioning or managing servers, creating workload-aware cluster scaling logic, maintaining event integrations, or managing runtimes.
Наприме, для DE и особенно для Redshift, лямбду можно использовтаь, чтобы при появлении новых файлов в S3, загружать их в Redshift. Вот пример A Zero-Administration Amazon Redshift Database Loader.
Athena (Presto от AWS) - тоже serverless SQL - Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to manage, and you pay only for the queries that you run.
Даже Redshift Spectrum (такая штука для аналитического хранилища данных Redshift, которая позволяет создавать External Files и писать SQL к озеру данных, то есть кучи файлов в S3, часто в формате Parquet) - is serverless and there’s nothing to provision or manage.
Сама по себе lambda выполняет наш код при наступлении события, можно, например, отправить открытку человеку, которые потратил 100т рублей на курсы и остался не доволен (digital открытку), если клиент написал нам письмо с недовольством на no-reply@<school name>.ru
Обратно к самой технологии Serverless SQL. Безусловно - это удобно, только возникаем concern с безопасность, так как ваши данные буду processing на стороне вендора - At the core of Databricks Serverless SQL is a compute platform that operates a pool of servers, located in Databricks’ account, running Kubernetes containers that can be assigned to a user within seconds. (зато Kubernetes!, не придумал пока как их использовать)
Ну и самый главный Serverless SQL это у Azure Synapse - Serverless SQL pool is a distributed data processing system, built for large-scale data and computational functions. Serverless SQL pool enables you to analyze your Big Data in seconds to minutes, depending on the workload.
В общем без них (без возможности Serverless SQL) никуда!
Как у вас с #mentalhealth? Очень популярно сейчас на Западе...
Databricks Raises $1.6 Billion Series H Investment at $38 Billion Valuation
Всего в Databricks было проинвестировано 3.4В, и он ещ ене на IPO. А в Snowflake - 1.4B и он уже на бирже. Я потерял доверие к Snowflake в этом году, так как цели владельцев стала погоня за доходом и сами создатели продукта ушли на задний план.
Этого пока не случилось с Databricks.
Всего в Databricks было проинвестировано 3.4В, и он ещ ене на IPO. А в Snowflake - 1.4B и он уже на бирже. Я потерял доверие к Snowflake в этом году, так как цели владельцев стала погоня за доходом и сами создатели продукта ушли на задний план.
Этого пока не случилось с Databricks.
Alexey Kirkorov:
Коллеги, ищу лидера команды Data Science. Порекомендуйте пожалуйста в личку, если у кого-то кто-то есть на примете. Описание позиции ниже. Также нужны финансисты на управленческую отчетность.
Коротко:
сновные задачи - лидерство в развитии процессов с использованием ML&DL и в разработке моделей DS. Команда 4 человека.
Для нас важно умение писать чистый, читаемый код на Python, знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.), опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг, опыт руководства командой.
Основные задачи:
• Выстраивание и развитие процессов с использованием ML&DL в компании:
o Сбор требований бизнеса, обсуждение и формализация бизнес-задач, их декомпозиция, планирование и оценка;
o Определение оптимальной архитектуры реализуемых решений;
• Руководство разработкой моделей (полный цикл: от формализации задачи и подбора внешних/внутренних источников до имплементации решений в бизнес-процессы):
o разработка рекомендательных моделей;
o оценки возможного потенциала клиента;
o максимизации совокупной доходности по клиенту;
o модели с аналитикой поведения клиента, формирующие сигналы необходимости коммуникации.
• Анализ больших объемов данных, выявление скрытых тенденций и закономерностей.
• Руководство командой по направлению анализа данных (4 человека).
Для нас важно:
• Высшее образование (математика/физика/программирование);
• Умение писать чистый, читаемый код на Python;
• Знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.);
• Опыт использования ML-библиотек и алгоритмов на Python (xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;
• Опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг;
• Опыт руководства командой;
• Хорошее понимание методов машинного обучения с точки зрения математики и умение адаптировать их под конкретные задачи;
• Уверенные знание SQL (составление сложных запросов и их оптимизация);
• Отличные навыки презентации результата;
• Понимание и опыт АB-тестирования;
• Плюсом будет:
o опыт работы с Linux, Docker, Airflow, MLflow;
o опыт работы с NLP инструментами NLTK, Pymorphy и пр.;
o опыт работы с BI инструментами Tableau, SSRS, Superset;
o опыт построения DL pipeline с использованием фреймворков TF/Pytorch/Keras;
o опыт использования Git, Jira, Confluence;
o опыт участия в хакатонах/соревнованиях по машинному обучению;
o пройденные курсы по ds/ml/cv.
🪆Сейчас на эту позицию вилка 3.0 - 4.0 млн.рублей годовой доход до вычета НДФЛ (13%). За вычетом этого налога сумма на руки.
Контакты по обеим вакансиям: Киркоров Алексей kirkorov@sberleasing.ru +79166599458 или Кирилин Кирилл Kirilin.KA@sberleasing.ru +7 916-593-76-83.
Коллеги, ищу лидера команды Data Science. Порекомендуйте пожалуйста в личку, если у кого-то кто-то есть на примете. Описание позиции ниже. Также нужны финансисты на управленческую отчетность.
Коротко:
сновные задачи - лидерство в развитии процессов с использованием ML&DL и в разработке моделей DS. Команда 4 человека.
Для нас важно умение писать чистый, читаемый код на Python, знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.), опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг, опыт руководства командой.
Основные задачи:
• Выстраивание и развитие процессов с использованием ML&DL в компании:
o Сбор требований бизнеса, обсуждение и формализация бизнес-задач, их декомпозиция, планирование и оценка;
o Определение оптимальной архитектуры реализуемых решений;
• Руководство разработкой моделей (полный цикл: от формализации задачи и подбора внешних/внутренних источников до имплементации решений в бизнес-процессы):
o разработка рекомендательных моделей;
o оценки возможного потенциала клиента;
o максимизации совокупной доходности по клиенту;
o модели с аналитикой поведения клиента, формирующие сигналы необходимости коммуникации.
• Анализ больших объемов данных, выявление скрытых тенденций и закономерностей.
• Руководство командой по направлению анализа данных (4 человека).
Для нас важно:
• Высшее образование (математика/физика/программирование);
• Умение писать чистый, читаемый код на Python;
• Знание статистики, математического анализа, теории вероятностей, линейной алгебры, глубокое понимание ML алгоритмов (линейная регрессия, бустинг и т.д.);
• Опыт использования ML-библиотек и алгоритмов на Python (xgboost/lightgbm/catboost, sklearn, …), понимание особенностей и границ применимости;
• Опыт внедрения ML-решений в бизнес-процессы и доведение их до прома, последующий мониторинг;
• Опыт руководства командой;
• Хорошее понимание методов машинного обучения с точки зрения математики и умение адаптировать их под конкретные задачи;
• Уверенные знание SQL (составление сложных запросов и их оптимизация);
• Отличные навыки презентации результата;
• Понимание и опыт АB-тестирования;
• Плюсом будет:
o опыт работы с Linux, Docker, Airflow, MLflow;
o опыт работы с NLP инструментами NLTK, Pymorphy и пр.;
o опыт работы с BI инструментами Tableau, SSRS, Superset;
o опыт построения DL pipeline с использованием фреймворков TF/Pytorch/Keras;
o опыт использования Git, Jira, Confluence;
o опыт участия в хакатонах/соревнованиях по машинному обучению;
o пройденные курсы по ds/ml/cv.
🪆Сейчас на эту позицию вилка 3.0 - 4.0 млн.рублей годовой доход до вычета НДФЛ (13%). За вычетом этого налога сумма на руки.
Контакты по обеим вакансиям: Киркоров Алексей kirkorov@sberleasing.ru +79166599458 или Кирилин Кирилл Kirilin.KA@sberleasing.ru +7 916-593-76-83.
А вот и вебинар на подходе (2 сентября 2021 в 20:00 по мск)
Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.
Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)
Канал спикера: https://t.me/start_ds
Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
Кого, чего:
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную команду в одной из крупнейших ритейл-компаний РФ.
Вы услышите ответы на вопросы:
1. Что нужно изучить чтобы идти на первые собеседования?
2. Где искать вакансии новичкам в DS?
3. Как грамотно подготовить резюме?
4. Как выстроить подготовку, что повторить?
5. Чего ждать на собеседовании?
Даже если не собираетесь в DS, приходите, так как инфа будет полезная :)
Канал спикера: https://t.me/start_ds
Ссылка на вебинар:
https://youtu.be/SKItc7yHnVY
YouTube
Как подготовиться в первым собесам в DS и найти вакансии / Роман Васильев
Как подготовиться в первым собесам в DS и найти вакансии?
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную…
Вебинар проведёт Васильев Роман, Senior Data Scientist в компании Магнит. Роман когда-то руководил наймом и развитием стажёров DS-ов в российской телеком-компании, а сейчас развивает уже полноценную…
Попалась статья 2020 про Zynga (social games), у них команда из 70 аналитиков и инженеров и они рассказывают как они мигрировали на python решения и какие иснтрументы используют. https://www.gamedeveloper.com/disciplines/the-zynga-analytics-platform-in-2020
Gamedeveloper
The Zynga Analytics Platform in 2020
Zynga's Python-focused analytics platform
Еще один интересный доклад из Game dev с конференции GDC (я про нее ранее писал) - Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games. Доклад больше про мобильные приложения, чем игры.
Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
Но интересно рассказывают, как смотртят на графики и метрики с применением статистики и базовой математики. Спикер, она же CEO компании, рассказала, что по образованию она историк по теме Восточной Европы 18-19 Века, но ей всегда нравились данные, поэтому она овладела SQL, чтобы не зависить от ИТ, а потом закончила курсы матемитике и алгебры. В докладе она рассказывает как она анлизирует данные. Очень хороший пример, как должен работать BI разработчик или продуктовый аналитик.
YouTube
Data-Driven or Data-Blinded? Uses and Abuses of Analytics in Games
In this 2018 GDC session, Kongregate's Emily Greer exposes common mistakes and pitfalls in data analysis to provide practical guidance on how to improve the rigorousness of your tests and the quality of your data.
Join the GDC mailing list: http://www.g…
Join the GDC mailing list: http://www.g…
Может кто знает ответ https://stackoverflow.com/questions/69007922/process-single-data-set-with-different-json-schema-rows-using-pyspark #pyspark #json #spark
Stack Overflow
Process single data set with different JSON schema rows using Pyspark
I am using PySpark and I need to process the log files that are appended into a single data frame. Most of the columns are look normal, but one of the columns has JSON string in {}. Basically, each...
Delivery Club образовательный. Аналитики сервиса поделились опытом создания мониторинга и системы “near real-time” оповещений для компаний.
Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.
PS ребята также поддержали фонд.
Приятный спойлер: супер пригодная фича не только для пользователей, но и для внутренних разрабов. Читаем материал ребят по ссылке и обсуждаем внизу в комментариях.
PS ребята также поддержали фонд.
Хабр
Единая система мониторинга и оповещений BI: правда или вымысел?
Привет, Хабр! Мы, Юлия Лузганова HiJulia и Наталия Прудникова balzaant , аналитики в команде Business Intelligence Delivery Club. Наш департамент аналитики стремительно вырос за последние полтора...
Очень хорошая статья про Olap куб. Что это такое. Мне они никогда не нравились, так как я очень рано в своей карьере поработал с продуктами Microsoft SSAS, где нужно строить реальный куб поверх хранилища данных на SQL Server. У куба вместо SQL - MDX, и вообще это другой мир для BI разработчика.
Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.
Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.
Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.
В общем автор круто расписал все значения и рассмотрел история вопроса.
По мне кубы (которые molap с MDX) - зло🤬
Главный + для куба - прямой коннектор для Excel, и бизнес пользователи могут slice and dice данные и строить кросс таблички. Все работает как часы, да ещё практически бесплатно.
Зато если мы захотим подключить Tableau, тогда появляется куча ограничений и неудобств.
Но это лишь одна сторона слова OLAP. В модуле 6.2 я специально упомянул другие значения слов.
В общем автор круто расписал все значения и рассмотрел история вопроса.
По мне кубы (которые molap с MDX) - зло🤬
The Holistics Blog
What is an OLAP Cube? An Exhaustive Explainer
The definitive explainer for OLAP cubes, where we cover every single possible definition for the phrase.
👍1
Tableau (SalesForce купила Lintao). Я знаю Nicolas, так как он согласился выступать на моей Amazon Tableau User Group в 2018году. Он сделал хорошую презентацию про Dashboard best practices и рассказал про свой продукт - Lintao - это был набор шаблонов Табло для индустрий, с метриками и графикими. То есть нам просто надо подключить данные, и почти готовый дашборд. Я даже брал его шаблоны и вставлял в Proposal Rock Your Data. Кто бы мог подумать, что так у него все круто сложится.
В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.
Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
В целом все community это очень круто. Всегда помогает расширять кругозор, знакомиться с новыми людьми, и нести пользу людям. Не знаю, почему так мало желающих выступать на datalearn?🙄Это же крутая возможность завявить индустрии о себе и получить опыт.
Кстати, сегодня провел первый Xbox DE Talk, на котором Zenimax (те кто делают Doom и Fallout) рассказывали про их опыт с Databricks и Spark. Из всех студий Xbox было 3 дата инженера + 10 инженеров Zenimax.😣 Пока слабый обмен опытом, это не Амазон с 4000+ человек.
The-Evolving-Role-of-the-Data-Engineer.pdf
1.8 MB
The Evolving Role of the Data Engineer Change and Continuity
in Data Practices
What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.
And the best part? It’s free, courtesy of O’Reilly.
in Data Practices
What’s a data engineer?
And how to be (or hire) a really good one
By some estimates, data engineering comprises 80% to 90% of the work organizations do with data. But the role of data engineer, and even the term itself, is pretty new and evolving rapidly. If you are (or want to be) a data engineer—or you’re responsible for building or managing data teams—this report will clearly explain the role and the skills and best practices you need to be a successful data engineer.
And the best part? It’s free, courtesy of O’Reilly.
Forwarded from Reveal the Data
Сегодня вечером собираемся с Димой Аношиным, Анастасией Котовой и Артуром Высоцким поболтать про реалии современного BI: обсудим инструменты и тренды. Митап пройдет в рамках технических дискуссий от проекта Техпора. Не знаю, что из этого получится, но думаю будет интересно услышать разные точки зрения. Если хотите задать вопросы — приходите в 20:30 в трансляцию на Youtube, там же останется и запись.
Описание и программа митапа.
#выстуление
Описание и программа митапа.
#выстуление
Forwarded from Start Career in DS
Напоминаю про сегодняшний вебинар 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Буду рад рассказать полезные штуки и поотвечать на вопросы онлайн!
Бонусом для пришедших будет инсайдерская информация по крутой образовательно-практической программе (в виде стажировки) в крупной российской компании 🙂
Вчера был очень насыщенный день по ивентам, сразу 2.
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
1. Как подготовиться в первым собесам в DS и найти вакансии? - идеальная информация для начинающего data scientist, полный FAQ по всем вопросам, очень качественно и по делу. Для парктикующих DS может быть полезным тоже.
2. Современный BI - для начинающих BI разработчиков идеально. Для практикующих можно на 2х и останавливаться на интересные моменты. (им не хватает крутых обложек, как Рома рисует для datalearn😜)
Приготовил презентация по редшифту, опять получился большей контент. Зато будет все и сразу по Редшифту и на русском. Из Википедии узнал что Redshift значит уход (shift) от Oracle (он же красный, red).
А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.
А я раньше думал, что это про космос. А так всё верно, сам делал проект rolling stone - миграция всего оракла DW на Redshift.