Data Engineering / Инженерия данных / Data Engineer / DWH
1.96K subscribers
49 photos
7 videos
52 files
350 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Mara Pipelines

This package contains a lightweight data transformation framework with a focus on transparency and complexity reduction. It has a number of baked-in assumptions/ principles:
- Data integration pipelines as code: pipelines, tasks and commands are created using declarative Python code.
- PostgreSQL as a data processing engine.
- Extensive web ui. The web browser as the main tool for inspecting, running and debugging pipelines.
- GNU make semantics. Nodes depend on the completion of upstream nodes. No data dependencies or data flows.
- No in-app data processing: command line tools as the main tool for interacting with databases and data.
- Single machine pipeline execution based on Python's multiprocessing. No need for distributed task queues. Easy debugging and output logging.
- Cost based priority queues: nodes with higher cost (based on recorded run times) are run first.

https://github.com/mara/mara-pipelines
Open Source Guides

Open source software is made by people just like you. Learn how to launch and grow your project.

https://opensource.guide/
Инженерия_машинного_обучения_Андрей_Бурков_2022.pdf
14.9 MB
Инженерия машинного обучения

Содержит множество рекомендаций и паттернов проектирования надежных и масштабируемых решений в области машинного обучения.
ОБРАБОТКА_БОЛЬШИХ_ДАННЫХ_С_APACHE_SPARK_Университет_ИТМО.pdf
2.8 MB
Обработка больших данных с
Apache Spark– СПб: Университет ИТМО, 2019г.


Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
Data_Analysis_with_Python_and_PySpark_Final_Release_Jonathan_Rioux.pdf
14.6 MB
Data Analysis with Python and PySpark (Final Release) (Jonathan Rioux)

👉 @devops_dataops

In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
Ansible_Up_and_Running_Automating_Configuration_Management_and_Deployment.epub
12.9 MB
Ansible: Up and Running - Automating Configuration Management and Deployment the Easy Way, 3rd Edition

🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
Как_вытащить_из_данных_максимум_Навыки_аналитики_для_неспециалистов.pdf
2 MB
Как вытащить из данных максимум Навыки аналитики для неспециалистов (Джордан Морроу)
Полный_бред_Скептицизм_в_мире_больших_данных_Карл_Бергстром,_Джевин.epub
6.6 MB
Полный бред Скептицизм в мире больших данных (Карл Бергстром, Джевин Уэст)
🔥1
gRPC_Запуск_и_эксплуатация_облачных_приложений_Go_и_Java_для_Docker.pdf
3.7 MB
gRPC: Запуск и эксплуатация облачных приложений - Go и Java для Docker и Kubernetes

Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.

В книге разбирается, как технология gRPC устроена «под капотом».