Data Engineering / Инженерия данных / Data Engineer / DWH
1.95K subscribers
49 photos
7 videos
52 files
350 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Data_Analysis_with_Python_and_PySpark_Final_Release_Jonathan_Rioux.pdf
14.6 MB
Data Analysis with Python and PySpark (Final Release) (Jonathan Rioux)

👉 @devops_dataops

In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
Ansible_Up_and_Running_Automating_Configuration_Management_and_Deployment.epub
12.9 MB
Ansible: Up and Running - Automating Configuration Management and Deployment the Easy Way, 3rd Edition

🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
Как_вытащить_из_данных_максимум_Навыки_аналитики_для_неспециалистов.pdf
2 MB
Как вытащить из данных максимум Навыки аналитики для неспециалистов (Джордан Морроу)
Полный_бред_Скептицизм_в_мире_больших_данных_Карл_Бергстром,_Джевин.epub
6.6 MB
Полный бред Скептицизм в мире больших данных (Карл Бергстром, Джевин Уэст)
🔥1
gRPC_Запуск_и_эксплуатация_облачных_приложений_Go_и_Java_для_Docker.pdf
3.7 MB
gRPC: Запуск и эксплуатация облачных приложений - Go и Java для Docker и Kubernetes

Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.

В книге разбирается, как технология gRPC устроена «под капотом».
Полный разбор SQL задач из Кремниевой долины (FAANG)

https://www.youtube.com/watch?v=kIRR7M8Ryp0
Tarantool is an in-memory computing platform consisting of a database and an application server.

Key features of the database:
- MessagePack data format and MessagePack based client-server protocol.
- Two data engines: 100% in-memory with complete WAL-based persistence and an own implementation of LSM-tree, to use with large data sets.
- Multiple index types: HASH, TREE, RTREE, BITSET.
- Document oriented JSON path indexes.
- Asynchronous master-master replication.
- Synchronous quorum-based replication.
- RAFT-based automatic leader election for the single-leader configuration.
- Authentication and access control.
- ANSI SQL, including views, joins, referential and check constraints.
- Connectors for many programming languages.
- The database is a C extension of the application server and can be turned off.
Modern_Data_Engineering_with_Apache_Spark_A_Hands_On_Guide_for_Building.pdf
6.4 MB
Data Engineering with Apache Spark. A Hands-On Guide for Building Mission-Critical Streaming Applications.pdf
🔥1
DevOps Roadmap
Step by step guide for DevOps, SRE or any other Operations Role in 2022

👉 @devops_dataops

https://roadmap.sh/devops
👍1
- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer
👍1