Data Engineering / Инженерия данных / Data Engineer / DWH
1.95K subscribers
49 photos
7 videos
52 files
350 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Как_вытащить_из_данных_максимум_Навыки_аналитики_для_неспециалистов.pdf
2 MB
Как вытащить из данных максимум Навыки аналитики для неспециалистов (Джордан Морроу)
Полный_бред_Скептицизм_в_мире_больших_данных_Карл_Бергстром,_Джевин.epub
6.6 MB
Полный бред Скептицизм в мире больших данных (Карл Бергстром, Джевин Уэст)
🔥1
gRPC_Запуск_и_эксплуатация_облачных_приложений_Go_и_Java_для_Docker.pdf
3.7 MB
gRPC: Запуск и эксплуатация облачных приложений - Go и Java для Docker и Kubernetes

Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.

В книге разбирается, как технология gRPC устроена «под капотом».
Полный разбор SQL задач из Кремниевой долины (FAANG)

https://www.youtube.com/watch?v=kIRR7M8Ryp0
Tarantool is an in-memory computing platform consisting of a database and an application server.

Key features of the database:
- MessagePack data format and MessagePack based client-server protocol.
- Two data engines: 100% in-memory with complete WAL-based persistence and an own implementation of LSM-tree, to use with large data sets.
- Multiple index types: HASH, TREE, RTREE, BITSET.
- Document oriented JSON path indexes.
- Asynchronous master-master replication.
- Synchronous quorum-based replication.
- RAFT-based automatic leader election for the single-leader configuration.
- Authentication and access control.
- ANSI SQL, including views, joins, referential and check constraints.
- Connectors for many programming languages.
- The database is a C extension of the application server and can be turned off.
Modern_Data_Engineering_with_Apache_Spark_A_Hands_On_Guide_for_Building.pdf
6.4 MB
Data Engineering with Apache Spark. A Hands-On Guide for Building Mission-Critical Streaming Applications.pdf
🔥1
DevOps Roadmap
Step by step guide for DevOps, SRE or any other Operations Role in 2022

👉 @devops_dataops

https://roadmap.sh/devops
👍1
- https://seattledataguy.substack.com/p/cataloging-data-catalogs

- https://github.com/opendatadiscovery/awesome-data-catalogs

- И целый топик в GitHub - https://github.com/topics/data-catalog

Каталог Каталогов Данных

Относительно недавно мы начали готовить почву для того, чтобы внедрять каталог данных и автоматическую документацию. Поэтому я сидел и исследовал, а что же доступно на рынке каталогов данных. В общем и целом, много чего, и платного и опен-сорс.
Поэтому, если вам предстоит похожая задача, вот несколько подборок (по большей части, пересекающиеся между собой).

@ohmydataengineer
👍1