Data Engineering / Инженерия данных / Data Engineer / DWH

Как собрать платформу обработки данных «своими руками»?

@devops_dataops

https://habr.com/ru/company/itsumma/blog/679516/

Хабр

Как собрать платформу обработки данных «своими руками»?

Большое количество российских компаний столкнулись с ограничениями в области ПО. Они теперь не имеют возможности использовать многие важные инструменты для работы с данными. Но, как говорится, одна...

809 viewsedited 09:24

Data Engineering / Инженерия данных / Data Engineer / DWH

Nico_Loubser_Software_Engineering_for_Absolute_Beginners_Your_Guide.epub

1.5 MB

Software Engineering for Absolute Beginners - 2021

What You Will Learn
🔹 Explore the concepts that you will encounter in the majority of companies doing software development
🔹 Create readable code that is neat as well as well-designed
🔹 Build code that is source controlled, containerized, and deployable
🔹 Secure your codebase
🔹 Optimize your workspace

4.12K views06:04

Data Engineering / Инженерия данных / Data Engineer / DWH

https://habr.com/ru/company/rostelecom/blog/675554/

Хабр

Контроль качества данных и точка. Как мы строили модуль DQM с нуля

Всем привет! Меня зовут Андрей, я занимаюсь процессами контроля качества данных в DataOffice Ростелекома. В статье поделюсь опытом создания модуля контроля качества данных, с какими трудностями мы...

180 views06:05

Data Engineering / Инженерия данных / Data Engineer / DWH

🔥 Awesome Docker Compose samples

These samples provide a starting point for how to integrate different services using a Compose file and to manage their deployment with Docker Compose.

👉 @devops_dataops

https://github.com/docker/awesome-compose

GitHub

GitHub - docker/awesome-compose: Awesome Docker Compose samples

Awesome Docker Compose samples. Contribute to docker/awesome-compose development by creating an account on GitHub.

1K viewsedited 13:02

Data Engineering / Инженерия данных / Data Engineer / DWH

ETL Pipeline with Airflow, Spark, s3, MongoDB and Amazon Redshift

Educational project on how to build an ETL (Extract, Transform, Load) data pipeline, orchestrated with Airflow.

https://github.com/renatootescu/ETL-pipeline

GitHub

GitHub - renatootescu/ETL-pipeline: Educational project on how to build an ETL (Extract, Transform, Load) data pipeline, orchestrated…

Educational project on how to build an ETL (Extract, Transform, Load) data pipeline, orchestrated with Airflow. - renatootescu/ETL-pipeline

306 views13:17

Data Engineering / Инженерия данных / Data Engineer / DWH

GitHub - martandsingh/ApacheSpark: This repository will help you to learn about databricks concept with the help of examples. It will include all the important topics which we need in our real life experience as a data engineer. We will be using pyspark & sparksql for the development. At the end of the course we also cover few case studies.

https://github.com/martandsingh/ApacheSpark

GitHub

GitHub - martandsingh/ApacheSpark: This repository will help you to learn about databricks concept with the help of examples. It…

This repository will help you to learn about databricks concept with the help of examples. It will include all the important topics which we need in our real life experience as a data engineer. We ...

👍1

347 viewsedited 16:31

Data Engineering / Инженерия данных / Data Engineer / DWH

Проектирование ETL-пайплайна в Apache Airflow / Хабр
https://habr.com/ru/company/otus/blog/679402/

Хабр

Проектирование ETL-пайплайна в Apache Airflow

Привет, Хабр! На связи Рустем, IBM Senior DevOps Engineer и сегодня я хотел бы продолжить наше знакомство с инструментом в DataOps инженирии — Apache Airflow. Сегодня мы спроектируем ETL-пайплайн. Не...

268 views05:29

Data Engineering / Инженерия данных / Data Engineer / DWH

Глубокое погружение в Data Quality / Хабр
https://habr.com/ru/company/vk/blog/674876/

262 views07:19

Data Engineering / Инженерия данных / Data Engineer / DWH

Примерчик ETL pipeline на python
https://github.com/iamaziz/etl

GitHub

GitHub - iamaziz/etl: simple ETL example

simple ETL example. Contribute to iamaziz/etl development by creating an account on GitHub.

275 views08:51

Data Engineering / Инженерия данных / Data Engineer / DWH

Mara Pipelines

This package contains a lightweight data transformation framework with a focus on transparency and complexity reduction. It has a number of baked-in assumptions/ principles:
- Data integration pipelines as code: pipelines, tasks and commands are created using declarative Python code.
- PostgreSQL as a data processing engine.
- Extensive web ui. The web browser as the main tool for inspecting, running and debugging pipelines.
- GNU make semantics. Nodes depend on the completion of upstream nodes. No data dependencies or data flows.
- No in-app data processing: command line tools as the main tool for interacting with databases and data.
- Single machine pipeline execution based on Python's multiprocessing. No need for distributed task queues. Easy debugging and output logging.
- Cost based priority queues: nodes with higher cost (based on recorded run times) are run first.

https://github.com/mara/mara-pipelines

GitHub

GitHub - mara/mara-pipelines: A lightweight opinionated ETL framework, halfway between plain scripts and Apache Airflow

A lightweight opinionated ETL framework, halfway between plain scripts and Apache Airflow - mara/mara-pipelines

288 views08:56

Data Engineering / Инженерия данных / Data Engineer / DWH

Open Source Guides

Open source software is made by people just like you. Learn how to launch and grow your project.

https://opensource.guide/

Open Source Guides

Learn how to launch and grow your project.

266 viewsedited 17:39

Data Engineering / Инженерия данных / Data Engineer / DWH

Automate without limits n8n
The workflow automation platform that doesn't box you in, that you never outgrow

GitHub 27k+

Usage
🔹 Learn how to install and use it from the command line
🔹 Learn how to run n8n in Docker

Self-Hosted -> Free
🔹 Data stays on your infrastructure
🔹 Open & extendable
🔹 One-line npm command or Docker deployment

Habr: n8n. Автоматизация ИБ со вкусом смузи

GitHub

GitHub - n8n-io/n8n: Fair-code workflow automation platform with native AI capabilities. Combine visual building with custom code…

Fair-code workflow automation platform with native AI capabilities. Combine visual building with custom code, self-host or cloud, 400+ integrations. - n8n-io/n8n

5.52K viewsedited 14:10

Data Engineering / Инженерия данных / Data Engineer / DWH

GitHub - ClickHouse/clickhouse-presentations: Presentations, meetups and talks about ClickHouse
https://github.com/ClickHouse/clickhouse-presentations

GitHub

GitHub - ClickHouse/clickhouse-presentations: Presentations, meetups and talks about ClickHouse

Presentations, meetups and talks about ClickHouse. Contribute to ClickHouse/clickhouse-presentations development by creating an account on GitHub.

258 views05:24

Data Engineering / Инженерия данных / Data Engineer / DWH

Репозиторий с проектами Data Engineering
https://github.com/san089/Udacity-Data-Engineering-Projects

GitHub

GitHub - san089/Udacity-Data-Engineering-Projects: Few projects related to Data Engineering including Data Modeling, Infrastructure…

292 views09:09

Data Engineering / Инженерия данных / Data Engineer / DWH

Инженерия_машинного_обучения_Андрей_Бурков_2022.pdf

14.9 MB

Инженерия машинного обучения

Содержит множество рекомендаций и паттернов проектирования надежных и масштабируемых решений в области машинного обучения.

278 views09:14

Data Engineering / Инженерия данных / Data Engineer / DWH

10 Best Open Source ERP Software Systems For 2022

https://dynamics.folio3.com/blog/open-source-enterprise-resource-planning-software/

Folio3 Dynamics Blog

🥇 Top 10 open source ERP systems to consider in 2024

We will be looking at top 10 open source ERP software available in the market for 2024. We will be discussing all you want to know about the open source ERP software systems and its working.

218 views11:29

Data Engineering / Инженерия данных / Data Engineer / DWH

Odoo. Open Source Apps To Grow Your Business
https://github.com/odoo/odoo

GitHub

GitHub - odoo/odoo: Odoo. Open Source Apps To Grow Your Business.

Odoo. Open Source Apps To Grow Your Business. Contribute to odoo/odoo development by creating an account on GitHub.

215 views11:29

Data Engineering / Инженерия данных / Data Engineer / DWH

ОБРАБОТКА_БОЛЬШИХ_ДАННЫХ_С_APACHE_SPARK_Университет_ИТМО.pdf

2.8 MB

Обработка больших данных с
Apache Spark– СПб: Университет ИТМО, 2019г.

Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.

324 views16:27

Data Engineering / Инженерия данных / Data Engineer / DWH

How to Design and Build a Data Platform

https://productcoalition.com/how-to-design-and-build-a-data-platform-as-a-product-d22329ff5a3f

Medium

How to Design and Build a Data Platform

A breakdown of the challenges, teachable moments, frameworks and recommendations to deliver a data platform successfully.

228 viewsedited 10:07

Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод книги Problem Solving with Algorithms and Data Structures

https://aliev.me/runestone/index.html

aliev.me

Оглавление — Problem Solving with Algorithms and Data Structures

An interactive version of Problem Solving with Algorithms and Data Structures using Python.

237 views10:14