Mara Pipelines
This package contains a lightweight data transformation framework with a focus on transparency and complexity reduction. It has a number of baked-in assumptions/ principles:
- Data integration pipelines as code: pipelines, tasks and commands are created using declarative Python code.
- PostgreSQL as a data processing engine.
- Extensive web ui. The web browser as the main tool for inspecting, running and debugging pipelines.
- GNU make semantics. Nodes depend on the completion of upstream nodes. No data dependencies or data flows.
- No in-app data processing: command line tools as the main tool for interacting with databases and data.
- Single machine pipeline execution based on Python's multiprocessing. No need for distributed task queues. Easy debugging and output logging.
- Cost based priority queues: nodes with higher cost (based on recorded run times) are run first.
https://github.com/mara/mara-pipelines
This package contains a lightweight data transformation framework with a focus on transparency and complexity reduction. It has a number of baked-in assumptions/ principles:
- Data integration pipelines as code: pipelines, tasks and commands are created using declarative Python code.
- PostgreSQL as a data processing engine.
- Extensive web ui. The web browser as the main tool for inspecting, running and debugging pipelines.
- GNU make semantics. Nodes depend on the completion of upstream nodes. No data dependencies or data flows.
- No in-app data processing: command line tools as the main tool for interacting with databases and data.
- Single machine pipeline execution based on Python's multiprocessing. No need for distributed task queues. Easy debugging and output logging.
- Cost based priority queues: nodes with higher cost (based on recorded run times) are run first.
https://github.com/mara/mara-pipelines
GitHub
GitHub - mara/mara-pipelines: A lightweight opinionated ETL framework, halfway between plain scripts and Apache Airflow
A lightweight opinionated ETL framework, halfway between plain scripts and Apache Airflow - mara/mara-pipelines
Open Source Guides
Open source software is made by people just like you. Learn how to launch and grow your project.
https://opensource.guide/
Open source software is made by people just like you. Learn how to launch and grow your project.
https://opensource.guide/
Open Source Guides
Learn how to launch and grow your project.
Automate without limits n8n
The workflow automation platform that doesn't box you in, that you never outgrow
GitHub 27k+
Usage
🔹 Learn how to install and use it from the command line
🔹 Learn how to run n8n in Docker
Self-Hosted -> Free
🔹 Data stays on your infrastructure
🔹 Open & extendable
🔹 One-line npm command or Docker deployment
Habr: n8n. Автоматизация ИБ со вкусом смузи
The workflow automation platform that doesn't box you in, that you never outgrow
GitHub 27k+
Usage
🔹 Learn how to install and use it from the command line
🔹 Learn how to run n8n in Docker
Self-Hosted -> Free
🔹 Data stays on your infrastructure
🔹 Open & extendable
🔹 One-line npm command or Docker deployment
Habr: n8n. Автоматизация ИБ со вкусом смузи
GitHub
GitHub - n8n-io/n8n: Fair-code workflow automation platform with native AI capabilities. Combine visual building with custom code…
Fair-code workflow automation platform with native AI capabilities. Combine visual building with custom code, self-host or cloud, 400+ integrations. - n8n-io/n8n
GitHub - ClickHouse/clickhouse-presentations: Presentations, meetups and talks about ClickHouse
https://github.com/ClickHouse/clickhouse-presentations
https://github.com/ClickHouse/clickhouse-presentations
GitHub
GitHub - ClickHouse/clickhouse-presentations: Presentations, meetups and talks about ClickHouse
Presentations, meetups and talks about ClickHouse. Contribute to ClickHouse/clickhouse-presentations development by creating an account on GitHub.
Репозиторий с проектами Data Engineering
https://github.com/san089/Udacity-Data-Engineering-Projects
https://github.com/san089/Udacity-Data-Engineering-Projects
GitHub
GitHub - san089/Udacity-Data-Engineering-Projects: Few projects related to Data Engineering including Data Modeling, Infrastructure…
Few projects related to Data Engineering including Data Modeling, Infrastructure setup on cloud, Data Warehousing and Data Lake development. - san089/Udacity-Data-Engineering-Projects
Инженерия_машинного_обучения_Андрей_Бурков_2022.pdf
14.9 MB
Инженерия машинного обучения
Содержит множество рекомендаций и паттернов проектирования надежных и масштабируемых решений в области машинного обучения.
Содержит множество рекомендаций и паттернов проектирования надежных и масштабируемых решений в области машинного обучения.
10 Best Open Source ERP Software Systems For 2022
https://dynamics.folio3.com/blog/open-source-enterprise-resource-planning-software/
https://dynamics.folio3.com/blog/open-source-enterprise-resource-planning-software/
Folio3 Dynamics Blog
🥇 Top 10 open source ERP systems to consider in 2024
We will be looking at top 10 open source ERP software available in the market for 2024. We will be discussing all you want to know about the open source ERP software systems and its working.
ОБРАБОТКА_БОЛЬШИХ_ДАННЫХ_С_APACHE_SPARK_Университет_ИТМО.pdf
2.8 MB
Обработка больших данных с
Apache Spark– СПб: Университет ИТМО, 2019г.
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
Apache Spark– СПб: Университет ИТМО, 2019г.
Учебно-методическое пособие содержит теоретический материал и примеры выполнения задач для курса «Введение в технологии обработки больших данных». Пособие составлено с учётом проведения лабораторных работ с помощью фреймворка Apache Spark. Содержание дисциплины охватывает круг вопросов, связанных с организацией построения ETLконвейеров на основе Spark SQL и DataFrame API для распределенного выполнения на кластерных вычислительных система, включая использование итеративных вычислений, важных для машинного обучения, рассмотрения shuffle механизмов и принципов организации управлением памятью в Spark.
В результате освоения дисциплины студенты приобретают способности разработки программ и построения конвейеров обработки различных данных, навыки по работе с распределенными кластерными системами, а также способности к применению машинного обучения на распределенных наборах данных.
How to Design and Build a Data Platform
https://productcoalition.com/how-to-design-and-build-a-data-platform-as-a-product-d22329ff5a3f
https://productcoalition.com/how-to-design-and-build-a-data-platform-as-a-product-d22329ff5a3f
Medium
How to Design and Build a Data Platform
A breakdown of the challenges, teachable moments, frameworks and recommendations to deliver a data platform successfully.
Перевод книги Problem Solving with Algorithms and Data Structures
https://aliev.me/runestone/index.html
https://aliev.me/runestone/index.html
aliev.me
Оглавление — Problem Solving with Algorithms and Data Structures
An interactive version of Problem Solving with Algorithms and Data Structures using Python.
Data_Analysis_with_Python_and_PySpark_Final_Release_Jonathan_Rioux.pdf
14.6 MB
Data Analysis with Python and PySpark (Final Release) (Jonathan Rioux)
👉 @devops_dataops
In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
👉 @devops_dataops
In Data Analysis with Python and PySpark you will learn how to:
• Manage your data as it scales across multiple machines
• Scale up your data programs with full confidence
• Read and write data to and from a variety of sources and formats
• Deal with messy data with PySpark’s data manipulation functionality
• Discover new data sets and perform exploratory data analysis
• Build automated data pipelines that transform, summarize, and get insights from data
• Troubleshoot common PySpark errors
• Creating reliable long-running jobs
Про Kafka (основы)
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
https://www.youtube.com/watch?v=-AZOi3kP9Js
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
https://www.youtube.com/watch?v=-AZOi3kP9Js
YouTube
Про Kafka (основы)
Apache Kafka - популярный распределенный отказоустойчивый брокер сообщений, используемый в высоконагруженных системах и BigData проектах.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
На видео мой рассказ про основы Kafka: что, зачем, как и где.
Ansible_Up_and_Running_Automating_Configuration_Management_and_Deployment.epub
12.9 MB
Ansible: Up and Running - Automating Configuration Management and Deployment the Easy Way, 3rd Edition
🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
🔹 Explore Ansible configuration management and deployment
🔹 Manage Linux, Windows, and network devices
🔹 Learn how to apply Ansible best practices
🔹 Understand how to use the new collections format
🔹 Create custom modules and plug-ins
🔹 Generate reusable Ansible content for open source middleware
🔹 Build container images, images for cloud instances, and cloud infrastructure
🔹 Automate CI/CD development environments
Как_вытащить_из_данных_максимум_Навыки_аналитики_для_неспециалистов.pdf
2 MB
Как вытащить из данных максимум Навыки аналитики для неспециалистов (Джордан Морроу)
Полный_бред_Скептицизм_в_мире_больших_данных_Карл_Бергстром,_Джевин.epub
6.6 MB
Полный бред Скептицизм в мире больших данных (Карл Бергстром, Джевин Уэст)
🔥1
gRPC_Запуск_и_эксплуатация_облачных_приложений_Go_и_Java_для_Docker.pdf
3.7 MB
gRPC: Запуск и эксплуатация облачных приложений - Go и Java для Docker и Kubernetes
Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.
В книге разбирается, как технология gRPC устроена «под капотом».
Год от года обретая новых сторонников, облачно-ориентированные и микросервисные архитектуры стали основой современного IT. Такой переход значительно повлиял и на структуру коммуникаций. Теперь приложения часто подключаются друг к другу по сети, и это происходит с помощью технологий межпроцессной коммуникации. Одной из наиболее популярных и эффективных технологий такого рода является gRPC.
В книге разбирается, как технология gRPC устроена «под капотом».
GitHub - charlax/professional-programming
A collection of full-stack resources for programmers.
https://github.com/charlax/professional-programming
A collection of full-stack resources for programmers.
https://github.com/charlax/professional-programming
GitHub
GitHub - charlax/professional-programming: A collection of learning resources for curious software engineers
A collection of learning resources for curious software engineers - charlax/professional-programming