Data Engineering / Инженерия данных / Data Engineer / DWH
1.92K subscribers
49 photos
7 videos
52 files
349 links
Data Engineering: ETL / DWH / Data Pipelines based on Open-Source software. Инженерия данных.

DWH / SQL
Python / ETL / ELT / dbt / Spark
Apache Airflow

Рекламу не размещаю
Вопросы: @iv_shamaev | datatalks.ru
Download Telegram
Forwarded from DataEng
Курс про Apache Airflow бесплатно

Решил выложить свой курс про Apache Airflow абсолютно бесплатно для всех: Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые только предстоит покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.

В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе я подробно разбираю как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.

Велком!
🔥7🥴2👍1
Рейтинг Open-Source проектов

All Projects - OSSRank
https://ossrank.com/
GitHub - QuantumFluxx/karpov_courses: 🐳 Проектная деятельность. Здесь хранятся лекции, практические задания и проекты с karpov_courses.

https://github.com/QuantumFluxx/karpov_courses
3
Forwarded from Курсы NovaData.
Всем привет!

Ровно через 3 недели будет открыт наш курс.

Расскажем, что ждет Вас на курсе:

📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор

Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
🔥11👍2
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data

Lakehouse Functionality, Performance, and Scalability on the Data Lake
🔥42
DevToys (Developer Tools App) is Now Available for Linux - OMG! Ubuntu

DevToys — это бесплатное и открытое приложение, которое объединяет в себе множество полезных инструментов для разработчиков.

Основные возможности DevToys
Конвертация данных: Перевод текста в разные форматы (JSON, XML, CSV и другие) станет намного проще.
Шифрование и дешифрование: Удобные инструменты для работы с различными методами шифрования.
Генерация данных: Быстрое создание тестовых данных, UUID, хешей и т.д.
Форматирование и минификация кода: Легко привести код в читаемый вид или минимизировать его для оптимизации.
Расчёт контрольных сумм: Вычисление MD5, SHA-1 и других хешей.
Инструменты для работы с датами и временем: Конвертация временных меток, работа с таймзонами и многое другое.


https://www.omgubuntu.co.uk/2024/07/devtoys-developer-tool-now-available-on-linux

Ссылка на сам проект: https://github.com/DevToys-app/DevToys
2👍2
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024

Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
8🔥1
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide

📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons

A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons

Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
🔥51
Building a Scalable Data Warehouse with Data Vault 2.0.pdf
51.2 MB
Суть Data Vault 2.0 заключается в создании гибкой, масштабируемой и устойчивой модели данных, которая позволяет легко адаптироваться к изменениям в бизнесе и поддерживать большие объёмы данных.

Она структурирует данные в виде:
💡Хабов (Hub) — хранят ключевые сущности.
💡Линков (Link) — фиксируют связи между сущностями.
💡Сателлитов (Satellite) — содержат атрибуты и детали, которые могут изменяться со временем.

Data Vault 2.0 упрощает работу с историческими данными и обеспечивает легкую интеграцию новых источников без изменения основной структуры.
👍2