Forwarded from Курсы NovaData.
Всем привет!
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
🔥11👍2
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
🔥4❤2
DevToys (Developer Tools App) is Now Available for Linux - OMG! Ubuntu
DevToys — это бесплатное и открытое приложение, которое объединяет в себе множество полезных инструментов для разработчиков.
Основные возможности DevToys
Конвертация данных: Перевод текста в разные форматы (JSON, XML, CSV и другие) станет намного проще.
Шифрование и дешифрование: Удобные инструменты для работы с различными методами шифрования.
Генерация данных: Быстрое создание тестовых данных, UUID, хешей и т.д.
Форматирование и минификация кода: Легко привести код в читаемый вид или минимизировать его для оптимизации.
Расчёт контрольных сумм: Вычисление MD5, SHA-1 и других хешей.
Инструменты для работы с датами и временем: Конвертация временных меток, работа с таймзонами и многое другое.
https://www.omgubuntu.co.uk/2024/07/devtoys-developer-tool-now-available-on-linux
Ссылка на сам проект: https://github.com/DevToys-app/DevToys
DevToys — это бесплатное и открытое приложение, которое объединяет в себе множество полезных инструментов для разработчиков.
Основные возможности DevToys
Конвертация данных: Перевод текста в разные форматы (JSON, XML, CSV и другие) станет намного проще.
Шифрование и дешифрование: Удобные инструменты для работы с различными методами шифрования.
Генерация данных: Быстрое создание тестовых данных, UUID, хешей и т.д.
Форматирование и минификация кода: Легко привести код в читаемый вид или минимизировать его для оптимизации.
Расчёт контрольных сумм: Вычисление MD5, SHA-1 и других хешей.
Инструменты для работы с датами и временем: Конвертация временных меток, работа с таймзонами и многое другое.
https://www.omgubuntu.co.uk/2024/07/devtoys-developer-tool-now-available-on-linux
Ссылка на сам проект: https://github.com/DevToys-app/DevToys
OMG! Ubuntu
DevToys (Developer Tools App) is Now Available for Linux
When Scott suggested I cover a new open-source app for Linux on the basis "it's like Microsoft PowerToys for developers", I wasn't exactly sure what I'd
❤2👍2
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024
Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
❤8🔥1
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide
📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons
A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons
Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
https://tproger.ru/curriculum/data-engineer-interview-guide
📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons
A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons
Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
Tproger
Data Engineer: учебное пособие для прохождения собеседования
Детальный план по обучению профессии Data Engineer. В нём вы найдёте задачи разного уровня сложности, видеоуроки и курсы.
🔥5❤1
Building a Scalable Data Warehouse with Data Vault 2.0.pdf
51.2 MB
Суть Data Vault 2.0 заключается в создании гибкой, масштабируемой и устойчивой модели данных, которая позволяет легко адаптироваться к изменениям в бизнесе и поддерживать большие объёмы данных.
Она структурирует данные в виде:
💡Хабов (Hub) — хранят ключевые сущности.
💡Линков (Link) — фиксируют связи между сущностями.
💡Сателлитов (Satellite) — содержат атрибуты и детали, которые могут изменяться со временем.
Data Vault 2.0 упрощает работу с историческими данными и обеспечивает легкую интеграцию новых источников без изменения основной структуры.
Она структурирует данные в виде:
💡Хабов (Hub) — хранят ключевые сущности.
💡Линков (Link) — фиксируют связи между сущностями.
💡Сателлитов (Satellite) — содержат атрибуты и детали, которые могут изменяться со временем.
Data Vault 2.0 упрощает работу с историческими данными и обеспечивает легкую интеграцию новых источников без изменения основной структуры.
👍2
Building a Scalable Data Warehouse with Data Vault 2.0 (English) PDF
Data Vault был изобретен Дэном Линстедтом в Министерстве обороны США, и этот стандарт успешно применялся к проектам по хранению данных в организациях разных размеров, от малых до крупных корпораций. Благодаря своей упрощенной конструкции, стандарт Data Vault 2.0 помогает предотвратить типичные сбои в хранении данных.
Книга «Building a Scalable Data Warehouse with Data Vault 2.0» охватывает все, что нужно знать для создания масштабируемого хранилища данных от начала до конца, включая презентацию метода моделирования Data Vault, который обеспечивает основу для создания технического уровня хранилища данных. В книге обсуждается, как построить хранилище данных постепенно, используя гибкую методологию Data Vault 2.0. Кроме того, читатели узнают, как создать входной уровень (stage layer) и уровень представления (presentation layer - data mart) архитектуры Data Vault 2.0, включая лучшие практики внедрения.
Опираясь на многолетний практический опыт и используя многочисленные примеры и простую для понимания структуру, Дэн Линстедт и Майкл Олшимке обсуждают:
📌 Как загружать каждый слой с помощью SQL Server Integration Services (SSIS), включая автоматизацию процессов загрузки Data Vault
📌 Важные технологии и практики хранилища данных
📌 Data Quality Services (DQS) и Master Data Services (MDS) в контексте архитектуры Data Vault
📌 Книга предоставляет полное введение в хранилище данных, приложения и бизнес-контекст, чтобы читатели могли быстро приступить к работе
📌 Объясняет теоретические концепции и предоставляет практические инструкции по созданию и внедрению хранилища данных
📌 Поясняет моделирование хранилища данных с помощью начальных, средних и продвинутых методов
📌 Обсуждает преимущества подхода хранилища данных по сравнению с другими методами, включая также последние обновления Data Vault 2.0 и многочисленные улучшения Data Vault 1.0
Data Vault был изобретен Дэном Линстедтом в Министерстве обороны США, и этот стандарт успешно применялся к проектам по хранению данных в организациях разных размеров, от малых до крупных корпораций. Благодаря своей упрощенной конструкции, стандарт Data Vault 2.0 помогает предотвратить типичные сбои в хранении данных.
Книга «Building a Scalable Data Warehouse with Data Vault 2.0» охватывает все, что нужно знать для создания масштабируемого хранилища данных от начала до конца, включая презентацию метода моделирования Data Vault, который обеспечивает основу для создания технического уровня хранилища данных. В книге обсуждается, как построить хранилище данных постепенно, используя гибкую методологию Data Vault 2.0. Кроме того, читатели узнают, как создать входной уровень (stage layer) и уровень представления (presentation layer - data mart) архитектуры Data Vault 2.0, включая лучшие практики внедрения.
Опираясь на многолетний практический опыт и используя многочисленные примеры и простую для понимания структуру, Дэн Линстедт и Майкл Олшимке обсуждают:
📌 Как загружать каждый слой с помощью SQL Server Integration Services (SSIS), включая автоматизацию процессов загрузки Data Vault
📌 Важные технологии и практики хранилища данных
📌 Data Quality Services (DQS) и Master Data Services (MDS) в контексте архитектуры Data Vault
📌 Книга предоставляет полное введение в хранилище данных, приложения и бизнес-контекст, чтобы читатели могли быстро приступить к работе
📌 Объясняет теоретические концепции и предоставляет практические инструкции по созданию и внедрению хранилища данных
📌 Поясняет моделирование хранилища данных с помощью начальных, средних и продвинутых методов
📌 Обсуждает преимущества подхода хранилища данных по сравнению с другими методами, включая также последние обновления Data Vault 2.0 и многочисленные улучшения Data Vault 1.0
👍3
Streaming_Data_Mesh.pdf
6.3 MB
Озера и хранилища данных становятся все более хрупкими, дорогостоящими и сложными в обслуживании по мере увеличения объема данных и ускорения их движения. Сетки данных могут помочь вашей организации децентрализовать данные, вернув право собственности на них инженерам, которые их создали. В этой книге представлен краткий, но исчерпывающий обзор моделей ячеек данных для служб потоковых данных и данных реального времени.
👍8
Алгоритмы. С примерами на Python 2023.pdf
33.1 MB
Алгосы с примерами на Python из 2023 🤪
Качай, читай, на собесах применяй😉
Качай, читай, на собесах применяй😉
👍5🔥1
CDC и Debezium
Debezium — это платформа с открытым исходным кодом, которая отслеживает изменения в базах данных в режиме реального времени (CDC, Change Data Capture).
Она позволяет захватывать изменения (вставки, обновления, удаления) из транзакционных журналов баз данных, таких как MySQL, PostgreSQL, SQL Server и других, и передавать их в системы обработки данных, например Apache Kafka.
Debezium используется для синхронизации данных между различными системами, построения real-time аналитики и миграции данных.
~ Статьи по теме ~
Знакомство с Debezium — CDC для Apache Kafka / Habr
CDC на примитивах
Change Data Capture (CDC) в Yandex Data Transfer: гид по технологии с примерами
Особенности проекта Debezium для решения задачи миграции баз данных
Change Data Capture, with Debezium
Change Data Capture (CDC) with PostgreSQL and ClickHouse - Part 1
Change Data Capture (CDC) with PostgreSQL and ClickHouse - Part 2
~~~
#cdc #debezium
Debezium — это платформа с открытым исходным кодом, которая отслеживает изменения в базах данных в режиме реального времени (CDC, Change Data Capture).
Она позволяет захватывать изменения (вставки, обновления, удаления) из транзакционных журналов баз данных, таких как MySQL, PostgreSQL, SQL Server и других, и передавать их в системы обработки данных, например Apache Kafka.
Debezium используется для синхронизации данных между различными системами, построения real-time аналитики и миграции данных.
~ Статьи по теме ~
Знакомство с Debezium — CDC для Apache Kafka / Habr
CDC на примитивах
Change Data Capture (CDC) в Yandex Data Transfer: гид по технологии с примерами
Особенности проекта Debezium для решения задачи миграции баз данных
Change Data Capture, with Debezium
Change Data Capture (CDC) with PostgreSQL and ClickHouse - Part 1
Change Data Capture (CDC) with PostgreSQL and ClickHouse - Part 2
~~~
#cdc #debezium
Хабр
Знакомство с Debezium — CDC для Apache Kafka
В своей работе я часто сталкиваюсь с новыми техническими решениями/программными продуктами, информации о которых в русскоязычном интернете довольно мало. Этой статьей постараюсь восполнить один такой...
🔥7
Debezium Engine (3).pdf
24 MB
Презентация со SmartData 2024
DebeziumEngine: практическое руководство по использованию
Анастасия Сашина | Java/Kotlin разработчик Т-Банка
DebeziumEngine: практическое руководство по использованию
Анастасия Сашина | Java/Kotlin разработчик Т-Банка
🔥5
Обзор работы Debezium с PG в режиме логической репликации
https://youtu.be/NlBUSGSFtMQ?si=WySzda3IKAxAYK8I
https://youtu.be/NlBUSGSFtMQ?si=WySzda3IKAxAYK8I
YouTube
Обзор работы Debezium с PG в режиме логической репликации
В данном мы разберем как настраивается коннекторы debezium для PG для работы в режиме логической репликации.
Ссылка на git репозитарий https://github.com/biwed/dp--review
00:00 Вступление
02:35 Обзор Docker compose файла
04:27 Настройка потоковой репликации…
Ссылка на git репозитарий https://github.com/biwed/dp--review
00:00 Вступление
02:35 Обзор Docker compose файла
04:27 Настройка потоковой репликации…
👍2
Linux: настройка мониторинга за 15 минут с помощью Grafana и Prometheus
https://www.youtube.com/watch?v=X_g-eJqiiLo
https://www.youtube.com/watch?v=X_g-eJqiiLo
YouTube
Linux: настройка мониторинга за 15 минут с помощью Grafana и Prometheus
В этом видео показывается, как организовать мониторинг сервера/компьютера на операционной системе Linux с помощью Grafana, Prometheus и Node Exporter
Репозиторий: https://git.digitalstudium.com/digitalstudium/grafana-docker-stack
Этот же мониторинг + настройка…
Репозиторий: https://git.digitalstudium.com/digitalstudium/grafana-docker-stack
Этот же мониторинг + настройка…
Автоматизация обеспечения качества кода на языке Python
В первой части статьи обсуждаются концепции качества кода и его важность, во второй — предложено пошаговое руководство по настройке линтинга, форматирования и проверки типов с помощью инструментов, таких как flake8 и Black, что помогает ускорить процессы разработки и избежать ошибок на ранних этапах.
https://habr.com/ru/companies/otus/articles/750214/
В первой части статьи обсуждаются концепции качества кода и его важность, во второй — предложено пошаговое руководство по настройке линтинга, форматирования и проверки типов с помощью инструментов, таких как flake8 и Black, что помогает ускорить процессы разработки и избежать ошибок на ранних этапах.
https://habr.com/ru/companies/otus/articles/750214/
Хабр
Автоматизация обеспечения качества кода на языке Python
Далее в статье я поясню, что я понимаю под термином «качество кода» и какую пользу оно приносит разработчикам. В первой половине статьи я раскрою общие концепции и рабочие процессы, применимые к...
❤1
Наткнулся на аккаунт https://github.com/kzzzr. Советую глянуть все репозитории. Выделю некоторые:
DWH powered by Clickhouse and dbt
Курс Analytics Engineer
Data Vault powered by dbtVault and Greenplum
Data Vault 2.0: Code generation, Vertica, Airflow
Статья на Habr "Строим Data Vault на данных TPC-H – Greenplum + dbtVault"
DWH powered by Clickhouse and dbt
Курс Analytics Engineer
Data Vault powered by dbtVault and Greenplum
Data Vault 2.0: Code generation, Vertica, Airflow
Статья на Habr "Строим Data Vault на данных TPC-H – Greenplum + dbtVault"
GitHub
kzzzr - Overview
Building reliable, cost effective and elegant Data Solutions - kzzzr
🔥8
SmartData2024_Data_Vault_2.0.pdf
1.9 MB
Презентация со SmartData 2024: Data Vault 2.0
В каких случаях внедрять, разбор основных проблем применения методологии при построении DWH на Greenplum.
Денис Лукьянов
Руководитель направления архитектуры данных
В каких случаях внедрять, разбор основных проблем применения методологии при построении DWH на Greenplum.
Денис Лукьянов
Руководитель направления архитектуры данных
👍8❤1
SmartData_2024_dbt_data_mesh_airflow.pdf
8.4 MB
Презентация со SmartData 2024: Data Mesh / dbt / Airflow
От хайпа до продакшена: DataMesh на Airflow + dbt.
От хайпа до продакшена: DataMesh на Airflow + dbt.
👍3
SmartData 2023: dbt — ядро современной платформы данных
https://youtu.be/u8LkCBVKKus?si=AOebDOfm28T2n3AF
https://youtu.be/u8LkCBVKKus?si=AOebDOfm28T2n3AF
YouTube
Евгений Ермаков — dbt — ядро современной платформы данных
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
dbt — один из самых быстро набирающих популярность инструментов в сфере построения платформ и хранилищ данных. Сочетание простоты и функциональности этого инструмента подкупила и команду Toloka.ai…
— —
dbt — один из самых быстро набирающих популярность инструментов в сфере построения платформ и хранилищ данных. Сочетание простоты и функциональности этого инструмента подкупила и команду Toloka.ai…