Data Cleaning - DEV Community
Список задач по очистке данных
https://dev.to/nozibul_islam_113b1d5334f/data-cleaning-1c68
Список задач по очистке данных
https://dev.to/nozibul_islam_113b1d5334f/data-cleaning-1c68
DEV Community
Data Cleaning
What is Data Cleaning? Data cleaning is a process where errors, inconsistencies, and...
Введение в dbt: основы моделирования данных
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая ценность dbt?
05:51 Начало Data Lake
08:35 Большие SQL скрипты
10:12 Glue Spark ETL
13:00 Решение через Data Builder
17:40 Как продать команде свое решение?
19:18 Преимущества data build tool
28:33 Анатомия проекта на дбт
30:00 Создаем проект
01:10:15 Моделирование данных с dbt
01:21:41 Проблемы с аналитикой в БД
01:27:50 Оркестрация data build tool
01:30:00 Преимущества на dbt
01:31:10 Подводные камни ди би ти
https://www.youtube.com/watch?v=BSge0lPJeHk
#dbt
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая ценность dbt?
05:51 Начало Data Lake
08:35 Большие SQL скрипты
10:12 Glue Spark ETL
13:00 Решение через Data Builder
17:40 Как продать команде свое решение?
19:18 Преимущества data build tool
28:33 Анатомия проекта на дбт
30:00 Создаем проект
01:10:15 Моделирование данных с dbt
01:21:41 Проблемы с аналитикой в БД
01:27:50 Оркестрация data build tool
01:30:00 Преимущества на dbt
01:31:10 Подводные камни ди би ти
https://www.youtube.com/watch?v=BSge0lPJeHk
#dbt
YouTube
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.me/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.me/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…
🔥9👍1
DBT Tutorial 12 videos YouTube Playlist
https://youtube.com/playlist?list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&si=RXZY3jcHCOQ9A4Sz
#dbt
https://youtube.com/playlist?list=PLc2EZr8W2QIBegSYp4dEIMrfLj_cCJgYA&si=RXZY3jcHCOQ9A4Sz
#dbt
YouTube
dbt Tutorial (Data Build Tool) Hands-on Course - Beginners and Advanced | in 1 hour
DBT for Beginners: A Complete Guide Dbt tutorial playlist youtube best dbt tutorial Dbt tutorial for beginners Dbt tutorial youtube DBT Fundamentals dbt Cras...
👍2🥰2
This media is not supported in your browser
VIEW IN TELEGRAM
Apache Kafka
Изначально созданная для обработки логов, Kafka теперь является основой для множества приложений. Её устойчивое хранилище сообщений и гибкий доступ к данным позволяют потребителям извлекать записи в удобное для них время.
Вот несколько популярных сценариев использования Kafka:
▫️Обработка и анализ логов: Эффективно справляется с огромными объёмами данных логов для их анализа и генерации инсайтов.
▫️Стриминг данных для рекомендаций: Обеспечивает потоковую обработку данных в реальном времени для предоставления персонализированных рекомендаций.
▫️Мониторинг и оповещения систем: Ускоряет мониторинг метрик и отправку уведомлений для своевременного реагирования на события в системе.
▫️Change Data Capture (CDC): Фиксирует и обрабатывает изменения в базах данных, чтобы поддерживать синхронизацию данных между системами.
▫️Миграция систем: Поддерживает бесшовную миграцию данных, обеспечивая их консистентность и доступность.
YouTube: Top Kafka use cases you should know
YouTube: Что такое кафка
#kafka
Изначально созданная для обработки логов, Kafka теперь является основой для множества приложений. Её устойчивое хранилище сообщений и гибкий доступ к данным позволяют потребителям извлекать записи в удобное для них время.
Вот несколько популярных сценариев использования Kafka:
▫️Обработка и анализ логов: Эффективно справляется с огромными объёмами данных логов для их анализа и генерации инсайтов.
▫️Стриминг данных для рекомендаций: Обеспечивает потоковую обработку данных в реальном времени для предоставления персонализированных рекомендаций.
▫️Мониторинг и оповещения систем: Ускоряет мониторинг метрик и отправку уведомлений для своевременного реагирования на события в системе.
▫️Change Data Capture (CDC): Фиксирует и обрабатывает изменения в базах данных, чтобы поддерживать синхронизацию данных между системами.
▫️Миграция систем: Поддерживает бесшовную миграцию данных, обеспечивая их консистентность и доступность.
YouTube: Top Kafka use cases you should know
YouTube: Что такое кафка
#kafka
👍4
This media is not supported in your browser
VIEW IN TELEGRAM
💡 7 стратегий для масштабирования базы данных
1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.
2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.
3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.
4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.
5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.
6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.
7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.
YouTube: 7 must-know strategies to scale your database
#scaling #масштабирование_базы_данных
1️⃣ Индексация
Анализируйте запросы вашего приложения и создавайте подходящие индексы для ускорения работы.
2️⃣ Материализованные представления
Предварительно вычисляйте сложные запросы и сохраняйте результаты для быстрого доступа.
3️⃣ Денормализация
Сократите сложные соединения таблиц, чтобы повысить производительность запросов.
4️⃣ Вертикальное масштабирование
Увеличьте мощность сервера базы данных, добавив больше CPU, оперативной памяти или хранилища.
5️⃣ Кэширование
Сохраняйте часто используемые данные в более быстром слое хранения, чтобы снизить нагрузку на базу данных.
6️⃣ Репликация
Создавайте копии основной базы данных на других серверах для распределения нагрузки на чтение.
7️⃣ Шардинг
Разделяйте таблицы на небольшие части и распределяйте их по разным серверам. Это поможет масштабировать как чтение, так и запись.
YouTube: 7 must-know strategies to scale your database
#scaling #масштабирование_базы_данных
🤔1
SQL & Hibernate (лекции JavaRush)
Неплохой набор лекций по работе с базами данных.
Что относится к Java разработке можно пролистать.
https://javarush.com/quests/QUEST_SQL_HIBERNATE_PUBLIC
Неплохой набор лекций по работе с базами данных.
Что относится к Java разработке можно пролистать.
https://javarush.com/quests/QUEST_SQL_HIBERNATE_PUBLIC
JavaRush
SQL & Hibernate
Квест посвящен продвинутому изучению БД в разрезе задач разработчика. Вы узнаете о том, зачем нужны БД и какими они бывают, о проектировании БД, типах данных, ORM Hibernate (архитектура Hibernate, конфигурация, основные аннотации, получение, обновление и…
Data Engineering Zoomcamp 2025 Cohort
_ _ _ Б Е С П Л А Т Н О _ _ _
Start: 13 January 2025
Registration link: https://airtable.com/shr6oVXeQvSI5HuWD
Materials specific to the cohort: cohorts/2025/
https://github.com/DataTalksClub/data-engineering-zoomcamp
_ _ _ Б Е С П Л А Т Н О _ _ _
Start: 13 January 2025
Registration link: https://airtable.com/shr6oVXeQvSI5HuWD
Materials specific to the cohort: cohorts/2025/
https://github.com/DataTalksClub/data-engineering-zoomcamp
GitHub
GitHub - DataTalksClub/data-engineering-zoomcamp: Data Engineering Zoomcamp is a free nine-week course that covers the fundamentals…
Data Engineering Zoomcamp is a free nine-week course that covers the fundamentals of data engineering. - DataTalksClub/data-engineering-zoomcamp
👍6
PySpark Playground & Tutorial
https://www.sparkplayground.com/tutorials - здесь можно изучить работу со спарком (на английском)
https://www.sparkplayground.com/playground - здесь можно потренироваться онлайн
#spark #pyspark
https://www.sparkplayground.com/tutorials - здесь можно изучить работу со спарком (на английском)
https://www.sparkplayground.com/playground - здесь можно потренироваться онлайн
#spark #pyspark
Spark Playground
Platform to learn, practice, and solve PySpark interview questions to land your next DE role.
🔥8
В видео по Spark есть ссылка на роадмап по DE с кучей полезных инструкций по инструментам.
GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.
https://github.com/halltape/HalltapeRoadmapDE
GitHub - halltape/HalltapeRoadmapDE: Roadmap для Data Engineer.
https://github.com/halltape/HalltapeRoadmapDE
Оптимизация SQL запросов на примере ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Бесплатно
Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД
https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/
#ClickHouse
Stepik: online education
Оптимизация SQL запросов на примере ClickHouse
🔥 Ваши SQL-запросы тормозят и съедают ресурсы?
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.
Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…
❤8👎1🔥1
Awesome Data Engineering Learning Sources - Roadmap для инженеров данных
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).
https://datatalks.ru/awesome-data-engineering-learning-sources/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap
Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?
🔥7👍3
Перевод главы "Введение в dbt" из книги Unlocking dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод главы «Введение в dbt» из книги Unlocking dbt
Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…
🔥13
Как устроена база данных? Схемы, ограничения, индексы, кластеры
Для начинающих будет полезно
https://youtu.be/8L51FUsjMxA?si=z8uPvZjbnphQC3cx
Для начинающих будет полезно
https://youtu.be/8L51FUsjMxA?si=z8uPvZjbnphQC3cx
YouTube
Как устроена База Данных? Кластеры, индексы, схемы, ограничения
Разбираемся с кластером, базами, схемами, ограничениями и индексами.
Выбирайте подходящие сервисы для хранения данных в Selectel: https://slc.tl/j0mh4
Готовься к собеседованию на Солвит: https://clck.ru/3FPmdz
Телеграм канал Артём Шумейко: https://t.me/artemshumeiko…
Выбирайте подходящие сервисы для хранения данных в Selectel: https://slc.tl/j0mh4
Готовься к собеседованию на Солвит: https://clck.ru/3FPmdz
Телеграм канал Артём Шумейко: https://t.me/artemshumeiko…
👍2👀2👎1
Apache Iceberg + StarRocks YouTube Playlist
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
StarRocks as LakeHouse Query Engine
24 видосика.
https://youtu.be/8Q5Vev4O1lQ?si=7DIuO3IuIOmf6aHi
=== PS ===
В доке пишут, что StarRocks превосходит по производительности ClickHouse и Trino https://docs.starrocks.io/docs/benchmarking/
Понятно, что надо смотреть на типы задач, настройки и структуры данных, но интересный инструмент в любом случае.
Еще 1 статья Сравнение трино и старрокс https://gavrilov.info/all/sravnenie-query-dvizhkov-trino-i-starrocks/
#Iceberg #StarRocks
YouTube
Apache Iceberg + StarRocks: Your Recipe for Superior Lakehouse Performance
Apache Iceberg brought reliability and simplicity to the open data lake, and now it’s helping drive query performance too. Thanks to new integrations with the StarRocks project, Apache Iceberg users no longer need to copy their data into a proprietary data…
👍3
Перевод Analytics Engineering with SQL and dbt. Глава 1
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод Analytics Engineering with SQL and dbt. Глава 1
Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…
🔥8