📢 Привет всем!
Если вы интересуетесь обработкой данных, то новый материал от Василия из Х5 Tech точно вас заинтересует. Он делится опытом работы с алгоритмом Slowly Changing Dimensions-2 (SCD-2) на PySpark, который позволяет эффективно управлять хранением данных, снижая их дублирование.
В статье рассматриваются не только основные принципы работы с SCD-2 таблицами, но и методы нахождения изменений в данных, даже когда отсутствуют соответствующие поля. Также Василий расскажет, как получать исторические срезы на нужную дату.
Не пропустите возможность узнать что-то новое и полезное для вашей работы! Читать далее
#Python #DataEngineering #PySpark #Habr
Если вы интересуетесь обработкой данных, то новый материал от Василия из Х5 Tech точно вас заинтересует. Он делится опытом работы с алгоритмом Slowly Changing Dimensions-2 (SCD-2) на PySpark, который позволяет эффективно управлять хранением данных, снижая их дублирование.
В статье рассматриваются не только основные принципы работы с SCD-2 таблицами, но и методы нахождения изменений в данных, даже когда отсутствуют соответствующие поля. Также Василий расскажет, как получать исторические срезы на нужную дату.
Не пропустите возможность узнать что-то новое и полезное для вашей работы! Читать далее
#Python #DataEngineering #PySpark #Habr
Хабр
Повышаем эффективность хранения данных до 300 раз с помощью таблиц SCD-2
Всем привет, меня зовут Василий. С 2021 года работаю в роли инженера данных, а в 2024 году присоединился к одной из продуктовых команд в Х5 Tech. За это время успел познакомиться с несколькими...