Интересное что-то

47 views13:44

Пылесосим таблицы в Greenplum

Замечали ли вы когда-нибудь, что ваша таблица выросла с 10 ГБ до 30 ГБ, но при этом количество строк увеличилось всего на 20%? Или ещё хуже, после массового удаления половины данных таблица как занимала 100 ГБ, так и продолжает занимать?
Если знакомо, то добро пожаловать в мир «призрачных» строк и раздувшихся таблиц.

В чём суть проблемы?

Из-за MVCC (многоверсионного управления параллелизмом) при UPDATE и DELETE старые версии строк физически не удаляются, а помечаются как «мёртвые». Со временем таблицы раздуваются, производительность падает. Чтобы это исправить, обращаемся к VACUUM.

🟣

VACUUM - это SQL-команда для «сборки мусора», унаследованная Greenplum от PostgreSQL. Она освобождает место, занимаемое удалёнными или устаревшими строками. Есть два основных типа вакуумирования:

➡️

VACUUM (обычный): просто освобождает занятое место для повторного использования, работает быстро, может выполняться параллельно с другими операциями.

➡️

VACUUM FULL: полностью переписывает таблицу, реально удаляя мусор и уменьшая физический размер файла таблицы, но требует эксклюзивного доступа и работает заметно дольше.

◀️Как запустить VACUUM

-- Обычная очистка (без блокировки)
VACUUM my_table;

-- Полная очистка (с блокировкой, возвращает место ОС)
VACUUM FULL my_table;

-- С обновлением статистики
VACUUM ANALYZE my_table;

Ключевые особенности:
⭐️Выполняется параллельно на всех сегментах кластера
⭐️Обычный VACUUM не блокирует таблицу
⭐️VACUUM FULL блокирует и физически перезаписывает файлы
⭐️Не работает с external/foreign таблицами
⭐️Для таблиц append-only необходимо свободное место на диске ≥ размера самого большого сегмента

Когда запускать VACUUM
🟣После массовых DELETE/UPDATE операций
🟣Для таблиц с высокой частотой изменений
🟣Регулярно для системных каталогов
🟣После значительных изменений данных (для обновления статистики)

Избегать:
🟣VACUUM FULL в пиковые часы
🟣Частое использование VACUUM FULL (только в критических случаях)
🟣Запуск на огромных таблицах без окна обслуживания

▪️

Важно: VACUUM FULL требует двойного объёма свободного места, так как создаёт полную копию таблицы. Альтернативное решение: удалить старую таблицу и заново создать ее.

В Greenplum нет глобального автоматического вакуума для пользовательских таблиц, поэтому нужно планировать и запускать его вручную. Для системных таблиц autovacuum работает автоматически.

Что в итоге?

VACUUM - критически важная операция для поддержания производительности Greenplum. Регулярное выполнение предотвращает деградацию системы и избавляет от аварийных ситуаций.

➡️Читать подробнее: Сборка мусора и очистка таблиц в Greenplum с командой VACUUM

©️

что-то на инженерном

Please open Telegram to view this post

VIEW IN TELEGRAM

48 views13:44