BA & SA | 10000 Interview questions

🧑‍🎓Объяснение:

Это классическая ситуация работы с большими таблицами временных данных, где начальный индекс становится неэффективным из-за специфики запросов.

🔍 Почему проблема возникает:

Индекс на user_id позволяет быстро найти ВСЕ документы пользователя за всю историю
У активного пользователя может быть 100K+ документов за несколько лет
После поиска по индексу СУБД всё равно должна просканировать и отсортировать все эти строки
При выборке "за последний месяц" фактически обрабатывается 99% ненужных данных
✅ Почему вариант B правильный:

Составной индекс (user_id, created_at) решает проблему кардинально:

Данные уже отсортированы по пользователю И дате
СУБД находит первую запись пользователя за нужный период и читает последовательно только релевантные строки
Не нужно сортировать результаты или фильтровать лишнее
Статистика эффективности:

До: Сканирование 100K записей пользователя → фильтрация → сортировка
После: Сканирование 1-2K записей (только за нужный месяц) → готовый результат
Пример запроса, который станет эффективным:

```sql
SELECT * FROM documents
WHERE user_id = 12345
AND created_at >= '2024-10-01'
ORDER BY created_at DESC
```

-- Использует индекс (user_id, created_at)
❌ Почему другие варианты не решат проблему:

A (REINDEX): Поможет, если индекс действительно фрагментирован на 40%+, но не изменит принципиальную неэффективность одно-колоночного индекса для такого запроса.
C (Увеличить память): Симптоматичное лечение. Проблема в логике доступа к данным, а не в ресурсах.
D (Кэширование): Маскирует проблему, но не решает её. При первом запросе или сбросе кэша задержки вернутся.
💡 Профессиональный совет аналитику:

При проектировании таблиц с историческими данными всегда задавайте вопросы:

«По каким полям чаще всего будет фильтрация?» → Составные индексы на комбинации этих полей
«Какой типичный диапазон выборки?» → Индексы должны поддерживать типичные сценарии (последние N дней/записей)
«Нужна ли сортировка в результатах?» → Индекс может обеспечивать предварительную сортировку
📊 Реальный пример из практики:
В одной из систем после добавления составного индекса (user_id, created_at, status) время выполнения типовых запросов сократилось:

Поиск документов пользователя: с 14 сек → 120 мс
Отчёт "Документы за месяц": с 8 сек → 90 мс
Нагрузка на БД: снизилась на 40%
🎯 Вывод: Правильные индексы — это не просто техническая оптимизация, а архитектурное решение, которое должно закладываться на этапе проектирования схемы данных. Аналитик, понимающий паттерны доступа к данным, может предотвратить такие проблемы до их возникновения.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5

612 views10:01