Интересное что-то

Forwarded from Евгений Козлов пишет про IT (Eugene Kozlov)

Fundamentals of Data Engineering. Глава №5. Data Generation in Source Systems. Часть №3 Виды СУБД

🔹Реляционные базы данных для Data инженера
Идеально подходят для хранения быстро меняющегося состояния приложения. Задача дата инженера - сформировать алгоритм, как извлекать информацию о состоянии приложения с течением времени.

Данные хранятся в таблицах. Таблица содержит:
- отношения (строки)
- поля (столбцы).
- схема (последовательность столбцов с назначенными статическими типами, такими как string, integer или float)
- первичный ключ (уникальное поле для каждой строки таблицы)
- индекс внешних ключей (обычно с помощью первичного ключа)

Нормализация - это стратегия, гарантирующая, что данные в записях не будут дублироваться, что позволяет избежать необходимости обновлять состояния сразу в нескольких местах и предотвращает несоответствия.

🔹Not only SQL
К NoSQL относится огромное количество баз данных, отказавшихся от классической реляционной модели, чтобы дать другие бенефиты.

🔹Key-Value
Доступ к данным осуществляется по некоторому ключу, возможность использовать гибкие фильтры в большинстве случаев отсутствует.

Одной из наиболее популярных реализаций такого подхода являются Redis и Memcached как СУБД хранящие данные в памяти.

🔹Wide column СУБД
Преимущества:
- способны хранить огромные объемы (петабайты данных),
- высокая скорость транзакций (миллионы запросов в секунду),
- обеспечивают низкую задержку (менее 10 мс) и
могут масштабироваться до экстремальных значений.
- быстрое сканирование огромных объемов данных

Недостатки вытекающие из преимуществ:
- не поддерживаются сложные запросы
- для поиска используется только один индекс (ключ партиции),
что означает, что для аналитических сценариев такие СУБД непригодны практически полностью и необходимо настроить экспорт данных в подходящее место.

🔹СУБД для полнотекстового поиска (Elasticsearch, Apache Solr, Sphinx)
- Данные превращаются в инвертированные индексы, что ускоряет поиск.
- Поиск по синонимам, морфологии, опечаткам, стемминг (cats → cat).
- Поддержка ранжирования (релевантность результатов).

🔹Time Series СУБД
Time series (временной ряд) - это последовательность значений, упорядоченных по времени. Любые события, которые регистрируются с течением времени регулярно или нерегулярно являются данными временного ряда.

- оптимизированы для извлечения и статистической обработки данных временных рядов.
- способны справляться с больши потоками данных
- используют буферизацию в памяти для поддержки быстрой записи и чтения.
- подходят для оперативной аналитики.

Примеры: Prometheus, VictoriaMetrics.

52 views10:26