Yandex B2B Tech запустили Managed Sharded PostgreSQL (SPQR) – сервис для горизонтального масштабирования самой популярной опенсорс БД в мире. Теперь банкам и ритейлу станет проще обрабатывать миллионы транзакций в реальном времени и без боли масштабировать свои системы по мере роста нагрузок.
В стандартном PostgreSQL горизонтального масштабирования нет, а при больших объёмах данных без него уже никуда. Шардированный PostgreSQL позволяет ускорять запуск новых продуктов в 3–4 раза, упрощает сопровождение и снижает операционные риски – инженерам не нужно вручную собирать и поддерживать сложную инфраструктуру.
Технология уже обкатана в проде – её используют Яндекс ID, Яндекс Пэй и Едадил, стабильность подтверждена и внешними компаниями. PostgreSQL сегодня выбирают 55,6% профессиональных разработчиков, а Managed Service for PostgreSQL в Yandex Cloud обслуживает уже больше 5 тысяч клиентов.
В итоге: быстрее time-to-market, меньше затрат на разработку при запуске высоконагруженных продуктов
👉 @SQLPortal
В стандартном PostgreSQL горизонтального масштабирования нет, а при больших объёмах данных без него уже никуда. Шардированный PostgreSQL позволяет ускорять запуск новых продуктов в 3–4 раза, упрощает сопровождение и снижает операционные риски – инженерам не нужно вручную собирать и поддерживать сложную инфраструктуру.
Технология уже обкатана в проде – её используют Яндекс ID, Яндекс Пэй и Едадил, стабильность подтверждена и внешними компаниями. PostgreSQL сегодня выбирают 55,6% профессиональных разработчиков, а Managed Service for PostgreSQL в Yandex Cloud обслуживает уже больше 5 тысяч клиентов.
В итоге: быстрее time-to-market, меньше затрат на разработку при запуске высоконагруженных продуктов
Please open Telegram to view this post
VIEW IN TELEGRAM
CNews.ru
Yandex B2B Tech поможет банкам и ритейлерам обрабатывать миллионы транзакций быстрее и надежнее - CNews
Yandex B2B Tech запустила сервис для быстрого горизонтального масштабирования самой популярной опенсорсной базы данных...
❤6🤔3👍2
Alibaba выложили в опенсорс AliSQL (на базе MySQL 8.0.44) с встроенным движком DuckDB. Теперь аналитические нагрузки можно гонять прямо в MySQL — достаточно переключить storage engine на DuckDB.
👉 @SQLPortal
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - alibaba/AliSQL: AliSQL is a MySQL branch originated from Alibaba Group. Fetch document from Release Notes at bottom.
AliSQL is a MySQL branch originated from Alibaba Group. Fetch document from Release Notes at bottom. - alibaba/AliSQL
Вчера мы говорили про GIN-индексы, но они не поддерживают ORDER BY. В некоторых ограниченных случаях можно использовать выраженные индексы на JSON-выборках, которые просто фиксируют текстовое значение по заданному keypath (пути к ключу).
➡️ Не для общего случая, а под конкретные кейсы
➡️ Ускоряют lookups по одиночным ключам в JSON
➡️ B-tree индекс, поддерживает ORDER BY
➡️ Убирает оверхед GIN или необходимость парсить JSON во время выполнения запроса
👉 @SQLPortal
CREATE INDEX idx_state
ON users ((details->'location'->>'state'));
{ "name": "David", "location": { "city": "Lawrence", "state": "KS" } }
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2
SELECT * FROM users LIMIT 100
SQL: "Не говори больше ничего, вот вся продакшен-база данных"
👉 @SQLPortal
SQL: "Не говори больше ничего, вот вся продакшен-база данных"
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12🤔1
JSON, вставка данных.
Ты можешь изменять существующие JSONB-объекты с помощью функции jsonb_set(). Она возвращает новый JSONB-объект, где значение установлено по указанному пути ключей (keypath). Если по этому пути не хватает промежуточных объектов, она их создаст.
👉 @SQLPortal
Ты можешь изменять существующие JSONB-объекты с помощью функции jsonb_set(). Она возвращает новый JSONB-объект, где значение установлено по указанному пути ключей (keypath). Если по этому пути не хватает промежуточных объектов, она их создаст.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Колонарное хранилище vs построчное (row store) наглядно
Берем простую агрегацию и сравниваем, как она выполняется в row store и columnar store.
В row store данные лежат строками, поэтому движку приходится читать каждую строку целиком, чтобы из нее вытащить значение колонки age.
В columnar store данные лежат по колонкам, поэтому он читает сразу только значения колонки age, без трогания остальных полей и без лишнего I/O.
👉 @SQLPortal
Берем простую агрегацию и сравниваем, как она выполняется в row store и columnar store.
В row store данные лежат строками, поэтому движку приходится читать каждую строку целиком, чтобы из нее вытащить значение колонки age.
В columnar store данные лежат по колонкам, поэтому он читает сразу только значения колонки age, без трогания остальных полей и без лишнего I/O.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13👍3
Радим Марек: Введение в буферы в PostgreSQL
Про то, как PostgreSQL держит данные в памяти и почему от этого сильно зависит производительность
👉 @SQLPortal
Про то, как PostgreSQL держит данные в памяти и почему от этого сильно зависит производительность
Please open Telegram to view this post
VIEW IN TELEGRAM
boringSQL | Supercharge your SQL & PostgreSQL powers
Introduction to Buffers in PostgreSQL
How PostgreSQL actually manages memory, from shared_buffers and dirty pages to the OS page cache sitting underneath it all.
❤2
SQL тренажеры для практики
- sql-academy.org
- sql-ex.ru
- schoolsw3.com
- SQL Fiddle
- sqltest.online
- Oracle LiveSQL
- stratascratch.com
- stepik.org (Интерактивный тренажер SQL)
- sql-practice.com
- pgexercises.com
- HackerRank
- sqlzoo.net
👉 @SQLPortal
- sql-academy.org
- sql-ex.ru
- schoolsw3.com
- SQL Fiddle
- sqltest.online
- Oracle LiveSQL
- stratascratch.com
- stepik.org (Интерактивный тренажер SQL)
- sql-practice.com
- pgexercises.com
- HackerRank
- sqlzoo.net
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10🔥2
PostgreSQL по умолчанию не страхует тебя от забытых транзакций, idle-сессий и улетевших в бесконечность запросов: все это тихо накапливается, пока база не начинает казаться "залипшей".
Если мигрируешь на PostgreSQL, эти 5 параметров таймаутов критично настроить
👉 @SQLPortal
Если мигрируешь на PostgreSQL, эти 5 параметров таймаутов критично настроить
Please open Telegram to view this post
VIEW IN TELEGRAM
Индексация без простоя с CONCURRENTLY
Создание индекса может залочить таблицу, из-за чего она фактически становится недоступной и приложение/пользователи начинают получать ошибки.
Если добавить CONCURRENTLY, Postgres соберет индекс конкурентно, в фоне. Это займет чуть больше времени, зато пользователи вообще не заметят, что индекс строится.
👉 @SQLPortal
Создание индекса может залочить таблицу, из-за чего она фактически становится недоступной и приложение/пользователи начинают получать ошибки.
Если добавить CONCURRENTLY, Postgres соберет индекс конкурентно, в фоне. Это займет чуть больше времени, зато пользователи вообще не заметят, что индекс строится.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
В Postgres 18 появилась новая фича для ограничений по временным диапазонам:
- создаёт индекс, который комбинирует range и int
- не даёт добавлять дублирующиеся временные записи
👉 @SQLPortal
WITHOUT OVERLAPS. Это прям то, что нужно для систем бронирований, и в целом заметно проще, чем прошлые решения.CREATE EXTENSION IF NOT EXISTS btree_gist;
CREATE TABLE staff_schedule (
staff_id int,
shift_duration tstzrange,
task_description text,
PRIMARY KEY (staff_id, shift_duration WITHOUT OVERLAPS)
);
- создаёт индекс, который комбинирует range и int
- не даёт добавлять дублирующиеся временные записи
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8
Неиспользуемые индексы в PostgreSQL: риски, обнаружение и безопасное удаление
Индексы нужны, чтобы ускорять доступ к данным. Они позволяют PostgreSQL избегать full scan по таблице и заметно сокращают время выполнения запросов в read-heavy нагрузках.
По реальному прод-опыту мы видели, что грамотно спроектированные, точечные индексы могут ускорять запросы в 5 раз и больше, особенно на больших транзакционных таблицах.
Но индексы не бесплатны.
В этом посте разберем, какие проблемы могут создавать неиспользуемые индексы и как удалять их в проде безопасно, с планом отката.
1. Почему большие неиспользуемые индексы со временем становятся проблемой
Со временем такие индексы могут незаметно ухудшать производительность базы. Вот типовые эффекты, которые встречаются в проде.
1.1. Медленнее INSERT, UPDATE и DELETE
Каждая запись должна обновить все индексы таблицы, включая те, которыми запросы никогда не пользуются.
1.2. Больше нагрузки на VACUUM и autovacuum
В индексах так же копятся мертвые tuple, как и в таблицах. Их тоже нужно вакуумить, из-за чего растут I/O и время работы vacuum.
1.3. Дольше окна обслуживания
Операции вроде VACUUM и REINDEX выполняются тем дольше, чем больше индексов и чем они крупнее.
1.4. Пустая трата диска и “засорение” кеша
Большие неиспользуемые индексы едят место на диске и могут вытеснять полезные данные из shared_buffers, снижая эффективность кеша.
Поэтому периодически находить и аккуратно удалять неиспользуемые индексы в проде реально полезно, но только через контролируемый и хорошо проверенный процесс.
2. Как безопасно удалить неиспользуемые индексы в PostgreSQL
Ниже чеклист в стиле “можно в прод”, который стоит пройти перед удалением любого индекса.
2.1. Проверь, когда в последний раз сбрасывали статистику
Если статистику недавно reset’нули, индекс может выглядеть “неиспользуемым”, хотя он нужен под нагрузкой.
Старый
2.2. Проверь, не обслуживает ли индекс constraint
Большой индекс может быть “нулевым” по статистике, но удалять его нельзя, если он обеспечивает PRIMARY KEY, UNIQUE или FOREIGN KEY constraint.
PostgreSQL использует такие индексы для гарантий целостности и не даст их удалить, пока не удалишь сам constraint.
Если запрос вернул строки, этот индекс удалять нельзя.
2.3. Проверь статистику использования индекса
Так ты подтверждаешь, что планировщик реально не использовал индекс при выполнении запросов.
Все счетчики должны быть
3. Подготовь откат
Перед удалением всегда сохрани DDL индекса, чтобы быстро пересоздать при необходимости.
Сохрани результат как часть rollback-плана.
4. Удаляй безопасно
Если после удаления увидишь деградацию, откатный DDL можно использовать, чтобы пересоздать индекс concurrently без потери доступности.
5. Итог
Удаление неиспользуемых индексов может ощутимо улучшить производительность и упростить обслуживание, но только если действовать аккуратно.
Не полагайся на статистику в одиночку: проверяй constraints, понимай паттерны нагрузки и всегда готовь rollback.
В проде корректность и стабильность важнее скорости “уборки”.
👉 @SQLPortal
Индексы нужны, чтобы ускорять доступ к данным. Они позволяют PostgreSQL избегать full scan по таблице и заметно сокращают время выполнения запросов в read-heavy нагрузках.
По реальному прод-опыту мы видели, что грамотно спроектированные, точечные индексы могут ускорять запросы в 5 раз и больше, особенно на больших транзакционных таблицах.
Но индексы не бесплатны.
В этом посте разберем, какие проблемы могут создавать неиспользуемые индексы и как удалять их в проде безопасно, с планом отката.
1. Почему большие неиспользуемые индексы со временем становятся проблемой
Со временем такие индексы могут незаметно ухудшать производительность базы. Вот типовые эффекты, которые встречаются в проде.
1.1. Медленнее INSERT, UPDATE и DELETE
Каждая запись должна обновить все индексы таблицы, включая те, которыми запросы никогда не пользуются.
1.2. Больше нагрузки на VACUUM и autovacuum
В индексах так же копятся мертвые tuple, как и в таблицах. Их тоже нужно вакуумить, из-за чего растут I/O и время работы vacuum.
1.3. Дольше окна обслуживания
Операции вроде VACUUM и REINDEX выполняются тем дольше, чем больше индексов и чем они крупнее.
1.4. Пустая трата диска и “засорение” кеша
Большие неиспользуемые индексы едят место на диске и могут вытеснять полезные данные из shared_buffers, снижая эффективность кеша.
Поэтому периодически находить и аккуратно удалять неиспользуемые индексы в проде реально полезно, но только через контролируемый и хорошо проверенный процесс.
2. Как безопасно удалить неиспользуемые индексы в PostgreSQL
Ниже чеклист в стиле “можно в прод”, который стоит пройти перед удалением любого индекса.
2.1. Проверь, когда в последний раз сбрасывали статистику
Если статистику недавно reset’нули, индекс может выглядеть “неиспользуемым”, хотя он нужен под нагрузкой.
SELECT
datname,
stats_reset
FROM pg_stat_database
WHERE datname = current_database();
Старый
stats_reset (или NULL, то есть статистику никогда не сбрасывали) дает больше доверия метрикам использования индексов.2.2. Проверь, не обслуживает ли индекс constraint
Большой индекс может быть “нулевым” по статистике, но удалять его нельзя, если он обеспечивает PRIMARY KEY, UNIQUE или FOREIGN KEY constraint.
PostgreSQL использует такие индексы для гарантий целостности и не даст их удалить, пока не удалишь сам constraint.
SELECT
i.relname AS index_name,
c.conname AS constraint_name,
c.contype AS constraint_type,
c.conrelid::regclass AS table_name
FROM pg_constraint c
JOIN pg_class i ON i.oid = c.conindid
WHERE i.relname = '<IDX_NAME>';
Если запрос вернул строки, этот индекс удалять нельзя.
2.3. Проверь статистику использования индекса
Так ты подтверждаешь, что планировщик реально не использовал индекс при выполнении запросов.
SELECT
s.indexrelname AS index_name,
s.relname AS table_name,
s.idx_scan,
s.idx_tup_read,
s.idx_tup_fetch
FROM pg_stat_user_indexes s
WHERE s.indexrelname = '<IDX_NAME>';
Все счетчики должны быть
0.3. Подготовь откат
Перед удалением всегда сохрани DDL индекса, чтобы быстро пересоздать при необходимости.
SELECT pg_get_indexdef('<IDX_NAME>'::regclass) AS create_index_sql;Сохрани результат как часть rollback-плана.
4. Удаляй безопасно
DROP INDEX CONCURRENTLY не блокирует чтение и запись по таблице, поэтому подходит для прода.DROP INDEX CONCURRENTLY <IDX_NAME>;
Если после удаления увидишь деградацию, откатный DDL можно использовать, чтобы пересоздать индекс concurrently без потери доступности.
5. Итог
Удаление неиспользуемых индексов может ощутимо улучшить производительность и упростить обслуживание, но только если действовать аккуратно.
Не полагайся на статистику в одиночку: проверяй constraints, понимай паттерны нагрузки и всегда готовь rollback.
В проде корректность и стабильность важнее скорости “уборки”.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥6❤3👍3
This media is not supported in your browser
VIEW IN TELEGRAM
То, что Postgres в одиночку не тянет, он может закрывать вместе с DuckDB.
Расширение pg_duckdb показывает, как две базы могут работать в связке: аналитические данные крутятся в DuckDB, а потом джойнятся с транзакционными данными в Postgres. Фишка в том, что расширение встраивает DuckDB прямо внутрь Postgres. DuckDB буквально запускается внутри процесса Postgres.
Как это работает (см. диаграмму):
1. Приложение отправляет запрос в Postgres, который джойнит данные портфеля (Postgres) с историческими рыночными данными (lakehouse)
2. pg_duckdb видит доступ к lakehouse и делегирует выполнение DuckDB
3. DuckDB подтягивает нужные рыночные данные из lakehouse, читает таблицы Postgres и делает join
4. Postgres возвращает приложению финальный результат
👉 @SQLPortal
Расширение pg_duckdb показывает, как две базы могут работать в связке: аналитические данные крутятся в DuckDB, а потом джойнятся с транзакционными данными в Postgres. Фишка в том, что расширение встраивает DuckDB прямо внутрь Postgres. DuckDB буквально запускается внутри процесса Postgres.
Как это работает (см. диаграмму):
1. Приложение отправляет запрос в Postgres, который джойнит данные портфеля (Postgres) с историческими рыночными данными (lakehouse)
2. pg_duckdb видит доступ к lakehouse и делегирует выполнение DuckDB
3. DuckDB подтягивает нужные рыночные данные из lakehouse, читает таблицы Postgres и делает join
4. Postgres возвращает приложению финальный результат
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Postgres бывает реально коварным, когда в тексте намешан разный регистр. Для поиска и индексации такого текста есть расширение citext, оно в некоторых случаях помогает. И это поле/тип тоже можно индексировать обычным b-tree.
- запросы могут находить результаты в любом регистре и в любой комбинации
- обычные text и varchar нельзя проиндексировать как регистронезависимые, а citext можно
- также помогает с UNIQUE-ограничениями на текст, когда на вход прилетает разный регистр
👉 @SQLPortal
- запросы могут находить результаты в любом регистре и в любой комбинации
- обычные text и varchar нельзя проиндексировать как регистронезависимые, а citext можно
- также помогает с UNIQUE-ограничениями на текст, когда на вход прилетает разный регистр
-- Подключаем расширение
CREATE EXTENSION IF NOT EXISTS citext;
-- Создаем таблицу с типом citext
CREATE TABLE categories (
id SERIAL PRIMARY KEY,
name CITEXT UNIQUE NOT NULL,
description TEXT
);
``` :contentReference[oaicite:0]{index=0}
::contentReference[oaicite:1]{index=1}
Please open Telegram to view this post
VIEW IN TELEGRAM
😁2
Правило SQL про GROUP BY, которое должен знать каждый
Если ты выбираешь в SELECT неагрегированные колонки, добавь их в GROUP BY. Это не просто хорошая практика, в некоторых СУБД без этого будет ошибка.
Почему это важно? Потому что GROUP BY определяет, что именно значит одна строка результата. Базе нужно понимать, какое единственное значение положить в каждую ячейку этой строки.
В примере выше одна строка = должность (job_title) внутри отдела (department).
Поэтому и department, и job_title обязаны быть в GROUP BY.
Если неагрегированную колонку не добавить:
❌ часть баз сразу упадет с ошибкой
❌ другие молча вернут случайные значения
❌ запрос может "работать" сегодня и врать завтра
Общее правило: Каждая колонка в SELECT должна быть функционально зависима от GROUP BY. Если внутри группы у колонки может быть несколько значений, она не может появляться в SELECT, пока:
- ты не добавил ее в GROUP BY, или
- не завернул в агрегатную функцию.
👉 @SQLPortal
Если ты выбираешь в SELECT неагрегированные колонки, добавь их в GROUP BY. Это не просто хорошая практика, в некоторых СУБД без этого будет ошибка.
Почему это важно? Потому что GROUP BY определяет, что именно значит одна строка результата. Базе нужно понимать, какое единственное значение положить в каждую ячейку этой строки.
В примере выше одна строка = должность (job_title) внутри отдела (department).
Поэтому и department, и job_title обязаны быть в GROUP BY.
Если неагрегированную колонку не добавить:
Общее правило: Каждая колонка в SELECT должна быть функционально зависима от GROUP BY. Если внутри группы у колонки может быть несколько значений, она не может появляться в SELECT, пока:
- ты не добавил ее в GROUP BY, или
- не завернул в агрегатную функцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤1
Совет по Postgres для SSD: поставь
👉 @SQLPortal
random_page_cost ниже. Значение по умолчанию 4.0 больше подходит для HDD (вращающихся дисков). На SSD можно опустить до 1.1 или 1.5, потому что случайные и последовательные чтения почти одинаковы по стоимости. Это помогает оптимизатору выбирать более удачные планы выполнения.Please open Telegram to view this post
VIEW IN TELEGRAM
❤1
Postgres продолжает развиваться в сторону gen AI. Тут наткнулся на два новых расширения.
VectorChord (vchord) это расширение для более дешевого и дисково-эффективного поиска похожих векторов. Обещают, что можно хранить 400 000 векторов всего за $1, и за счет этого получается ощутимая экономия: в 6 раз больше векторов по сравнению с оптимизированным хранилищем Pinecone и в 26 раз больше, чем у pgvector.
pgpu это еще одно расширение, которое умеет использовать NVIDIA GPU через CUDA, чтобы ускорять отдельные операции в базе и/или переносить их с CPU на GPU. Сейчас основной кейс это ускорение времени сборки индексного типа vchord с помощью GPU.
На диаграмме показано, как pgpu считает центроиды для индекса vchord с использованием GPU:
1. читаем данные из базы
2. считаем центроиды на GPU
3. пишем центроиды в таблицу Postgres
4. создаем индекс vchord, передавая таблицу с заранее посчитанными центроидами
👉 @SQLPortal
VectorChord (vchord) это расширение для более дешевого и дисково-эффективного поиска похожих векторов. Обещают, что можно хранить 400 000 векторов всего за $1, и за счет этого получается ощутимая экономия: в 6 раз больше векторов по сравнению с оптимизированным хранилищем Pinecone и в 26 раз больше, чем у pgvector.
pgpu это еще одно расширение, которое умеет использовать NVIDIA GPU через CUDA, чтобы ускорять отдельные операции в базе и/или переносить их с CPU на GPU. Сейчас основной кейс это ускорение времени сборки индексного типа vchord с помощью GPU.
На диаграмме показано, как pgpu считает центроиды для индекса vchord с использованием GPU:
1. читаем данные из базы
2. считаем центроиды на GPU
3. пишем центроиды в таблицу Postgres
4. создаем индекс vchord, передавая таблицу с заранее посчитанными центроидами
Please open Telegram to view this post
VIEW IN TELEGRAM
БОЛЬШОЙ SQL грех
Никогда не пихай ORDER BY внутрь CTE (или подзапроса), если там же рядом нет LIMIT.
Если LIMIT забыть, база обычно будет сортировать всю таблицу вообще без смысла.
👉 @SQLPortal
Никогда не пихай ORDER BY внутрь CTE (или подзапроса), если там же рядом нет LIMIT.
Если LIMIT забыть, база обычно будет сортировать всю таблицу вообще без смысла.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4