SQLite на практике
2.35K subscribers
19 photos
84 links
Все о работе с данными в sqlite // antonz.ru
Download Telegram
Тут вопрос на английском, но по-русски тоже понимает
SQL-рецепт: Ранжирование строк

Предположим, мы хотим создать рейтинг, в котором позиция каждой записи определяется значением одного или нескольких столбцов.

Решение — использовать функцию rank() поверх SQL-окна, упорядоченного по целевым столбцам.

Пример

Отранжируем сотрудников из таблицы employees по зарплате:

select
rank() over w as "rank",
name, department, salary
from employees
window w as (order by salary desc)
order by "rank", id;


r  sal  name
1 120 Иван
2 104 Леонид
2 104 Марина
4 100 Анна
5 96 Вероника
5 96 Григорий
7 90 Ксения


Функция rank() присваивает каждому сотруднику ранг в соответствии с его зарплатой (order by salary desc).

Обратите внимание, что сотрудники с одинаковой зарплатой получили одинаковые ранги (Леонид и Марина, Вероника и Григорий).

Нюансы

— Можно использовать dense_rank() вместо rank(), чтобы избежать «дыр» в рангах.

— Если СУБД не поддерживает инструкцию window, можно встроить определение окна: rank over (order by ...)

→ Оконные функции SQL
SQL-шпаргалка

Обычно не публикую материалы совсем уж для начинающих, но сегодня исключение.

Сделал шпаргалку по SQL-селектам для всех, кто знал, но подзабыл. Примеры интерактивные, можно заодно и потренироваться.

https://antonz.ru/sql-cheatsheet/
Выпуск «Подлодки» про SQL

Вышел новый эпизод лучшего айтишного подкаста Podlodka, полностью посвященный SQL! Вместе с ведущими Катей и Стасом обсудили широкий спектр тем, посвященный языку — от самых основ до новейших фич 2023 года.

Получился очень насыщенный тур по SQL. Даже если отлично знаете его — наверняка найдете для себя что-нибудь новенькое. Мне очень понравилось (но я тут, конечно, не объективен).

Выпуск на 2+ часа, так что вот темы с таймкодами, чтобы лучше ориентироваться:

0:00 Что такое SQL. Почему SQL прекрасен. Зачем SQL разработчику. Стандарт SQL.

15:20 Базовый SQL. DDL и DML. Джойны.

22:12 Транзакции. Что это и зачем. ACID. Изоляция. Уровни изоляции.

45:53 Быстродействие. Фулсканы и индексы. Статистика. Пакетные операции. Длинные транзакции.

1:01:18 Расширенные возможности. Представления. Ограничения целостности. Триггеры. Хранимые процедуры и функции.

1:14:51 SQL для анализа данных. Описательная статистика. OLAP-кубы. Оконные функции. Кластеризация. Очистка данных.

1:27:47 Безопасность. Авторизация и права. Инъекции и динамический SQL. Шифрование. Идентификаторы. Выстрел в ногу.

1:37:56 Современный SQL. Массивы. JSON. Рекурсия. Темпоральные таблицы. Графы.

1:59:22 Как прокачаться в SQL. Курсы. Книги. Статьи.

Надеюсь, вам пригодится! И подписывайтесь на «Подлодку», она крутая.
SQL-рецепт: Сегментация данных

Предположим, мы хотим разбить данные на несколько сегментов, ориентируясь на значения в столбцах.

Решение — использовать функцию ntile() поверх SQL-окна.

Пример

Разобьем сотрудников из таблицы employees на три группы в зависимости от размера зарплаты:

— высокооплачиваемые,
— средние,
— низкооплачиваемые.

select
ntile(3) over w as tile,
name, salary
from employees
window w as (order by salary desc)
order by salary desc, id;


t  sal  name
1 120 Иван
1 104 Леонид
1 104 Марина
1 100 Анна
2 96 Вероника
2 96 Григорий
2 90 Ксения
3 84 Елена
3 78 Борис
3 70 Дарья


ntile(n) разбивает все записи на n групп и возвращает номер группы для каждой записи. Если общее количество записей (10 в нашем случае) не делится на размер группы (3), то первые группы будут крупнее последних.

Нюансы

ntile() всегда старается разбить данные так, чтобы группы были одинакового размера. Поэтому записи с одинаковым значением з/п вполне могут попасть в разные (соседние) группы.

— Если СУБД не поддерживает инструкцию window, можно встроить определение окна: ntile(3) over (order by ...)

Оконные функции SQL
Неподдерживаемые фичи

Некоторым фичам SQL-стандарта уже больше 30 лет, а они до сих пор не реализованы (и, вероятно, никогда не будут).

Например, стандарт разрешает накладывать условия на таблицу целиком, но СУБД это не поддерживают.

Есть таблица сотрудников:

create table employees (
id integer primary key,
name varchar(50),
salary integer
);


Накладываем условие «зарплатный фонд должен быть меньше 3000»:

create assertion salary_fund
check (
3000 > (select sum(salary) from employees)
);


И получаем:

error: CREATE ASSERTION is not yet implemented


🤷‍♀️
Кодирование данных в SQLite

Все знают про шестнадцатеричное кодирование (hex):

select hex('hello');
-- 68656C6C6F

select unhex('68656C6C6F');
-- hello


Но есть и другие способы.

Base32:

select encode('hello', 'base32');
-- NBSWY3DP

select decode('NBSWY3DP', 'base32');
-- hello


Base64:

select encode('hello', 'base64');
-- aGVsbG8=

select decode('aGVsbG8=', 'base64');
-- hello


Base85:

select encode('hello', 'base85');
-- BOu!rDZ

select decode('BOu!rDZ', 'base85');
-- hello


URL-кодирование:

select encode('hel lo!', 'url');
-- hel%20lo%21

select decode('hel%20lo%21', 'url');
-- hel lo!


И все они теперь доступны в SQLite с помощью расширения crypto.
SQL-рецепт: Сравнение с соседями

Предположим, мы хотим сравнить каждую запись с соседними. Например, сравнить продажи за месяц с предыдущим месяцем или с аналогичным месяцем в прошлом году.

Решение — использовать функцию lag() поверх SQL-окна.

Пример

Сравним расходы компании от месяца к месяцу в абсолютном выражении:

select
year, month,
expense,
expense - lag(expense) over w as diff
from expenses
window w as (
order by year, month
)
order by year, month;


year  mon exp  dif
2020 1 82
2020 2 75 -7
2020 3 104 29
2020 4 94 -10
2020 5 99 5
2020 6 105 6
2020 7 95 -10
2020 8 110 15
2020 9 104 -6


lag(value, offset) возвращает значение value из строки, отстоящей на offset строк назад от текущей.

По умолчанию offset равно 1, указывать его не обязательно.

Нюансы

— Еще есть функция lead(). Работает в точности как lag(), только смотрит вперед, а не назад.

— Если СУБД не поддерживает инструкцию window, можно встроить определение окна: lag(expense) over (order by ...)

Оконные функции SQL
25 текстовых функций в SQLite

С помощью стандартных функций instr, substr и replace можно много чего сделать. Но мне хотелось более полного набора возможностей, как в PostgreSQL, Python или Go. Пришлось добавить.

Новое расширение text содержит 25 функций для работы со строками: от slice, contains и count до split_part, trim и repeat. И многие из них совместимы с PostgreSQL!

А если добавить функции работы с регулярками из regexp, вас и вовсе будет не остановить ツ
Некоторые из них в SQLite уже были, но с полным набором удобнее
Sqlean shell

sqlean — это набор базовых расширений SQLite, от регулярных выражений и мат. статистики до работы с файлами и динамического SQL.

И теперь он доступен в комплекте с SQLite CLI!

https://github.com/nalgeon/sqlite/releases/3.42.0-sqlean
Покрывающий индекс в SQL

Покрывающий индекс — самый быстрый способ выбрать данные из таблицы.

Например, есть запрос, который выбирает сотрудников с указанной зарплатой:

select id, name
from employees
where salary = 90;


Если нет индекса, он обходит всю таблицу (так называемый фулскан).

Создадим индекс по зарплате:

create index employees_idx
on employees(salary);


Теперь тот же запрос будет находить записи по зарплате в индексе (это быстрее, чем обходить всю таблицу). И для каждой найденной записи будет обращаться к таблице, чтобы получить значения id и name.

Но если создать покрывающий индекс:

create index employees_idx
on employees(salary, id, name);


То запрос будет отрабатывать только по индексу, вообще без обращения к таблице. Это еще быстрее.

Покрывающие индексы дорого обходятся при изменении данных в таблице, поэтому на каждый вид запросов их создавать не стоит. Чаще это одно из последних средств оптимизации, когда все остальное уже сделали.
sqlite3 + расширения на Python

Сделал Python-пакет sqlean.py. Он полностью совместим со стандартным sqlite3, плюс добавляет множество приятных функций:

— кодирование/декодирование
— динамический SQL
— работа с файлами
— текстовые функции
— IP адреса
— мат. статистика
— UUID
— CSV

https://github.com/nalgeon/sqlean.py
Больше функций в SQL-песочнице

Sqlime — это опенсорсная SQLite-песочница в браузере.

В ней всегда были стандартные функции SQLite: общего назначения, дата-время и математические.

А теперь есть намного больше, от регулярных выражений и матстатистики до динамического SQL!

По сути, я приделал к песочнице все свои расширения, которые до этого подключались только к «обычному» SQLite (кроме работы с файлами и юникода, который под веб не захотел компилироваться).

https://sqlime.org/
Удобно отлаживать небольшие запросики, а для обучения так и вовсе незаменимая штука
Реестр и менеджер пакетов для SQLite

Расширений для SQLite становится все больше, и я решил, что пришло время сделать менеджер пакетов!

Встречайте sqlpkg - это реестр пакетов с веб-интерфейсом и одноименный консольный менеджер пакетов. Надеюсь, вам пригодится.

https://sqlpkg.org/

Реестр пакетов работает отдельно от менеджера и не требует его. Достаточно найти нужный пакет на сайте, скачать под свою ОС и загрузить стандартными средствами (.load или load_extension).

А менеджер пакетов работает отдельно от реестра и тоже не требует его :) Чтобы установить пакет, достаточно указать менеджеру на файл спецификации. Его можно захостить где угодно или даже разместить локально.
Для начала добавил в реестр те расширения, которые пробовал сам, получилось около 60 пакетов
Одна из моих любимых мелких штук в Sqlime — возможность выделить и запустить фрагмент запроса. Полезно, когда «распутываешь» сложный запрос.

К тому же, ее было несложно реализовать. Ах, если бы все фичи были такими 🙂
SQL-файлы в песочнице

Когда я запустил Sqlime, как-то забыл поддержать загрузку из .sql файлов. Песочница умела загружать бинарные SQLite-базы из локального файла или по урлу, GitHub-гисты, но не sql-файлы.

Наверно я полагал, что люди в основном будут копипастить SQL руками, так что файлы им не нужны. Возможно, не так уж и ошибался — никто не попросил эту возможность.

Но все же странновато для SQL-песочницы не уметь загружать SQL-файлы. Так что теперь она умеет ツ

Заодно обновил иконки. Использовал svgrepo.com — опенсорсный репозиторий иконок, очень рекомендую.
Перенести SQLite-расширения с одной машины на другую

Начиная с релиза 0.1.0, sqlpkg сохраняет информацию об установленных пакетах в специальном файле (sqlpkg.lock, он же локфайл).

Используйте его, чтобы установить расширения на новой машине одной командой:

sqlpkg install


https://github.com/nalgeon/sqlpkg-cli/releases/0.1.0
Побег из карантина macOS и точный путь к расширению

Свежий релиз sqlpkg принес две приятные фичи:

— Команда install автоматически убирает расширение из карантина macOS, чтобы можно было использовать без дополнительных приседаний.

— Команда which печатает точный путь к установленному расширению, чтобы было проще загрузить его в SQLite.

https://github.com/nalgeon/sqlpkg-cli/releases/0.2.0