Python для начинающих

Введение в работу с protobuf: быстрая сериализация данных

181 views04:58

Введение в работу с protobuf: быстрая сериализация данных

JSON удобен, пока данные небольшие и требования к скорости умеренные. Но как только вы начинаете передавать тысячи сообщений в секунду между сервисами, JSON внезапно становится «тормозом». Здесь на сцену выходит Protocol Buffers (protobuf) — бинарный формат от Google, заточенный под скорость и компактность.

---

### Что такое protobuf в двух словах

Protobuf — это:
- бинарный формат сериализации (данные занимают меньше места, чем JSON);
- строгая схема (типизация, обязательные/необязательные поля);
- кросс-языковая поддержка (Python, Go, Java, C++ и т.д.).

Сначала вы описываете структуру данных в .proto файле, затем компилируете его, и уже сгенерированный Python-код используете как обычные классы.

---

### Описание схемы

Создадим файл user.proto:

syntax = "proto3";

message User {
  int32 id = 1;
  string name = 2;
  string email = 3;
  repeated string tags = 4;
}

Ключевые моменты:
- message — аналог класса/структуры.
- repeated — список значений.
- Числа = 1, = 2 — теги полей. Они нужны для бинарного формата и обратной совместимости.

---

### Генерация Python-классов

Устанавливаем пакет:

pip install protobuf

Компилируем схему (нужен установленный protoc):

protoc --python_out=. user.proto

Появится user_pb2.py — не редактируем его вручную, просто используем.

---

### Сериализация и десериализация

from user_pb2 import User

def create_user() -> User:
    user = User(
        id=1,
        name="Alice",
        email="alice@example.com",
        tags=["admin", "premium"]
    )
    return user

user = create_user()

# сериализация в бинарный формат
data_bytes = user.SerializeToString()

# восстановление объекта из байт
user_copy = User()
user_copy.ParseFromString(data_bytes)

print(len(data_bytes))       # компактный размер
print(user_copy.name)        # Alice
print(user_copy.tags)        # ['admin', 'premium']

По сравнению с JSON:
- меньше размер (особенно для больших структур и списков);
- быстрая (де)сериализация;
- гарантируется наличие нужных полей и их типов.

---

### Эволюция схемы без боли

Сильная сторона protobuf — обратная совместимость.
Вы можете:
- добавлять новые поля в конец (= 5, = 6), не ломая старые клиенты;
- помечать поля как устаревшие, но пока не удалять их.

Старый клиент просто игнорирует незнакомые теги, а новый — использует дополнительные поля, если они есть.

---

### Когда protobuf действительно нужен

Используйте protobuf, если:
- у вас есть микросервисы, которым нужно быстро обмениваться структурированными данными;
- важна экономия трафика;
- требуется строгая и эволюционирующая схема данных.

Если же вы просто сохраняете настройки в файл или делаете маленький скрипт-утилиту, JSON остаётся проще. Но как только проект растёт — protobuf становится важным инструментом Python-разработчика.

👍3

207 views04:58