YeaHub Tech

🔖

Наблюдаемость как суперспособность

На каждой новой работе этот инженер сталкивался с разными инструментами наблюдаемости. Сначала — Prometheus, затем ELK-стек (Elasticsearch, Logstash, Kibana) с логами на 30 дней. А в incident.io он открыл для себя трассировки — и теперь считает их одной из главных инженерных суперспособностей.

Благодаря трассировкам команда часто замечает баги и аномалии раньше, чем об этом успеют сообщить клиенты. Каждый запрос превращается в дерево событий: от HTTP-эндпоинта до запросов в базу и сторонние сервисы. Видно, что произошло, в каком порядке, сколько это заняло времени — и где всё пошло не так.

В коде трассировка выглядит просто: пара строк — и span готов. Добавил метаданные, завернул в defer, и у тебя уже есть точка наблюдения за производительностью.

Инфраструктура тоже продумана: локально трассы уходят в Google Cloud Trace, а на продакшене — в Grafana Tempo. Инженеры могут искать трассировки по пользователю, организации, типу запроса — и делиться ссылками в Slack. Каждое сообщение об инциденте начинается с одного и того же:
«Вот трассировка, она выглядит подозрительно».

Трассировка дополняет логи и ошибки: в логах есть trace\_url, ошибки в Sentry связаны с конкретной трассировкой, каждый запрос возвращает ID трассы в заголовке.

Несколько советов от команды:

— Автоматизируйте всё, что можно: пусть span’ы создаются в HTTP и БД клиентах без лишнего кода.
— Делайте трассировки доступными для всех — через логи, ошибки, заголовки.
— Настраивайте локально так же, как в проде — чтобы навык развивался в повседневной работе.

Наблюдаемость — это не просто «видеть баг». Это понимать систему на уровне, где можно реагировать быстрее всех. И трассировки — её сердце.

📎

Статья

🎙

Новости

📝

База вопросов

Please open Telegram to view this post

VIEW IN TELEGRAM

👍1

117 views11:03

About

Blog

Apps

Platform