#observability
🔖 Наблюдаемость как суперспособность
На каждой новой работе этот инженер сталкивался с разными инструментами наблюдаемости. Сначала — Prometheus, затем ELK-стек (Elasticsearch, Logstash, Kibana) с логами на 30 дней. А в incident.io он открыл для себя трассировки — и теперь считает их одной из главных инженерных суперспособностей.
Благодаря трассировкам команда часто замечает баги и аномалии раньше, чем об этом успеют сообщить клиенты. Каждый запрос превращается в дерево событий: от HTTP-эндпоинта до запросов в базу и сторонние сервисы. Видно, что произошло, в каком порядке, сколько это заняло времени — и где всё пошло не так.
В коде трассировка выглядит просто: пара строк — и span готов. Добавил метаданные, завернул в
Инфраструктура тоже продумана: локально трассы уходят в Google Cloud Trace, а на продакшене — в Grafana Tempo. Инженеры могут искать трассировки по пользователю, организации, типу запроса — и делиться ссылками в Slack. Каждое сообщение об инциденте начинается с одного и того же:
«Вот трассировка, она выглядит подозрительно».
Трассировка дополняет логи и ошибки: в логах есть trace\_url, ошибки в Sentry связаны с конкретной трассировкой, каждый запрос возвращает ID трассы в заголовке.
Несколько советов от команды:
Наблюдаемость — это не просто «видеть баг». Это понимать систему на уровне, где можно реагировать быстрее всех. И трассировки — её сердце.
📎 Статья
🎙 Новости
📝 База вопросов
На каждой новой работе этот инженер сталкивался с разными инструментами наблюдаемости. Сначала — Prometheus, затем ELK-стек (Elasticsearch, Logstash, Kibana) с логами на 30 дней. А в incident.io он открыл для себя трассировки — и теперь считает их одной из главных инженерных суперспособностей.
Благодаря трассировкам команда часто замечает баги и аномалии раньше, чем об этом успеют сообщить клиенты. Каждый запрос превращается в дерево событий: от HTTP-эндпоинта до запросов в базу и сторонние сервисы. Видно, что произошло, в каком порядке, сколько это заняло времени — и где всё пошло не так.
В коде трассировка выглядит просто: пара строк — и span готов. Добавил метаданные, завернул в
defer
, и у тебя уже есть точка наблюдения за производительностью.Инфраструктура тоже продумана: локально трассы уходят в Google Cloud Trace, а на продакшене — в Grafana Tempo. Инженеры могут искать трассировки по пользователю, организации, типу запроса — и делиться ссылками в Slack. Каждое сообщение об инциденте начинается с одного и того же:
«Вот трассировка, она выглядит подозрительно».
Трассировка дополняет логи и ошибки: в логах есть trace\_url, ошибки в Sentry связаны с конкретной трассировкой, каждый запрос возвращает ID трассы в заголовке.
Несколько советов от команды:
— Автоматизируйте всё, что можно: пусть span’ы создаются в HTTP и БД клиентах без лишнего кода.
— Делайте трассировки доступными для всех — через логи, ошибки, заголовки.
— Настраивайте локально так же, как в проде — чтобы навык развивался в повседневной работе.
Наблюдаемость — это не просто «видеть баг». Это понимать систему на уровне, где можно реагировать быстрее всех. И трассировки — её сердце.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1