Мониторим ИТ
8.09K subscribers
203 photos
2 files
1.53K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
SRE: Observability: Metric Namespaces and Structures

В этой статье о тайном оружии SRE — древовидном структурировании метрик в Prometheus. На заметку тем, кто не структурирует.
Про Skydive — инструмент для визуализации сетевой топологии на основе netflow, я уже как-то писал. Сегодня на Хабре вышла статья о добавлении ноды в Skydive топологию вручную через Skydive client. Эта возможность появилась благодаря Node rule API, которая появилась начиная с версии 0.20
Kubernetes HPA with Custom Metrics from Prometheus

Статья о специфических метриках контроллера K8s HPA (Horizontal Pod Autoscaler).
Для линукс-админов — An Introduction to File System Monitoring Tools.

В этой статье про утилиты inotifywait и iwatch
Если хотите подробнее про FluentD — вот неплохая статья на том же Медиуме.
Tracing and Observability

Небольшая, но достаточно подробная статья о том, как устроены tracing и observability.
Для обеспечения высокой доступности мы используем два кластера K8s. Графики ниже показывают эти кластеры: region-1 и region-2. Это создает дополнительную сложность, когда речь идет об автомасштабировании, поскольку кластеры полностью разделены и не имеют общих метрик. Наш веб-сайт работает в режиме active-active и сбалансирован по нагрузке на оба региона.

Из-за проблемы в приложении инженеры по инфраструктуре перевели все запросы к приложению в один регион. Зеленая линия показывает общее количество запросов, которые обслуживает служба, а две другие относятся к каждому региону. Сразу после 16:20 произошло аварийное переключение: оранжевая линия соединилась с зеленой линией, а синяя линия, идущая в ноле, начала расти.

В этой статье об изменении подходов компании к алертингу после максимального масштабирования сервиса из-за нештатной ситуации.
А в этом репозитории одна штука, чтобы генерить дашборды Grafana из Python-скриптов. Полезно? Не то слово!
Lessons learned about monitoring the JVM in the era of containers

В этой статье об опыте использования бесплатных профилировщиков JVM VisualVM и Universal GC Log Analyzer.
How we scaled Graphite to 100,000 writes per second

В этой статье о вертикальном масштабировании вычислений до 100 000 операций записи в секунду.

А кто-то использует Graphite в своём стеке мониторинга?

👍 — использую

👎 — не использую

👀 — карандаши как-то не очень, обычно ручкой пользуюсь
Forwarded from /usr/bin
В этой статье несколько слов о мониторинге контейнеров Docker при помощи docker stats и cAdvisor.
How the cortex and thanos projects collaborate to make scaling prometheus better for all

Коллаборация Cortex и Thanos для масштабирования Prometheus (в блоге Grafana)

А ещё есть запись выступления «Two Households, Both Alike in Dignity: Cortex and Thanos» с PromCon 2019 (выступают сооснователи Cortex и Thanos Tom Wilkie и Bartek Plotka соответственно)
Instana сделала 6-минутный ролик с описанием работы их инструмента для APM-мониторинга распределённых приложений. Внимание! Внутри ролика мемасики.

Если вам интересно посмотреть Instana у себя — напишите в личку.