Мониторим ИТ
8.08K subscribers
203 photos
2 files
1.53K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
В этой статье 5 опенсорсных альтернатив Slack для группового чата. Эти чаты имеют развитые сообщества и много полезных плагинов. Например, непосредственно в чате, можно запрашивать представления из Grafana.
Самый простой в мире дашборд kubernetes — k1s. В этой статье на Медиум чувак рассказывает про дашборд на bash-скрипте. Там же есть ссылка на репозиторий.
А вот подъехали видосы с прошедшей 25 июня конференции ElasticON. На ней сотрудники Elastic и приглашённые клиенты рассказывают о подходах к использованию Elastic Stack и кейсах.
Слышали про бесплатный инструмент автоматизации воркфлоу n8n.io? Это как Zapier или IFTTT, только энтерпрайзнее что ли. В своём блоге на Медиум они рассказывают о мониторинге и алертинге относительно БД Postgresql. Выглядит просто, но ничего ж не мешает использовать эту штуку для более масштабных задач автоматизации, верно?
Shell-operator — это инструмент для запуска произвольных скриптов по событиям в кластерах Kubernetes. Частным случаем таких произвольных скриптов является подписка на события через Kubernetes API и запуск хуков по таким событиям. А частным случаем запуска хуков является экспорт произвольных метрики для их дальнейшего scraping'а Prometheus’ом.

В этой статье об обновлениях shell-оператора, там же в конце статьи ссылки на описание этого инструмента.
SRE: Observability: Metric Namespaces and Structures

В этой статье о тайном оружии SRE — древовидном структурировании метрик в Prometheus. На заметку тем, кто не структурирует.
Про Skydive — инструмент для визуализации сетевой топологии на основе netflow, я уже как-то писал. Сегодня на Хабре вышла статья о добавлении ноды в Skydive топологию вручную через Skydive client. Эта возможность появилась благодаря Node rule API, которая появилась начиная с версии 0.20
Kubernetes HPA with Custom Metrics from Prometheus

Статья о специфических метриках контроллера K8s HPA (Horizontal Pod Autoscaler).
Для линукс-админов — An Introduction to File System Monitoring Tools.

В этой статье про утилиты inotifywait и iwatch
Если хотите подробнее про FluentD — вот неплохая статья на том же Медиуме.
Tracing and Observability

Небольшая, но достаточно подробная статья о том, как устроены tracing и observability.
Для обеспечения высокой доступности мы используем два кластера K8s. Графики ниже показывают эти кластеры: region-1 и region-2. Это создает дополнительную сложность, когда речь идет об автомасштабировании, поскольку кластеры полностью разделены и не имеют общих метрик. Наш веб-сайт работает в режиме active-active и сбалансирован по нагрузке на оба региона.

Из-за проблемы в приложении инженеры по инфраструктуре перевели все запросы к приложению в один регион. Зеленая линия показывает общее количество запросов, которые обслуживает служба, а две другие относятся к каждому региону. Сразу после 16:20 произошло аварийное переключение: оранжевая линия соединилась с зеленой линией, а синяя линия, идущая в ноле, начала расти.

В этой статье об изменении подходов компании к алертингу после максимального масштабирования сервиса из-за нештатной ситуации.
А в этом репозитории одна штука, чтобы генерить дашборды Grafana из Python-скриптов. Полезно? Не то слово!
Lessons learned about monitoring the JVM in the era of containers

В этой статье об опыте использования бесплатных профилировщиков JVM VisualVM и Universal GC Log Analyzer.