Админим с Буквой
5.52K subscribers
303 photos
8 videos
59 files
1.16K links
Канал о системном администрировании, DevOps и немного Инфобеза.

По всем вопросам обращаться к @bykva. Рекламу не размещаю.
Download Telegram
Prometheus + kubernetes

Полезный набор дашбордов в графану по мониторингу ресурсов в кубе
https://github.com/camilb/prometheus-kubernetes

#grafana #prometheus #kubernetes #monitoring
обоснование покупки PagerDuty (Может кому пригодится)

Для осуществления своевременной реакции на происходящие в инфраструктуре события и обеспечения SLA в клиентских сервисах предлагается осуществить покупку подписки на сервис PagerDuty. PagerDuty — это платформа для обработки инцидентов, которая умеет обрабатывать приходящие инциденты через различные интеграции, настраивать порядок дежурств и далее осуществлять уведомления дежурному инженеру в зависимости от уровня инцидента (при высоком уровне — звонок, при низком — push от приложения/смс). Решение от PagerDuty хорошо интегрируется с существующей системой мониторинга и обладает достаточным функционалом, отвечающим требованиям к подобным системам – надежность и точность доставки уведомлений до клиента.

Данный сервис позволит назначать по расписанию ответственных за сервисы компании, которые будут уведомляться о событиях несколькими способами – в том числе телефонным звонком для особо критичных ситуаций. В случае отсутствия реакции от ответственного лица будет происходить эскалация и уведомление дополнительного сотрудника. Такой способ позволит узнавать и решать проблемы с сервисами своевременно и всегда понимать какой сотрудник должен был работать над проблемой.

По каждой проблеме будет заводиться postmortem – отчет о происшествии, где будет описано что произошло, и что будет сделано чтобы избежать повторения инцидента. При этом поля отчета подкрепляются задачами в JIRA, с помощью которых в последствии можно будет контролировать насколько качественно команда реагирует на происшествия и как быстро их исправляет.

Наличие типовых событий позволяет описать список необходимых действий в confluence и прикреплять к событию ссылку на wiki и на связанные графики в Grafana, таким образом инженерам первой линии позволит быстрее погружаться в событие, анализировать и решать проблему.

Резюмируя вышесказанное, этот сервис позволяет своевременно реагировать на события, которые могут быть критичны для обеспечения работы бизнеса, собирать и хранить историю инцидентов для разбора произошедших событий с выводом их на timeline, и точно знать кто в данный момент должен заниматься проблемой.

#pagerduty #monitoring #alerting #prometheus
Forwarded from Tech Cheat Sheet (Oleg Kovalov)
Подключаемся к jmx порту в контейнер в kubernetes

Для того чтобы это сделать нужно следующее:

1) прописать параметры:

-Dcom.sun.management.jmxremote
-Dcom.sun.management.jmxremote.authenticate=false
-Dcom.sun.management.jmxremote.ssl=false
-Dcom.sun.management.jmxremote.local.only=false
-Dcom.sun.management.jmxremote.port=5000
-Dcom.sun.management.jmxremote.rmi.port=5000
-Djava.rmi.server.hostname=127.0.0.1

2) пробросить порт:

kubectl port-forward pod/XXX 5000

3) подключиться консолью https://visualvm.github.io (требует jdk)

открываем visualvm, ставим tools->plugins плагин visualvm-mbeans, перезапускаем, создаем remote connection к 127.0.0.1:5000, далее можем смотреть текущее состояние жавапроцесса и смотреть какие метрики далее получаются из вкладки mbeans.

ИЛИ

jconsole 127.0.0.1:5000 - у меня соединялось, выводило информацию и мгновенно дисконнект. пользоваться нормально не удалось.


#monitoring
#java
#kubernetes