Prometheus + kubernetes
Полезный набор дашбордов в графану по мониторингу ресурсов в кубе
https://github.com/camilb/prometheus-kubernetes
#grafana #prometheus #kubernetes #monitoring
Полезный набор дашбордов в графану по мониторингу ресурсов в кубе
https://github.com/camilb/prometheus-kubernetes
#grafana #prometheus #kubernetes #monitoring
обоснование покупки PagerDuty (Может кому пригодится)
Для осуществления своевременной реакции на происходящие в инфраструктуре события и обеспечения SLA в клиентских сервисах предлагается осуществить покупку подписки на сервис PagerDuty. PagerDuty — это платформа для обработки инцидентов, которая умеет обрабатывать приходящие инциденты через различные интеграции, настраивать порядок дежурств и далее осуществлять уведомления дежурному инженеру в зависимости от уровня инцидента (при высоком уровне — звонок, при низком — push от приложения/смс). Решение от PagerDuty хорошо интегрируется с существующей системой мониторинга и обладает достаточным функционалом, отвечающим требованиям к подобным системам – надежность и точность доставки уведомлений до клиента.
Данный сервис позволит назначать по расписанию ответственных за сервисы компании, которые будут уведомляться о событиях несколькими способами – в том числе телефонным звонком для особо критичных ситуаций. В случае отсутствия реакции от ответственного лица будет происходить эскалация и уведомление дополнительного сотрудника. Такой способ позволит узнавать и решать проблемы с сервисами своевременно и всегда понимать какой сотрудник должен был работать над проблемой.
По каждой проблеме будет заводиться postmortem – отчет о происшествии, где будет описано что произошло, и что будет сделано чтобы избежать повторения инцидента. При этом поля отчета подкрепляются задачами в JIRA, с помощью которых в последствии можно будет контролировать насколько качественно команда реагирует на происшествия и как быстро их исправляет.
Наличие типовых событий позволяет описать список необходимых действий в confluence и прикреплять к событию ссылку на wiki и на связанные графики в Grafana, таким образом инженерам первой линии позволит быстрее погружаться в событие, анализировать и решать проблему.
Резюмируя вышесказанное, этот сервис позволяет своевременно реагировать на события, которые могут быть критичны для обеспечения работы бизнеса, собирать и хранить историю инцидентов для разбора произошедших событий с выводом их на timeline, и точно знать кто в данный момент должен заниматься проблемой.
#pagerduty #monitoring #alerting #prometheus
Для осуществления своевременной реакции на происходящие в инфраструктуре события и обеспечения SLA в клиентских сервисах предлагается осуществить покупку подписки на сервис PagerDuty. PagerDuty — это платформа для обработки инцидентов, которая умеет обрабатывать приходящие инциденты через различные интеграции, настраивать порядок дежурств и далее осуществлять уведомления дежурному инженеру в зависимости от уровня инцидента (при высоком уровне — звонок, при низком — push от приложения/смс). Решение от PagerDuty хорошо интегрируется с существующей системой мониторинга и обладает достаточным функционалом, отвечающим требованиям к подобным системам – надежность и точность доставки уведомлений до клиента.
Данный сервис позволит назначать по расписанию ответственных за сервисы компании, которые будут уведомляться о событиях несколькими способами – в том числе телефонным звонком для особо критичных ситуаций. В случае отсутствия реакции от ответственного лица будет происходить эскалация и уведомление дополнительного сотрудника. Такой способ позволит узнавать и решать проблемы с сервисами своевременно и всегда понимать какой сотрудник должен был работать над проблемой.
По каждой проблеме будет заводиться postmortem – отчет о происшествии, где будет описано что произошло, и что будет сделано чтобы избежать повторения инцидента. При этом поля отчета подкрепляются задачами в JIRA, с помощью которых в последствии можно будет контролировать насколько качественно команда реагирует на происшествия и как быстро их исправляет.
Наличие типовых событий позволяет описать список необходимых действий в confluence и прикреплять к событию ссылку на wiki и на связанные графики в Grafana, таким образом инженерам первой линии позволит быстрее погружаться в событие, анализировать и решать проблему.
Резюмируя вышесказанное, этот сервис позволяет своевременно реагировать на события, которые могут быть критичны для обеспечения работы бизнеса, собирать и хранить историю инцидентов для разбора произошедших событий с выводом их на timeline, и точно знать кто в данный момент должен заниматься проблемой.
#pagerduty #monitoring #alerting #prometheus
Forwarded from Tech Cheat Sheet (Oleg Kovalov)
просто "вмемориз". Ни к чему не привязаная ссылка, полезная своим содержимым для владельцев libvirt.
https://pitstop.manageengine.com/portal/en/kb/articles/first-step-to-do-if-no-data-is-available-for-a-kvm-vm-monitor
#libvirt #kvm #monitoring
https://pitstop.manageengine.com/portal/en/kb/articles/first-step-to-do-if-no-data-is-available-for-a-kvm-vm-monitor
#libvirt #kvm #monitoring
ManageEngine | Community and Support
First Step to do if no data is available for a KVM VM Monitor
In KVM all the data has been collected via CLI Commands. So if any of data is not retrieved properly in the UI, we can check it by executing CLI Commands. The below table contails the List of CLI Commands used for each metrics present under the KVM ...
Подключаемся к jmx порту в контейнер в kubernetes
Для того чтобы это сделать нужно следующее:
1) прописать параметры:
открываем visualvm, ставим tools->plugins плагин visualvm-mbeans, перезапускаем, создаем remote connection к 127.0.0.1:5000, далее можем смотреть текущее состояние жавапроцесса и смотреть какие метрики далее получаются из вкладки mbeans.
ИЛИ
#monitoring
#java
#kubernetes
Для того чтобы это сделать нужно следующее:
1) прописать параметры:
-Dcom.sun.management.jmxremote2) пробросить порт:
-Dcom.sun.management.jmxremote.authenticate=false
-Dcom.sun.management.jmxremote.ssl=false
-Dcom.sun.management.jmxremote.local.only=false
-Dcom.sun.management.jmxremote.port=5000
-Dcom.sun.management.jmxremote.rmi.port=5000
-Djava.rmi.server.hostname=127.0.0.1
kubectl port-forward pod/XXX 5000
3) подключиться консолью https://visualvm.github.io (требует jdk)открываем visualvm, ставим tools->plugins плагин visualvm-mbeans, перезапускаем, создаем remote connection к 127.0.0.1:5000, далее можем смотреть текущее состояние жавапроцесса и смотреть какие метрики далее получаются из вкладки mbeans.
ИЛИ
jconsole 127.0.0.1:5000
- у меня соединялось, выводило информацию и мгновенно дисконнект. пользоваться нормально не удалось.#monitoring
#java
#kubernetes