Who monitors the monitoring system? — Is my Prometheus alive at all
Пока система жива и здорова, отправляйте heartbeat. Если мы какое-то время не получаем heartbeat, можно смело считать, что система мертва. Это самый надежный способ получить уведомление о сбое системы. Главный недостаток этого подхода заключается в том, что действительно трудно понять, что вызвало сбой. Читать дальше.
Пока система жива и здорова, отправляйте heartbeat. Если мы какое-то время не получаем heartbeat, можно смело считать, что система мертва. Это самый надежный способ получить уведомление о сбое системы. Главный недостаток этого подхода заключается в том, что действительно трудно понять, что вызвало сбой. Читать дальше.
Avoiding Alert Fatigue: 8 Tips for Every K8s Engineering Team
В этой статье несколько советов, как снизить событийную усталость и докрутить систему алертинга до нужного уровня информативности. Читать дальше.
В этой статье несколько советов, как снизить событийную усталость и докрутить систему алертинга до нужного уровня информативности. Читать дальше.
Monitoring errors in your A/B tests
A/B-тестирование — важный инструмент для улучшения продукта. В Preply, мы запускаем сотни тестов ежеквартально, доставляя наш продукт с невероятной скоростью. Но запуск теста всегда связан с некоторыми рисками — вы никогда не можете быть уверены, что протестировали каждый отдельный кейс и не создадите проблем, особенно если вы двигаетесь быстро. Некоторые проблемы могут возникнуть из-за различных взаимодействий A/B-тестов, которые не всегда можно предсказать. Какое решение? Правильный мониторинг. И я говорю не о стиле «подождите, пока кто-нибудь свяжется со службой поддержки», а о автоматизированном подходе, основанном на данных. Читать дальше.
A/B-тестирование — важный инструмент для улучшения продукта. В Preply, мы запускаем сотни тестов ежеквартально, доставляя наш продукт с невероятной скоростью. Но запуск теста всегда связан с некоторыми рисками — вы никогда не можете быть уверены, что протестировали каждый отдельный кейс и не создадите проблем, особенно если вы двигаетесь быстро. Некоторые проблемы могут возникнуть из-за различных взаимодействий A/B-тестов, которые не всегда можно предсказать. Какое решение? Правильный мониторинг. И я говорю не о стиле «подождите, пока кто-нибудь свяжется со службой поддержки», а о автоматизированном подходе, основанном на данных. Читать дальше.
Squzy - opensource monitoring, incident and alerting system
Squzy высокопроизводительный открытый инструмент для мониторинга и алертинга, написанный на Golang.
Репыч на Гитхабе.
Squzy высокопроизводительный открытый инструмент для мониторинга и алертинга, написанный на Golang.
Репыч на Гитхабе.
How Grafana Mimir helped Pipedrive overcome Prometheus scalability limits
Около восьми месяцев назад мы начали замечать проблемы с Prometheus, который начал падать без видимой причины. Увеличение ресурсов помогло только до 32 vCPU и 256 ГБ памяти, далее это оказалось бесполезным и не решило проблемы. Перезапуск Prometheus занимал до 15 минут, мы не могли позволить себе эти задержки, так как наша стратегия обеспечения наблюдаемости и алертинга зависела от доступности Prometheus.
Для агрегированного экземпляра Prometheus проблемы начались, когда мы достигли ~8 миллионов активных серий, ~20 миллионов чанков и ~200 тысяч пар меток.
Принимая во внимание все функции, которые представил Mimir, такие как высокая производительность запросов, а также наш предыдущий опыт работы с инструментами Grafana, мы решили сразу же внедрить Mimir в наш стек. Читать дальше.
Около восьми месяцев назад мы начали замечать проблемы с Prometheus, который начал падать без видимой причины. Увеличение ресурсов помогло только до 32 vCPU и 256 ГБ памяти, далее это оказалось бесполезным и не решило проблемы. Перезапуск Prometheus занимал до 15 минут, мы не могли позволить себе эти задержки, так как наша стратегия обеспечения наблюдаемости и алертинга зависела от доступности Prometheus.
Для агрегированного экземпляра Prometheus проблемы начались, когда мы достигли ~8 миллионов активных серий, ~20 миллионов чанков и ~200 тысяч пар меток.
Принимая во внимание все функции, которые представил Mimir, такие как высокая производительность запросов, а также наш предыдущий опыт работы с инструментами Grafana, мы решили сразу же внедрить Mimir в наш стек. Читать дальше.
4 questions you must ask when an incident happens
Когда система мониторинга сообщает об инциденте, нам нужна структура, которая поможет переварить десятки тысяч показателей, чтобы понять масштаб воздействия на нашу продукционные системы и клиентов. Объем всегда можно оценить, спросив, что сломано? когда это началось? где это происходит? и кого это затронет? Читать дальше.
Когда система мониторинга сообщает об инциденте, нам нужна структура, которая поможет переварить десятки тысяч показателей, чтобы понять масштаб воздействия на нашу продукционные системы и клиентов. Объем всегда можно оценить, спросив, что сломано? когда это началось? где это происходит? и кого это затронет? Читать дальше.
What’s Up, Home? – Did You Really Turn Off Your Camera?
Интересная статья в блоге Zabbix — мониторинг времени работы веб-камеры рабочей станции. Читать дальше.
Интересная статья в блоге Zabbix — мониторинг времени работы веб-камеры рабочей станции. Читать дальше.
Grafana OnCall Community Call
На этой записи отцы-основатели Grafana OnCall (ранее Amixr) отвечают на вопросы и рассказывают о миграции с PagerDuty, а также о других интересных штуках о продукте. Смотреть на Ютубчике.
На этой записи отцы-основатели Grafana OnCall (ранее Amixr) отвечают на вопросы и рассказывают о миграции с PagerDuty, а также о других интересных штуках о продукте. Смотреть на Ютубчике.
Distributed Tracing for RabbitMQ with OpenTelemetry
В этой статье вы узнаете, как использовать OpenTelemetry для инструментирования RabbiMQ. Затем увидите, как визуализировать трейсы в Jaeger и Aspecto. В статье используется Node.js для всех примеров кода. Читать дальше.
В этой статье вы узнаете, как использовать OpenTelemetry для инструментирования RabbiMQ. Затем увидите, как визуализировать трейсы в Jaeger и Aspecto. В статье используется Node.js для всех примеров кода. Читать дальше.
Ways to monitor OOM in a K8S cluster using Prometheus and Grafana
Недавно я столкнулся с OOMKilled в своем кластере k8s. Я решил создать дашборд для мониторинга. Сначала я искал, есть ли готовый в Интернете (потому что зачем изобретать велосипед?), но не нашел, поэтому сделал его сам :)
Я придумал 3 довольно простые панели, которые выполняют свою работу, и все они довольно просты. Я объясню каждый, начиная с самого простого и заканчивая продвинутым.
Читать дальше.
Недавно я столкнулся с OOMKilled в своем кластере k8s. Я решил создать дашборд для мониторинга. Сначала я искал, есть ли готовый в Интернете (потому что зачем изобретать велосипед?), но не нашел, поэтому сделал его сам :)
Я придумал 3 довольно простые панели, которые выполняют свою работу, и все они довольно просты. Я объясню каждый, начиная с самого простого и заканчивая продвинутым.
Читать дальше.
Monitor Elasticsearch with Kube-Prometheus
В этой статье:
⚡️How to monitor Elasticsearch with Kube-Prometheus
⚡️Elasticsearch Exporter
⚡️Elasticsearch Exporter — Helm
⚡️Elasticsearch Exporter and Terraform
⚡️Deploy Elasticsearch Exporter using Terraform
⚡️Kubernetes Servicemonitor
Читать дальше.
В этой статье:
⚡️How to monitor Elasticsearch with Kube-Prometheus
⚡️Elasticsearch Exporter
⚡️Elasticsearch Exporter — Helm
⚡️Elasticsearch Exporter and Terraform
⚡️Deploy Elasticsearch Exporter using Terraform
⚡️Kubernetes Servicemonitor
Читать дальше.
AIOPs: Anomaly detection in Prometheus Time Series data with Prophet library
..используя Prophet, чтобы заглянуть в прошлое и найти аномалии
Prophet — библиотека прогнозирования временных рядов с открытым исходным кодом.
Prophet — это процедура прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют годовой, недельной и ежедневной сезонности.
Он следует концепции точек изменения; то есть он меняет аппроксимацию кривой на основе точек перегиба, которые он идентифицирует в данных временного ряда. Мы можем нанести точки изменения, чтобы визуально увидеть точки перегиба, которые он идентифицирует. Следовательно, он очень хорошо вычисляет тренды.
Мы можем использовать это свойство, чтобы подогнать данные временных рядов из Prometheus или Grafana и использовать его для обнаружения выбросов, которые являются точками аномалий.
Читать дальше.
..используя Prophet, чтобы заглянуть в прошлое и найти аномалии
Prophet — библиотека прогнозирования временных рядов с открытым исходным кодом.
Prophet — это процедура прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют годовой, недельной и ежедневной сезонности.
Он следует концепции точек изменения; то есть он меняет аппроксимацию кривой на основе точек перегиба, которые он идентифицирует в данных временного ряда. Мы можем нанести точки изменения, чтобы визуально увидеть точки перегиба, которые он идентифицирует. Следовательно, он очень хорошо вычисляет тренды.
Мы можем использовать это свойство, чтобы подогнать данные временных рядов из Prometheus или Grafana и использовать его для обнаружения выбросов, которые являются точками аномалий.
Читать дальше.
Forwarded from /usr/bin
A curated list of “Top” based monitoring tools for use in Linux and Unix terminals.
В этой статье ссылки на репозитории инструментов для мониторинга Linux.
Для мониторинга статуса процессов: htop, bpytop, btop, bashtop, atop, vtop, gtop, gotop, ytop, treetop, tiptop, pytop, mintop, ntop, below, hegemon, glances, nmon.
Для мониторинга GPU: nvtop, intel_gpu_top, radeontop, gltop.
Для мониторинга сети: iftop, sntop, jnettop, dnstop, nats-top, nettop, pingtop, iptraf-ng.
Для мониторинга дисковой подсистемы: iotop, drbdtop, nfstop, hdtop, viotop.
Для мониторинга контейнеров: ctop, ktop, kube-top.
И много других.
В этой статье ссылки на репозитории инструментов для мониторинга Linux.
Для мониторинга статуса процессов: htop, bpytop, btop, bashtop, atop, vtop, gtop, gotop, ytop, treetop, tiptop, pytop, mintop, ntop, below, hegemon, glances, nmon.
Для мониторинга GPU: nvtop, intel_gpu_top, radeontop, gltop.
Для мониторинга сети: iftop, sntop, jnettop, dnstop, nats-top, nettop, pingtop, iptraf-ng.
Для мониторинга дисковой подсистемы: iotop, drbdtop, nfstop, hdtop, viotop.
Для мониторинга контейнеров: ctop, ktop, kube-top.
И много других.
9 CI/CD Metrics You Should Be Monitoring
Проблема с мониторингом заключается в том, что трудно понять, что измерять. Вы можете собрать множество метрик для своего пайплайна и придумать бесконечно больше самостоятельно. Но ни у кого нет времени на пробы и ошибки. В этой статье мы рассмотрим некоторые из наиболее известных метрик конвейеров CI/CD. Читать дальше.
Проблема с мониторингом заключается в том, что трудно понять, что измерять. Вы можете собрать множество метрик для своего пайплайна и придумать бесконечно больше самостоятельно. Но ни у кого нет времени на пробы и ошибки. В этой статье мы рассмотрим некоторые из наиболее известных метрик конвейеров CI/CD. Читать дальше.
Implement distributed tracing with Jaeger & Opentelemetry on Kubernetes
В этой статье о том, как реализовать distributed tracing для приложения, работающего в Kubernetes, с использованием Open-Telemetry и Jaeger. Читать дальше.
В этой статье о том, как реализовать distributed tracing для приложения, работающего в Kubernetes, с использованием Open-Telemetry и Jaeger. Читать дальше.
Deploying Prometheus Multi-Cluster monitoring using Prometheus Agent Mode
В этом посте мы развернем Prometheus в режиме агента вместе с Prometheus Global view и проверим как они работают вместе. Для этого нам понадобится кластер Kubernetes и два отдельных пространства имен: Monitoring-Global и Monitoring. Читать дальше.
В этом посте мы развернем Prometheus в режиме агента вместе с Prometheus Global view и проверим как они работают вместе. Для этого нам понадобится кластер Kubernetes и два отдельных пространства имен: Monitoring-Global и Monitoring. Читать дальше.
5 tips on implementing Observability
⚡️ Tip 1. Productionize your programming languages
⚡️ Tip 2. Alert on most important service metrics
⚡️ Tip 3. Add some blackbox monitoring into the mix
⚡️ Tip 4. Learn querying your metric database
⚡️ Tip 5. Invest in tracing
Читать дальше.
⚡️ Tip 1. Productionize your programming languages
⚡️ Tip 2. Alert on most important service metrics
⚡️ Tip 3. Add some blackbox monitoring into the mix
⚡️ Tip 4. Learn querying your metric database
⚡️ Tip 5. Invest in tracing
Читать дальше.
TCP packets traffic visualization for kubernetes by k8spacket and Grafana
Известно ли вам, что делает ваш кластер k8s, когда вы специально за этим не смотрите? Кто устанавливает с ним TCP-соединения? Кто вызывается им, например, из сторонних библиотек?
С помощью k8spacket и Grafana вы можете визуализировать TCP-трафик в кластере. Посмотрите, как приложения взаимодействуют друг с другом. Проверьте, сколько соединений установлено, сколько байтов передано и как долго эти соединения активны. Читать дальше.
Известно ли вам, что делает ваш кластер k8s, когда вы специально за этим не смотрите? Кто устанавливает с ним TCP-соединения? Кто вызывается им, например, из сторонних библиотек?
С помощью k8spacket и Grafana вы можете визуализировать TCP-трафик в кластере. Посмотрите, как приложения взаимодействуют друг с другом. Проверьте, сколько соединений установлено, сколько байтов передано и как долго эти соединения активны. Читать дальше.
В этом видео команда Zabbix рассказывает о мониторинге логов при помощи Zabbix-агента. Полезная вещь.
How to Build an End to End Open Source Observability Solution on Kubernetes
В этой статье вы узнаете, как создать готовое решение с открытым исходным кодом для получения трассировки вызовов, метрик и логов, а также корреляции между ними. Предлагаемое решение использует инструменты с открытым исходным кодом: Grafana, Prometheus, Tempo и Loki в качестве серверного стека наблюдаемости и Odigos в качестве инструмента управления наблюдаемостью. Читать дальше.
В этой статье вы узнаете, как создать готовое решение с открытым исходным кодом для получения трассировки вызовов, метрик и логов, а также корреляции между ними. Предлагаемое решение использует инструменты с открытым исходным кодом: Grafana, Prometheus, Tempo и Loki в качестве серверного стека наблюдаемости и Odigos в качестве инструмента управления наблюдаемостью. Читать дальше.