Мониторим ИТ

Who monitors the monitoring system? — Is my Prometheus alive at all

Пока система жива и здорова, отправляйте heartbeat. Если мы какое-то время не получаем heartbeat, можно смело считать, что система мертва. Это самый надежный способ получить уведомление о сбое системы. Главный недостаток этого подхода заключается в том, что действительно трудно понять, что вызвало сбой. Читать дальше.

3.68K views12:30

Мониторим ИТ

Avoiding Alert Fatigue: 8 Tips for Every K8s Engineering Team

В этой статье несколько советов, как снизить событийную усталость и докрутить систему алертинга до нужного уровня информативности. Читать дальше.

4.55K views16:13

Мониторим ИТ

Monitoring errors in your A/B tests

A/B-тестирование — важный инструмент для улучшения продукта. В Preply, мы запускаем сотни тестов ежеквартально, доставляя наш продукт с невероятной скоростью. Но запуск теста всегда связан с некоторыми рисками — вы никогда не можете быть уверены, что протестировали каждый отдельный кейс и не создадите проблем, особенно если вы двигаетесь быстро. Некоторые проблемы могут возникнуть из-за различных взаимодействий A/B-тестов, которые не всегда можно предсказать. Какое решение? Правильный мониторинг. И я говорю не о стиле «подождите, пока кто-нибудь свяжется со службой поддержки», а о автоматизированном подходе, основанном на данных. Читать дальше.

3.59K views06:30

Мониторим ИТ

Squzy - opensource monitoring, incident and alerting system

Squzy высокопроизводительный открытый инструмент для мониторинга и алертинга, написанный на Golang.

Репыч на Гитхабе.

4.4K views12:30

Мониторим ИТ

How Grafana Mimir helped Pipedrive overcome Prometheus scalability limits

Около восьми месяцев назад мы начали замечать проблемы с Prometheus, который начал падать без видимой причины. Увеличение ресурсов помогло только до 32 vCPU и 256 ГБ памяти, далее это оказалось бесполезным и не решило проблемы. Перезапуск Prometheus занимал до 15 минут, мы не могли позволить себе эти задержки, так как наша стратегия обеспечения наблюдаемости и алертинга зависела от доступности Prometheus.

Для агрегированного экземпляра Prometheus проблемы начались, когда мы достигли ~8 миллионов активных серий, ~20 миллионов чанков и ~200 тысяч пар меток.

Принимая во внимание все функции, которые представил Mimir, такие как высокая производительность запросов, а также наш предыдущий опыт работы с инструментами Grafana, мы решили сразу же внедрить Mimir в наш стек. Читать дальше.

4.9K views06:30

Мониторим ИТ

4 questions you must ask when an incident happens

Когда система мониторинга сообщает об инциденте, нам нужна структура, которая поможет переварить десятки тысяч показателей, чтобы понять масштаб воздействия на нашу продукционные системы и клиентов. Объем всегда можно оценить, спросив, что сломано? когда это началось? где это происходит? и кого это затронет? Читать дальше.

5.17K views12:30

Мониторим ИТ

What’s Up, Home? – Did You Really Turn Off Your Camera?

Интересная статья в блоге Zabbix — мониторинг времени работы веб-камеры рабочей станции. Читать дальше.

2.82K views15:48

Мониторим ИТ

Grafana OnCall Community Call

На этой записи отцы-основатели Grafana OnCall (ранее Amixr) отвечают на вопросы и рассказывают о миграции с PagerDuty, а также о других интересных штуках о продукте. Смотреть на Ютубчике.

2.88K views11:49

Мониторим ИТ

Distributed Tracing for RabbitMQ with OpenTelemetry

В этой статье вы узнаете, как использовать OpenTelemetry для инструментирования RabbiMQ. Затем увидите, как визуализировать трейсы в Jaeger и Aspecto. В статье используется Node.js для всех примеров кода. Читать дальше.

2.93K views16:00

Мониторим ИТ

Ways to monitor OOM in a K8S cluster using Prometheus and Grafana

Недавно я столкнулся с OOMKilled в своем кластере k8s. Я решил создать дашборд для мониторинга. Сначала я искал, есть ли готовый в Интернете (потому что зачем изобретать велосипед?), но не нашел, поэтому сделал его сам :)

Я придумал 3 довольно простые панели, которые выполняют свою работу, и все они довольно просты. Я объясню каждый, начиная с самого простого и заканчивая продвинутым.

Читать дальше.

4.19K views06:30

Мониторим ИТ

Monitor Elasticsearch with Kube-Prometheus

В этой статье:

⚡️How to monitor Elasticsearch with Kube-Prometheus
⚡️Elasticsearch Exporter
⚡️Elasticsearch Exporter — Helm
⚡️Elasticsearch Exporter and Terraform
⚡️Deploy Elasticsearch Exporter using Terraform
⚡️Kubernetes Servicemonitor

Читать дальше.

3.67K views12:30

Мониторим ИТ

AIOPs: Anomaly detection in Prometheus Time Series data with Prophet library

..используя Prophet, чтобы заглянуть в прошлое и найти аномалии

Prophet — библиотека прогнозирования временных рядов с открытым исходным кодом.

Prophet — это процедура прогнозирования данных временных рядов на основе аддитивной модели, в которой нелинейные тренды соответствуют годовой, недельной и ежедневной сезонности.

Он следует концепции точек изменения; то есть он меняет аппроксимацию кривой на основе точек перегиба, которые он идентифицирует в данных временного ряда. Мы можем нанести точки изменения, чтобы визуально увидеть точки перегиба, которые он идентифицирует. Следовательно, он очень хорошо вычисляет тренды.

Мы можем использовать это свойство, чтобы подогнать данные временных рядов из Prometheus или Grafana и использовать его для обнаружения выбросов, которые являются точками аномалий.

Читать дальше.

2.94K views06:30

Мониторим ИТ

Forwarded from /usr/bin

A curated list of “Top” based monitoring tools for use in Linux and Unix terminals.

В этой статье ссылки на репозитории инструментов для мониторинга Linux.

Для мониторинга статуса процессов: htop, bpytop, btop, bashtop, atop, vtop, gtop, gotop, ytop, treetop, tiptop, pytop, mintop, ntop, below, hegemon, glances, nmon.

Для мониторинга GPU: nvtop, intel_gpu_top, radeontop, gltop.

Для мониторинга сети: iftop, sntop, jnettop, dnstop, nats-top, nettop, pingtop, iptraf-ng.

Для мониторинга дисковой подсистемы: iotop, drbdtop, nfstop, hdtop, viotop.

Для мониторинга контейнеров: ctop, ktop, kube-top.

И много других.

2.76K views12:13

Мониторим ИТ

9 CI/CD Metrics You Should Be Monitoring

Проблема с мониторингом заключается в том, что трудно понять, что измерять. Вы можете собрать множество метрик для своего пайплайна и придумать бесконечно больше самостоятельно. Но ни у кого нет времени на пробы и ошибки. В этой статье мы рассмотрим некоторые из наиболее известных метрик конвейеров CI/CD. Читать дальше.

3.01K views15:30

Мониторим ИТ

Implement distributed tracing with Jaeger & Opentelemetry on Kubernetes

В этой статье о том, как реализовать distributed tracing для приложения, работающего в Kubernetes, с использованием Open-Telemetry и Jaeger. Читать дальше.

3.01K views19:12

Мониторим ИТ

Deploying Prometheus Multi-Cluster monitoring using Prometheus Agent Mode

В этом посте мы развернем Prometheus в режиме агента вместе с Prometheus Global view и проверим как они работают вместе. Для этого нам понадобится кластер Kubernetes и два отдельных пространства имен: Monitoring-Global и Monitoring. Читать дальше.

3.84K views06:30

Мониторим ИТ

5 tips on implementing Observability

⚡️ Tip 1. Productionize your programming languages
⚡️ Tip 2. Alert on most important service metrics
⚡️ Tip 3. Add some blackbox monitoring into the mix
⚡️ Tip 4. Learn querying your metric database
⚡️ Tip 5. Invest in tracing

Читать дальше.

2.82K views12:30

Мониторим ИТ

TCP packets traffic visualization for kubernetes by k8spacket and Grafana

Известно ли вам, что делает ваш кластер k8s, когда вы специально за этим не смотрите? Кто устанавливает с ним TCP-соединения? Кто вызывается им, например, из сторонних библиотек?

С помощью k8spacket и Grafana вы можете визуализировать TCP-трафик в кластере. Посмотрите, как приложения взаимодействуют друг с другом. Проверьте, сколько соединений установлено, сколько байтов передано и как долго эти соединения активны. Читать дальше.

3.18K views08:00

Мониторим ИТ

В этом видео команда Zabbix рассказывает о мониторинге логов при помощи Zabbix-агента. Полезная вещь.

3.16K views14:00

Мониторим ИТ

How to Build an End to End Open Source Observability Solution on Kubernetes

В этой статье вы узнаете, как создать готовое решение с открытым исходным кодом для получения трассировки вызовов, метрик и логов, а также корреляции между ними. Предлагаемое решение использует инструменты с открытым исходным кодом: Grafana, Prometheus, Tempo и Loki в качестве серверного стека наблюдаемости и Odigos в качестве инструмента управления наблюдаемостью. Читать дальше.

3.91K views08:00

About

Blog

Apps

Platform