Мониторим ИТ
7.39K subscribers
50 photos
2 files
1.29K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Галс Софтвэр приглашает на курс по Elastic Stack 8, который состоится уже через месяц — 20-22 июля.

За 3 дня вы узнаете, как устроена и работает новая версия одного из популярных инструментов для аналитики и хранения неструктурированных данных.

Elastic Stack — комплексное решение, состоящее из нескольких компонентов: Elasticsearch, Kibana, Logstash и Beats. Изучение документации по каждому из компонентов и их взаимодействии на сайте вендора может отнять немало времени. Не лучший вариант, если нужно приступать к работе с решением уже вчера. Мы предлагаем освоить основные принципы в теории и на практике за 3 дня. После обучения работа с документацией будет сводиться к поиску только нужной информации, вместо её изучения от и до.

На лабораторной работе мы установим отказоустойчивый кластер Elasticsearch 8, научимся разбирать лог-файлы, настроим безопасность, оповещения в телегу, поработаем с ILM и SLM.

👉 Подробнее о курсе и заявка на обучение

Задать вопросы о курсе можно @galssoftware

Мы ведём канал об Elastic @elasticstack_ru
Учим zabbix-agent «есть» на ходу и не давиться пользовательскими параметрами (UserParameter)

Интересная статья об унификации UserParameter в конфигурации Zabbix Agent. На Хабр!
A set of modern Grafana dashboards for Kubernetes

In this article, I will present a set of modern Grafana dashboards I made for Kubernetes, explain why I decided to create them and how they work. Читать дальше на Медиуме.
Why is the Prometheus Agent Mode So Great?

Пользуетесь Prometheus Agent? Небольшая статья о нем.
Monitor Ansible Playbook Executions

I planned to use an ansible, a configuration management tool, in a production system. When it comes to the production system, it is important to know which configurations are applied successfully and which aren’t.

After spending some time on the internet, I couldn’t find an easy way to monitor failed execution. Hence I come up with this solution.

Читать дальше на Медиуме.
На днях уже писал про Grafana OnCall, который теперь стал полностью открытым. Среди его функционала есть цепочки эскалации, графики дежурств и вообще он крайне удобен для управления алертами. В этой инструкции вы узнаете как настроить интеграцию Zabbix и Grafana OnCall.
Grafana dashboards: A complete guide to all the different types you can build

В этой небольшой статье бэстпрэктис по организации дашбордов в Grafana. Многое читатели этого канала, конечно, знают, но, возможно, будет что-то новое. Читать статью.
Logging Bash History via Promtail, Loki and Grafana

Когда очень нужно знать кто безобразничал. Читать дальше.
Monitor Server with Telegram Bot and Python

Рубрика "Работает и ладно". Наколенный мониторинг из сами понимаете чего: Telegram и Python. Читать как это сделать.
How to optimize PromQL and MetricsQL queries

PromQL и MetricsQL — мощные языки запросов. Они позволяют писать простые запросы для построения красивых графиков по данным временных рядов. Также они позволяют писать сложные запросы для расчетов SLI/SLO и алертов. В этой статье про выявление медленных запросов PromQL, определение стоимость запросов и их оптимизации, чтобы они выполнялись быстрее и потребляли меньше ресурсов CPU и RAM. Читать дальше.
Как мы пытались подружить VictoriaMetrics и Thanos (и у нас почти получилось)

Мы в Сравни долгое время использовали связку Prometheus + Thanos для мониторинга и хранения данных. Для Thanos мы использовали схему с sidecar’ом. Эта схема работала довольно неплохо, но с ростом проекта — росло и потребление ресурсов. Со временем задачи по scrape samples уже потребляли значительные ресурсы. Когда только на Prometheus стало уходить больше 30 ядер vCPU и 100 гигабайт RAM, мы начали искать способы оптимизации потребления ресурсов. Читать дальше.
Что нового в Grafana 9 по части алертинга?

В июне Grafana Labs объявили о выходе новой 9 версии своего решения-хедлайнера — инструмента для визуализации Grafana. Как и полагается мажорной версии, появилось увесистое количество обновлений. И одно из ключевых обновлений — новые возможности алертинга. Ниже некоторые подробности этих обновлений.

⚡️ Инстансные оповещения

До Grafana 9 оповещения нужно было привязывать к панели или дашборду. Теперь алертами можно управлять как будто это регулярное выражение. Правила алертинга могут создавать несколько отдельных экземпляров алертов внутри каждого правила. Правило определяет, когда отправлять оповещения, но оповещать можно сразу по нескольким элементам. Пример из реальной жизни: представьте, что у вас есть умный дом и вы хотите знать, когда открыты окна. У вас может быть одно оповещение «Сообщите мне, открыты ли окна», и для каждого окна вы получите «Окно x открыто!» Не нужно создавать более одного правила.

⚡️ Группировка и маршрутизация оповещений

Когда возникает событийный шторм, сотни оповещений могут прийти одновременно. Политики алертинга решают такую проблему. Это набор правил, определяющих, в какой канал как направляются оповещения. Объединение политик алертинга с функцией группировки позволяет все оповещения, относящиеся к одному компоненту системы, объединить вместе, чтобы Grafana будет отправляла только одно уведомление, содержащее список затронутых сред для этого правила. Политики оповещений имеют древовидную структуру, в которой каждая политика может иметь одну или несколько дочерних политик. Каждая политика, кроме корневой политики, может соответствовать определенным меткам алертов. Каждый алерт оценивается корневой политикой, а затем каждой дочерней политикой, чтобы можно было алертить в определенные каналы. В результате один алерт улетит сразу в несколько каналов на основе определенных критериев метки.

⚡️ Молчание - золото

Бесшумный режим позволяет останавливать уведомления от одного или нескольких правил. С помощью этой новой функции можно частично приостановить оповещение на основе определенных критериев. Бесшумный режим только приостанавливает создание алертов. В пользовательском интерфейсе всё так же будут отображаться экземпляры алертов. Это сделано нарочно: вы можете видеть текущий статус экземпляра алерта, но не получите уведомления.

⚡️ Режим обслуживания на период времени

В Grafana 9 можно указать интервал времени, когда вы не хотите, чтобы новые уведомления генерировались или отправлялись. Например, можно установить время отключения генерации и отправки для нескольких или всех ваших маршрутов оповещений, чтобы вас не отрывали от шашлындоса или посиделок в баре.

Подробнее.
Что нового в Zabbix 6.2

Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.

⚡️ Подавление проблем, порождаемых триггерами

При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.

⚡️ Интеграция с хранилищем секретов CyberArk

В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.

⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера

Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.

⚡️ Расширение контроля над обнаруженными узлами сети

Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.

⚡️ Отслеживание выполнения активных проверок

Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.

⚡️ Улучшение производительности

Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.

Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.

⚡️ Кнопка «Execute Now» изменила цвет стала доступна в Latest Data

Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.

⚡️ Отдельные группы узлов и шаблонов

Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».

⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей

Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.

Как вам обновления?

Полный список обновлений и скриншоты.
Multi Tenant Logs with Grafana Loki

Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.
Forwarded from /usr/bin
Серия статей по траблшутингу производительности Linux. Если не знаете куда копать, то они должны помочь.

Linux troubleshooting: CPU analysis

Linux troubleshooting: Memory analysis

Linux troubleshooting: Disk analysis

Linux Memory: Buffer vs Cache

Linux — Disk I/O Deep Dive

Linux — How to Measure Network Performance

Linux — How To Troubleshoot DNS Issues
Мониторинг событий Windows EventLog в Zabbix. В этом видео Дмитрий Ламберт (руководитель техподдержки Zabbix) рассказывает как настроить мониторинг таких событий при помощи Zabbix Agent.

https://youtu.be/rOBatrWrg2Y
Интересный блог Adri Villela на Медиуме. Много пишет про подход к Observability, как правильно строить этот процесс, какие инструменты использовать и т.д. Велкоме.
Что означает load average

Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.
Если Mikrotik — ваше альтер эго. По этой ссылке 55 шаблонов от Zabbix для мониторинга если не всей, то большей части моделей устройств Mikrotik. Выбирайте на свой вкус.