Мониторим ИТ
6.57K subscribers
47 photos
2 files
1.18K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Поднимаем мониторинг на базе Icinga2/Web/Director/Grafana за 5 минут

В статье пошаговая инструкция. Читать на Хабре.
How to Managed Grafana Dashboard in Multiple Environments — and find UID Harmony

У
правление дашбордами Grafana сразу в нескольких средах весьма нетривиальная задача. Когда вы разрабатываете Dashboard в одной среде и пытаетесь импортировать в новую может возникнуть проблема с UID Datasource. В этой статье приведено несколько советов как избежать проблем при переносе дашбордов из одной среды в другую. Читать статью.

❗️Статья на Medium, возможно, нужен VPN.
How to integrate a Spring Boot app with Grafana using OpenTelemetry standards

В этой статье рассказано как интегрировать приложение Spring Boot с Grafana, используя OpenTelemetry. Также приведены несколько практических примеров, которые помогут лучше понять механизм интеграции. Читать статью.
How to calculate the difference of a value over time with InfluxDB and Grafana

В этой статье рассмотрено, как можно использовать Grafana для визуализации данных, возвращаемых по запросу InfluxDB, который использует встроенную функцию Different(). Читать статью.
Сравнение ELK и Grafana Loki в 2 статьях. Автор их написал на основании собственного опыта и подходит критически к обоим решениям. А выбор, как всегда, за вами.

Grafana or ELK? — A Practical Comparative Analysis (Part 1). В первой части содержится сравнение функциональности обоих решений.

Grafana or ELK? — Performance Evaluation (Part 2). Во второй части разобраны кейсы, связанные с производительностью обеих систем.

❗️Статьи на Медиум, возможно, нужен VPN.
Grafana Alerting: How to monitor alerts for better alert management

В Grafana 10.2 появился ряд улучшений в Alerting. В частности, появился новый раздел Insights со статистикой по правилам оповещений и уведомлениям, который помогает отслеживать данные оповещений и быстро их анализировать производительность. В этой статье в блоге Grafana описан новый раздел. Читать статью.
Grafana Mimir: remote storage из скандинавской мифологии

Что будет в статье:
⚡️Откуда взялся Mimir
⚡️Архитектура
⚡️Способы запуска
⚡️Вывод

Читать на Хабре
Как устроена политика релизов Zabbix

Каждые полтора года Zabbix выпускает:

⚡️Zabbix LTS (долгосрочная поддержка). Релизы Zabbix LTS поддерживается Zabbix в течение 5 лет: 3 года полной поддержки (общие, критические проблемы и проблемы безопасности) и 2 дополнительных года ограниченной поддержки (критические проблемы и проблемы безопасности).

⚡️Zabbix Standard. Релизы Zabbix Standard поддерживаются в течение 6 месяцев полной поддержки (общие, критические проблемы и проблемы безопасности) до следующей стабильной версии Zabbix, плюс 1 дополнительный месяц ограниченной поддержки (только критические проблемы и проблемы безопасности).

Более подробно о жизненном цикле релизов Zabbix можно узнать на их специальной странице.
Uptrace (open source APM: OpenTelemetry traces, metrics, and logs)

Uptrace — это APM с открытым исходным кодом, который поддерживает распределенную трассировку, метрики и логи.

Uptrace имеет на борту построитель запросов, дашборды, правила оповещений, уведомления и интеграцию с большинством языков и платформ.

Uptrace использует OpenTelelemetry для сбора данных и базу данных ClickHouse для их хранения. Uptrace также использует БД PostgreSQL для хранения метаданных.

Репыч на Гитхабе
The Grafana OpenTelemetry Distribution for Java: Optimized for Application Observability

В этой рассказывается о дистрибутиве Grafana OpenTelemetry для Java и о его преимуществах. Читать статью в блоге Grafana.

Если вы и используете в своих проектах язык .NET, есть аналогичный материал с инструкциями по началу работы с дистрибутивом Grafana OpenTelemetry для .NET. Читать статью в блоге Grafana.
Grafana 10: на что стоит обратить внимание в новом релизе

В этой статье на Хабре разобраны нововведения в Grafana 10, в частности:

⚡️Панели визуализации

⚡️Функции для объединения разрозненных данных

⚡️Возможности обмена дашбордами с коллегами и внешними командами

Читать статью
Zabbix plugin for Grafana: Grafana Labs will manage and maintain the popular plugin (теперь плагин Grafana для Zabbix начинает поддерживать сама Grafana)

Был Александр Зобнин, а стала Grafana. Пост Александра об истории развития плагина (а он появился в 2015 году) и причинах передачи его в Grafana. Наверное, позитивная новость. Сам автор пишет, что при старте проекта было 4000 строчек кода, а сейчас 25000 и поддерживать плагин силами одного человека стало затруднительно. Что ж, ждем новых фичей от Grafana во всеми любимом и популярном плагина.

Что думаете об этом переходе?
Improving SNMP monitoring performance with bulk SNMP data collection

Всё течет и меняется. Zabbix — не исключение. В этой статье из блога Zabbix разобрано нововведение в версии 6.4 — новый тип элемента данных в рамках SNMP-агента — walk, который эффективен при необходимости сбора большого количества метрик с одного устройства. Под капотом работает как GetBulk. Настройка выглядит следующим образом:

1. Создаём главный элемент walk[], содержащий необходимые OID.
2. Создаём LLD-правило для элемента типа dependent item, который будет зависеть от основного элемента walk[].
3. Определяем LLD-макросы, используя шаг препроцессинга SNMP walk to JSON.
4. Создаём прототипы элементов типа dependent item, которые зависят от главного элемента walk[], и используем шаг препроцессинга SNMP walk value, чтобы указать, какой OID следует использовать для сбора значений.

Ключевое отличие от существующего метода дискаверинга SNMP-устройства (discovery) — формат вывода. Расскажите в комментариях, использует ли уже кто-то этот новый метод сбора SNMP-метрик.
Вышла Grafana 10.3

Что нового:

⚡️обновились всплывающие подсказки (появились цветовые индикаторы и появилась поддержка более длинных записей)
⚡️на панели типа Canvas появился зум (увеличение)
⚡️появилась возможность отображать изменения в процентах
⚡️появился аудит анонимных подключений и возможность их количественно ограничить
⚡️экспорт табличных представлений в PDF-файлы

и другие новые возможности. Подробнее можно узнать в блоге Grafana.
🔥Новый канал по Zabbix

Галс Софтвэр объявляет о запуске нового канала @zabbix_ru, посвященный понятно какой системе. Будут публиковать полезные материалы, записи вебинаров, конференций, митапов, а также делиться собственным опытом. Пост там пока только один, но скоро будет много.

Есть и второй канал, посвященный OpenSearch/ElasticSearch @elasticstack_ru.

Каналы сами на себя не подпишутся — вперёд!🚀
Что такое и зачем нужна CMDB

В этой статье автор весьма доходчиво объясняет о плюсах внедрения CMDB . Действительно, в крупных организациях процесс управления активами решен, а вот в некоторых средних и малых далеко не всегда. В конце статьи приведены ссылки на бесплатную и открытую ITSM-систему — iTop. В ней можно автоматизировать большинство ITSM-процессов, не заплатив при этом за лицензии. Я с этой системой уже работал и могу подтвердить, что её использование снимает много головняков в организации. Особенно в связке с Zabbix. Читать статью на Хабре.
SRE Interview Prep Plan

В этом цикле статей 6-недельный план, который составлен, чтобы пройти через весь процесс подготовки к собеседованию на позицию SRE. На каждой неделе уделено внимание развитию знаний в ключевых областях, которые должны знать SRE, таких как автоматизация, мониторинг, реагирование на инциденты и т. д.

В статьях собраны ссылки на материалы для подготовки. Полезный свод знаний для подготовки к интервью.

Неделя 1 (Days 1-2: Introduction to SRE, Days 3-4: Linux/Unix Systems, Days 5-7: Networking Fundamentals)

Неделя 2 (Days 1-3: Introduction to Automation, Scripting, Days 4-5: Infrastructure as Code, Days 6-7: Practice scripting and automation tasks)

Неделя 3 (Days 1-3: Monitoring, Logging, and Alerting, Days 4-5: Exploring Observability Stacks, Days 6-7: Setting up O11Y for a mock infrastructure)

Неделя 4 (Days 1-3: Incident Management Lifecycle, Days 4-5: Troubleshooting Techniques, Days 6-7: Mock Incident Management and Postmortem Analysis)

Продолжение следует.
tailspin

Открытая и бесплатная утилита для выделения текста в логах.

Репыч на Гитхабе
A guide to post-mortem meetings and how we run them at incident.io

Есть несколько моментов, о которых нужно помнить до, во время и после совещания по ликвидации последствий инцидента, чтобы извлечь из него максимальную пользу. В этой статье разобраны такие моменты. Читать статью.
How to be on-call

Большую часть своей карьеры автор этой статьи работал в командах дежурных и руководил такими командами и имеет большой опыт негативного влияния дежурств на личную жизнь. Он пропустил рождественский ужин, работал по выходным и ночам, пропустил множество детских мероприятий, а однажды одновременно справлялся с беспокойным ребенком и вызовом в офис. В этой статье разобрано как сделать процесс дежурств более разумным, сбалансировав потребности бизнеса с личной жизнью сотрудников. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
Troubleshooting Missing Kubernetes Logs in Elasticsearch

В этой статье разобран процесс логирования Kubernetes и траблшутинга отсутствия логов в Elasticsearch. Читать статью.