Мониторим ИТ – Telegram

Мониторим ИТ

7.67K subscribers

106 photos

2 files

1.39K links

Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)

Download Telegram

About

Blog

Apps

Platform

Мониторим ИТ

7.67K subscribers

Мониторим ИТ

Галс Софтвэр приглашает на курс по Elastic Stack 8, который состоится уже через месяц — 20-22 июля.

За 3 дня вы узнаете, как устроена и работает новая версия одного из популярных инструментов для аналитики и хранения неструктурированных данных.

Elastic Stack — комплексное решение, состоящее из нескольких компонентов: Elasticsearch, Kibana, Logstash и Beats. Изучение документации по каждому из компонентов и их взаимодействии на сайте вендора может отнять немало времени. Не лучший вариант, если нужно приступать к работе с решением уже вчера. Мы предлагаем освоить основные принципы в теории и на практике за 3 дня. После обучения работа с документацией будет сводиться к поиску только нужной информации, вместо её изучения от и до.

На лабораторной работе мы установим отказоустойчивый кластер Elasticsearch 8, научимся разбирать лог-файлы, настроим безопасность, оповещения в телегу, поработаем с ILM и SLM.

👉 Подробнее о курсе и заявка на обучение

Задать вопросы о курсе можно @galssoftware

Мы ведём канал об Elastic @elasticstack_ru

2.64K views09:30

Мониторим ИТ

Учим zabbix-agent «есть» на ходу и не давиться пользовательскими параметрами (UserParameter)

Интересная статья об унификации UserParameter в конфигурации Zabbix Agent. На Хабр!

2.68K views08:07

Мониторим ИТ

A set of modern Grafana dashboards for Kubernetes

In this article, I will present a set of modern Grafana dashboards I made for Kubernetes, explain why I decided to create them and how they work. Читать дальше на Медиуме.

2.93K views17:20

Мониторим ИТ

Why is the Prometheus Agent Mode So Great?

Пользуетесь Prometheus Agent? Небольшая статья о нем.

👍1

3.71K views08:05

Мониторим ИТ

Monitor Ansible Playbook Executions

I planned to use an ansible, a configuration management tool, in a production system. When it comes to the production system, it is important to know which configurations are applied successfully and which aren’t.

After spending some time on the internet, I couldn’t find an easy way to monitor failed execution. Hence I come up with this solution.

Читать дальше на Медиуме.

3.05K views11:30

Мониторим ИТ

18 Awesome Open-source Self-Hosted Ticketing System for 2022 [Updated]

Когда нужна система тикетов. Читать дальше.

MEDevel.com | Open-source Apps for Healthcare and Enterprise

18 Awesome Open-source Self-Hosted Ticketing System (Updated 2024)

Guess you have an e-commerce store business, or a product, and it is growing, gaining more customers, then you get many questions lined up.

The problem is that your team cannot provide a timely response to all of them, unanswered questions not being able…

2.53K views08:05

Мониторим ИТ

На днях уже писал про Grafana OnCall, который теперь стал полностью открытым. Среди его функционала есть цепочки эскалации, графики дежурств и вообще он крайне удобен для управления алертами. В этой инструкции вы узнаете как настроить интеграцию Zabbix и Grafana OnCall.

3.03K views14:53

Мониторим ИТ

Grafana dashboards: A complete guide to all the different types you can build

В этой небольшой статье бэстпрэктис по организации дашбордов в Grafana. Многое читатели этого канала, конечно, знают, но, возможно, будет что-то новое. Читать статью.

3.29K views08:05

Мониторим ИТ

Logging Bash History via Promtail, Loki and Grafana

Когда очень нужно знать кто безобразничал. Читать дальше.

4.51K views05:00

Мониторим ИТ

Monitor Server with Telegram Bot and Python

Рубрика "Работает и ладно". Наколенный мониторинг из сами понимаете чего: Telegram и Python. Читать как это сделать.

3.8K views15:00

Мониторим ИТ

How to optimize PromQL and MetricsQL queries

PromQL и MetricsQL — мощные языки запросов. Они позволяют писать простые запросы для построения красивых графиков по данным временных рядов. Также они позволяют писать сложные запросы для расчетов SLI/SLO и алертов. В этой статье про выявление медленных запросов PromQL, определение стоимость запросов и их оптимизации, чтобы они выполнялись быстрее и потребляли меньше ресурсов CPU и RAM. Читать дальше.

How to optimize PromQL and MetricsQL queries

The article explains how to detect and optimize slow PromQL queries in production

4.01K views08:05

Мониторим ИТ

Как мы пытались подружить VictoriaMetrics и Thanos (и у нас почти получилось)

Мы в Сравни долгое время использовали связку Prometheus + Thanos для мониторинга и хранения данных. Для Thanos мы использовали схему с sidecar’ом. Эта схема работала довольно неплохо, но с ростом проекта — росло и потребление ресурсов. Со временем задачи по scrape samples уже потребляли значительные ресурсы. Когда только на Prometheus стало уходить больше 30 ядер vCPU и 100 гигабайт RAM, мы начали искать способы оптимизации потребления ресурсов. Читать дальше.

2.36K views13:17

Мониторим ИТ

Что нового в Grafana 9 по части алертинга?

В июне Grafana Labs объявили о выходе новой 9 версии своего решения-хедлайнера — инструмента для визуализации Grafana. Как и полагается мажорной версии, появилось увесистое количество обновлений. И одно из ключевых обновлений — новые возможности алертинга. Ниже некоторые подробности этих обновлений.

⚡️ Инстансные оповещения

До Grafana 9 оповещения нужно было привязывать к панели или дашборду. Теперь алертами можно управлять как будто это регулярное выражение. Правила алертинга могут создавать несколько отдельных экземпляров алертов внутри каждого правила. Правило определяет, когда отправлять оповещения, но оповещать можно сразу по нескольким элементам. Пример из реальной жизни: представьте, что у вас есть умный дом и вы хотите знать, когда открыты окна. У вас может быть одно оповещение «Сообщите мне, открыты ли окна», и для каждого окна вы получите «Окно x открыто!» Не нужно создавать более одного правила.

⚡️ Группировка и маршрутизация оповещений

Когда возникает событийный шторм, сотни оповещений могут прийти одновременно. Политики алертинга решают такую проблему. Это набор правил, определяющих, в какой канал как направляются оповещения. Объединение политик алертинга с функцией группировки позволяет все оповещения, относящиеся к одному компоненту системы, объединить вместе, чтобы Grafana будет отправляла только одно уведомление, содержащее список затронутых сред для этого правила. Политики оповещений имеют древовидную структуру, в которой каждая политика может иметь одну или несколько дочерних политик. Каждая политика, кроме корневой политики, может соответствовать определенным меткам алертов. Каждый алерт оценивается корневой политикой, а затем каждой дочерней политикой, чтобы можно было алертить в определенные каналы. В результате один алерт улетит сразу в несколько каналов на основе определенных критериев метки.

⚡️ Молчание - золото

Бесшумный режим позволяет останавливать уведомления от одного или нескольких правил. С помощью этой новой функции можно частично приостановить оповещение на основе определенных критериев. Бесшумный режим только приостанавливает создание алертов. В пользовательском интерфейсе всё так же будут отображаться экземпляры алертов. Это сделано нарочно: вы можете видеть текущий статус экземпляра алерта, но не получите уведомления.

⚡️ Режим обслуживания на период времени

В Grafana 9 можно указать интервал времени, когда вы не хотите, чтобы новые уведомления генерировались или отправлялись. Например, можно установить время отключения генерации и отправки для нескольких или всех ваших маршрутов оповещений, чтобы вас не отрывали от шашлындоса или посиделок в баре.

Подробнее.

3.57K views06:00

Мониторим ИТ

Что нового в Zabbix 6.2

Zabbix сообщил о релизе новой версии Zabbix 6.2. В этой версии появилось несколько нововведений. Ниже подробности.

⚡️ Подавление проблем, порождаемых триггерами

При помощи этой функции можно подавлять проблему на определенный срок или навсегда. Подозреваю, что при подавлении проблемы, она не будет аффектить на доступность сервиса. Нужно проверить.

⚡️ Интеграция с хранилищем секретов CyberArk

В дополнение к HashiCorp Vault появилась ещё одна такая интеграция. Работает аналогично. На Хабре есть статья про опции безопасности Zabbix, про Vault там тоже было.

⚡️ Управление конфигурацией Zabbix-прокси с Zabbix-сервера

Управлять можно через веб-интерфейс, командной строки или API. Поддерживаются активные и пассивные прокси.

⚡️ Расширение контроля над обнаруженными узлами сети

Теперь можно вручную привязывать шаблоны к узлам, обнаруженным из прототипов, создавать дополнительные теги к узлам.

⚡️ Отслеживание выполнения активных проверок

Появилась возможность отслеживания активных проверок из веб-интерфейса. Можно конфигурировать период хартбита по проверке доступности активной проверки, а также появился внутренний айтем для проверки доступности активного агента.

⚡️ Улучшение производительности

Теперь Zabbix при обновлении конфигурации не перезагружает в память ее полностью, вместо этого он получает только последние обновления конфигурации.

Ещё одно улучшение — проверка вновь созданных айтемов в течении минуты после их создания вместо проверки в течении случайного периода времени в рамках периода сбора.

⚡️ Кнопка «Execute Now» ~~изменила цвет~~ стала доступна в Latest Data

Разумеется, эта опция доступна не для всех элементов данных (для тех, где недоступна, будет выдаваться ошибка). Также доступностью этой кнопки для пользователей можно управлять при помощи ролевой модели.

⚡️ Отдельные группы узлов и шаблонов

Шаблоны теперь сгруппированы в группы шаблонов, а не в группы хостов. Импорт шаблонов и хостов из предыдущих версий Zabbix полностью поддерживается, и соответствующие группы будут созданы из файла импорта. Права доступа на основе ролей могут быть назначены для раздела «Template Groups».

⚡️ Поддержка нескольких серверов LDAP для аутентификации пользователей

Теперь можно установить несколько серверов LDAP. Функционал позволит плавно переключить аутентификацию пользователей между серверами LDAP при миграции или обновления LDAP.

Как вам обновления?

Полный список обновлений и скриншоты.

2.38K views11:30

Мониторим ИТ

Multi Tenant Logs with Grafana Loki

Loki - популярный инструмент (и по совместимости близкий родственник Grafana) для анализа логов. В этой статье пошаговое руководство, чтобы начать работу с Grafana/Loki в кластере Kubernetes и возможностью наблюдения за несколькими окружениями. Читать дальше.

2.44K views06:00

Мониторим ИТ

Forwarded from /usr/bin

Серия статей по траблшутингу производительности Linux. Если не знаете куда копать, то они должны помочь.

Linux troubleshooting: CPU analysis

Linux troubleshooting: Memory analysis

Linux troubleshooting: Disk analysis

Linux Memory: Buffer vs Cache

Linux — Disk I/O Deep Dive

Linux — How to Measure Network Performance

Linux — How To Troubleshoot DNS Issues

2.32K views13:01

Мониторим ИТ

Мониторинг событий Windows EventLog в Zabbix. В этом видео Дмитрий Ламберт (руководитель техподдержки Zabbix) рассказывает как настроить мониторинг таких событий при помощи Zabbix Agent.

https://youtu.be/rOBatrWrg2Y

Windows EventLog Monitoring With ZABBIX

Windows EventLog Monitoring with Zabbix monitoring solution using Zabbix agent. Easy to install and simple to configure. Monitor all required events and receive notifications when something bad happens.

Don't forget to follow on Patreon ( Free tier available…

3.21K views14:30

Мониторим ИТ

Интересный блог Adri Villela на Медиуме. Много пишет про подход к Observability, как правильно строить этот процесс, какие инструменты использовать и т.д. Велкоме.

Adriana Villela – Medium

Read writing from Adriana Villela on Medium. DevRel | OTel End User SIG Maintainer | {CNCF, HashiCorp} Ambassador | Podcaster | Former corporate 🤖 | Speaker | Bouldering Addict | Opinions my own.

3.16K views06:00

Мониторим ИТ

Что означает load average

Кто-то считает, что load average — это загрузка CPU в единицу времени, например, средняя загрузка: 0,51, 0,72, 0,86 означает, что загрузка CPU составляет 51% за последнюю 1 минуту. Но это не так. Средняя загрузка относится к среднему количеству процессов, находящихся в запущенном и непрерывном состоянии в единицу времени, то есть к среднему количеству активных процессов, которое не связано напрямую с использованием CPU. Читать дальше.

Что такое Load Average в Linux

Разберемся что из себя представляет понятие load average и чем оно отличается от загрузки процессора

5.32K views11:30

Мониторим ИТ

Если Mikrotik — ваше альтер эго. По этой ссылке 55 шаблонов от Zabbix для мониторинга если не всей, то большей части моделей устройств Mikrotik. Выбирайте на свой вкус.

4.4K views06:00