Мониторим ИТ
7.66K subscribers
103 photos
2 files
1.39K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Kubernetes pods autoscaling with Kafka metrics

Эта статья познакомит вас с настройкой Horizontal Pod Autoscaler (HPA) на основе показателей задержки Kafka. Также вы узнаете о трудностях и проблемах, с которыми столкнулся автор поста во время установки. Читать дальше.
Creating Grafana Dashboards for Node.js Apps on Kubernetes

В этой статье объясняется, как создать дашборд с набором метрик для приложений Node.js в Kubernetes. Читать дальше.
Пора переходить на бесплатную ITSM-систему!

Если вы небольшая или средняя компания, государственная организация масштаба регионального правительства или меньше и в настоящий момент используете коммерческую систему для управления обращениями, изменениями, проблемами, знаниями или конфигурационными единицами, мы сможем помочь вам оптимизировать бюджет, перейдя на бесплатную ITSM-систему iTop.

iTop включает в себя:

- базу данных конфигурационных единиц (CMDB) с возможностью интеграции с системой мониторинга Zabbix и картографическим сервисом (см. статью на Хабре)
- настраиваемый воркфлоу заявок Service Desk
- настраиваемые пользовательские представления
- функционал Helpdesk
- пользовательский портал
- управление изменениями
- управление проблемами
- управление инцидентами c возможностью создания нарядов
- управление знаниями
- настраиваемые SLA
- интеграция с AD и почтовыми сервисами

Для получение более подробной информации, оставляйте заявки на нашем сайте или в телеграфируйте пользователю @galssoftware.
How ClickHouse Inspired Us to Build a High Performance Time Series Database

В этом видео Александр Валялкин — CTO VictoriaMetrics рассказывает о том, как создавалась TSDB VictoriaMetrics, как их вдохновил ClickHouse и почему были выбраны те или иные решения. Смотреть на Ютубе.
15 Grafana vis you probably didn’t know was possible with these 3 plugins

Описание 3 полезных в работе плагинов: SVG Panel, BoomTable, FlowCharting. Читать дальше.
По следам прошедшего 10-го юбилейного Zabbix Summit

Событие проходило 7-8 октября в Риге и вот теперь появились записи мероприятия. Записи всех выступлений и презентации можно найти на специальной странице.
5 Best Logging Solutions for Java

В этой статье о фреймворках для анализа журналов Java. Читать дальше.
Python logging for development and production

Логирование - один из столпов наблюдаемости. В этой статье описание настройки логирования для приложений на Python. Читать дальше.
How to customize Grafana dashboards using Ansible

Статья о том, как создавать новые дашборды в Grafana на основе Ansible inventory. Читать дальше.
👍1
How to Use Error Budgets to Protect Service Reliability

«Бюджет ошибок» описывает количество времени, в течение которого система может находиться офлайн, прежде чем это повлечет за собой ощутимые последствия для бизнеса. Бюджеты ошибок используются вместе с соглашениями об уровне обслуживания (SLA) и целями уровня обслуживания (SLO), чтобы информировать организации, когда недоступность системы привела к нарушению контракта.

Включение бюджетов ошибок в стратегию обеспечения надежности приложений обеспечивает методический подход к балансу между риском и стабильностью. Бюджеты ошибок признают, что случайные простои, ошибочные деплои и ошибки неизбежны. Их роль состоит в том, чтобы сказать, сколько таких инцидентов система может выдержать. Доступный бюджет ошибок также определяет, будет ли следующая задача создавать новую функцию или заниматься исправлением другой ошибки. Читать дальше.
Prometheus Counter Metrics

Подробности.
Вышла Grafana 9.2

Что нового:

⚡️ новая панель помощи. В Grafana 9.2 при переходе в меню «Panel menu > More» появляется новый пункт меню «Get help». Откроется мастер, который создаст моментальные снимки данных, которые можно отправить в службу поддержки либо в виде проблемы GitHub, либо в справочной системе Grafana, чтобы лучше сообщать о любых проблемах с панелью.

⚡️ упрощенный редактор переменных запроса для Grafana Loki. В дополнение к конструктору запросов Grafana Loki, который появился в Grafana 9.0, появились раскрывающиеся списки, чтобы упростить создание и редактирование переменных.

⚡️ улучшенный пользовательский интерфейс для Google Cloud. Для пользователей, которые используют плагин Google Cloud Monitoring, обновился интерфейс, который более логично группирует элементы построителя запросов, поэтому создавать запросы стало более интуитивно понятным.

⚡️ преобразования: INNER JOINS. Появилась поддержка преобразования INNER JOINS и OUTER JOINS, которые работают аналогично SQL JOIN (искать в Transform).

⚡️ Grafana Alerting: правила оповещения по умолчанию возвращают состояние ошибки при ошибке выполнения или тайм-ауте. Правила, созданные с помощью Grafana Alerting, ранее переключались в состояние алерта, когда правило сталкивалось с ошибкой выполнения или тайм-аутом. Новые правила обработки ошибок теперь по умолчанию переключаются в состояние «Error» при сбое выполнения или истечении времени ожидания. Вы можете изменить это значение по умолчанию на «Warning» или «ОК».

О других обновлениях можно узнать в статье в блоге Grafana.
AIOps: What, Why, and How?

Про AIOps многие говорят, но сейчас, к сожалению, на российском рынке количество таких систем заметно снизилось. Однако, выбор есть. В этой статье о том как должна быть устроена AIOps система, для чего она предназначена и кейсы её использования. Читать дальше.
Traditional vs Modern Incident Response

Некоторый ликбез о том, как докрутить систему реакции на инциденты до уровня не просто оповестить, а предотвратить в будущем, быстро найти похожее решение и т.д. Читать дальше.
Monitor your PostgreSQL instances using Monika

Релиз Monika v1.13.3 был выпущен 17 октября 2022 года. В этой версии появилась возможность мониторинга PostgreSQL с использованием конфигураций Monika. Читать дальше.
How do you keep track of the actual service level objectives?

О формировании различных типов SLO для оценки доступности приложений. Читать дальше.
Site Reliability Engineering: What is a Toil?

Реактивная работа — тактическое быстрое решение проблемы. Если такая работа часто повторяется — это явные признаки повторяющегося труда (toil). Проактивная работа — это время, инвестированное в улучшения. В этой статье разбираются определения задач из обоих категорий и методы снижения временных затрат на реактивную работу. Читать дальше.
Observability Mythbusters: Observability Anti-Patterns

Разрушители легенд о наблюдаемости. В этом несколько антипаттернов при использовании практик наблюдаемости. Читать дальше.
Grafana, Prometheus, and Loki: Exploring Metrics and Logs

Воркшоп на примере демо-приложения. Читать.
How to Install and Configure Graphite Monitoring System on Ubuntu 22.04

Небольшой
воркшоп по установке Graphite. Читать дальше.