Мониторим ИТ
7.49K subscribers
56 photos
2 files
1.32K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Evaluating monitoring solutions; Prometheus, Thanos, Mimir, Victoria Metrics

В этой статье сравниваются Prometheus, Thanos, Mimir, Victoria Metrics по различным критериям. Полезно, если вы находитесь на этапе выбора. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
A better Grafana OnCall: web-based scheduling, mobile app, email support

Новая
статья в блоге Grafana о решении OnCall. А кто-то помнит времена, когда OnCall был Amixr? Сейчас решение активно развивается и из статьи вы узнаете об обновлениях, которое получило это решение. Читать статью.
Картина ясная: как мы визуализируем метрики Platform V DataGrid в Grafana

В статье рассказано, как в СберТехе обеспечиваеется промышленный мониторинг критических систем и визуализируются метрики кластеров в Grafana. Читать статью.
❗️Вакансия на проект по Zabbix

Галс Софтвэр ищет специалиста(-ов) по Zabbix с опытом внесения доработок в исходный код для траблшутинга выявленных проблем. Работа проектная, удаленная, парт-тайм. Рассказать о себе и задать вопросы можно @galssoftware.
Log Analysis: Elasticsearch VS Apache Doris

В этой статье автор разбирает недостатки Elasticsearch и преимущества Apache Doris. Интересное чтиво, если вы по каким-то причинам ищете замену Elasticsearch. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.

Расскажите в комментариях, устраивает ли вас Elasticsearch/Opensearch, ищете ли ему замену и если заменили, то на что. Благодарю!
Как рассчитать SLA на примере Nginx-сервера

Правда, как? SLA можно представить в виде измеряемой метрики, например, как время безотказной работы или суммарное количество ошибок. Это перевод статьи, где рассматривается простой способ расчета SLA на примере Nginx-сервера. Читать статью.
Мониторинг PostgreSQL. Новые возможности анализа производительности 1С и других систем

Статья из двух частей. Узнаете, что не так с существующими инструментами типа pg_stat_statements, что такое SP_TRACE и трассировщик на основе SP_TRACE.

Часть 1: счётчики

Часть 2: Трассировка
How to provision a notification policy in Grafana Alerting — and keep it editable in the UI

В Grafana Alerting политики используют метки оповещений для определения того, какие оповещения направляются различным получателям. Когда политики уведомлений создаются с помощью API или конфигурационного файла, они становятся недоступными для редактирования в пользовательском интерфейсе. В этом случае в верхней части политики уведомлений появляется соответствующее сообщение.

В этой статье рассмотрены шаги, необходимые для инициализации политик уведомлений Grafana Alerting через API и через конфигурационный файл. Также рассказано об обходном пути, позволяющем создать политику уведомлений через API и сохранить возможность ее редактирования в пользовательском интерфейсе, чтобы можно было быстро вносить изменения по мере необходимости. Читать статью в блоге Grafana.
Полезная таблица, чтобы не потеряться
The Pyramid of Alerting

В этой статье приведен пример пирамиды оповещений — от чего к чему нужно идти, чтобы выстроить эффективную систему оповещений. Читать статью.
Distributed Tracing for Message Broker Subscribers

Это краткое руководство о том, как вручную добавить сквозную распределенную трассировку к брокеру сообщений. В статье используются Datadog, Go или Node и RabbitMQ, но эти концепции применимы даже при использовании других инструментов распределенной трассировки, языка программ или брокера сообщений (например, Kafka, SQS и других). Читать статью.
OpenTelemetry: Sending Traces From Ingress-Nginx to Multi-Tenant Grafana Tempo

Опыт автора по использованию Grafana Tempo в качестве мультитенантного решения для предоставления доступа для различных команд разработчиков. Читать статью.
Top metrics for Elasticsearch monitoring with Prometheus

Рассказывают какие метрики контролировать в Elasticsearch, чтобы не упустить тот самый момент: golden signals, инфраструктурные метрики, метрики индексации, метрики поиска, метрики производительности кластера. Читать статью.
Best practices for monitoring static web applications

Статические сайты — популярное решение для легковесных веб-приложений: корпоративных сайтов, блогов и хранилищ документации. В статической веб-архитектуре страницы генерируются и предварительно рендерятся из файлов разметки и кэшируются в сети доставки контента (CDN). Это позволяет командам экономить силы и средства на управлении серверами и обеспечивает быстрое время загрузки страниц. В этой статье рассмотрены основные особенности архитектуры статических веб-приложений и рассказано о лучших практиках эффективного мониторинга, включая ключевые метрики и другие данные, которые необходимо собирать:

⚡️Оптимизировать кэширование и доставку из CDN путем сбора данных о реальных пользовательских сессиях, а также данных о производительности и безопасности от поставщика CDN.

⚡️Контролировать цикл сборки-развертывания, включая дополнительную инфраструктуру сборки, конвейеры CI и синтетические тесты.

Читать статью
sre-checklist

Цель репозитория: дать командам и отдельным сотрудникам представление о том, на что следует обратить внимание и к чему стремиться в области и работе SRE.

Репыч на Гитхабе
Why bother with SLI and SLO?

Опыт автора, который поддерживает SLI и SLO в крупных организациях. Рассказывает на что нужно обратить внимание. Читать статью.
Building a Successful SRE Team

Лучшие практики создания команды SRE от практика:

⚡️Focus on Developer Training
⚡️Focus on the Right Abstractions
⚡️Focus on Self Service
⚡️Automate Yourself out of a job

Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.
Introducing Grafana Beyla: open source ebpf auto-instrumentation for application observability

Зачастую, чтобы инструментировать приложение, необходима установка агента для трейсинга вызовов в приложении. В таких языках как Go, правильное инструментирование означает ручное добавление точек трассировки.

Grafana представляет новое решение — Beyla, это инструмент автоинструментирования eBPF с открытым исходным кодом, который сейчас находится в стадии публичного предварительного теста. Beyla предоставляет информацию об основных транзакциях, а также метрики RED (Rate-Errors-Duration) для сервисов Linux HTTP/S и gRPC - и все это без необходимости модификации кода для ручной установки агентов. Читать статью в блоге Grafana.
victorialogs (предварительная версия)

⚡️VictoriaLogs может принимать журналы от популярных сборщиков журналов (Filebeat, Fluentbit, Logstash, Vector, Promtail).

⚡️VictoriaLogs гораздо проще в настройке и эксплуатации по сравнению с ElasticSearch и Grafana Loki.

⚡️VictoriaLogs предоставляет простой, но мощный язык запросов с возможностью полнотекстового поиска по всем полям журнала.

⚡️VictoriaLogs может быть легко совмещен со старыми добрыми Unix-инструментами для анализа журналов, такими как grep, less, sort, jq и т.д.

⚡️Производительность VictoriaLogs линейно зависит от доступных ресурсов (процессор, оперативная память, дисковый ввод-вывод, дисковое пространство). Он прекрасно работает как на Raspberry PI, так и на сервере с сотнями процессорных ядер и терабайтами оперативной памяти.

⚡️VictoriaLogs может обрабатывать гораздо большие объемы данных, чем ElasticSearch и Grafana Loki при работе на сопоставимом оборудовании.

⚡️VictoriaLogs поддерживает мультитенантность.

⚡️VictoriaLogs предоставляет простой веб-интерфейс для запросов к журналам.

Репыч на Гитхабе
10 operation tips to handle major incident management

В этой статье 10 советов, которые помогут выявлять критические инциденты. Читать статью.

❗️Статья на Медиум, возможно, нужен VPN.