Мониторим ИТ
7.4K subscribers
52 photos
2 files
1.3K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Top 8 Open-Source Observability & Testing Tools

Tracetest, Malabi, Prometheus, Jaeger, Grafana Tempo, OpenSearch, SigNoz, Postman. Читать дальше.
Monitoring vs Observability with Example

В этой статье дано практическое понимание наблюдаемости и различий между наблюдаемостью и мониторингом с помощью различных сценариев и примеров. Читать дальше.
Spring Boot monitoring with Prometheus Operator

В этой статье описана установка Prometheus Operator, который будет автоматически определять цели мониторинга.

В демонстрации будет использовано приложение Spring Boot. Однако, следуя этой статье, вы сможете настроить любое другое приложение. Если в вашем стеке нет Spring Boot, просто пропустите первый абзац. Читать дальше.
SRE/DevOps Interview Questions — Linux Troubleshooting

Опытный человек рассказывает про вопросы, которые ему задавали на собеседовании на позицию SRE/DevOps. Читать дальше.
SRE: паттерны Reliability

Давайте рассмотрим некоторые из сложных методов, которые SRE может принять и внедрить при разработке системы, способствующей повышению надежности. Некоторые из этих методов решают компромиссы по‑разному, так что последствия не являются значительными. Несколько новых методов и стратегий компенсируют неудачи. В статье о: Circuit Breaker, Sidecar, Exponential backoff, Waterfall, Partitioning или “Sharding”, Fail static, Caching, Queuing, Throttling, Load Shedding, Bulkhead, Waiting room, Compensating transaction, Event-driven architecture. Читать дальше.
OpenTelemetry — Mastering the basic main concepts

Несколько слов об OpenTelemetry — распространенном движке для Observability. Читать дальше.
Building a resilient SRE process

Мы хотели достичь следующих результатов, внедрив процесс SRE, обеспечивающий устойчивость к внешним воздействиям:

⚡️Определение SLO и SLI уровня обслуживания
⚡️Автоматизировать отслеживание SLI
⚡️Создание информационных панелей SLO
⚡️Повышение надежности сервиса с помощью данных SLO

Читать дальше.
Ура! Вышел новый Zabbix 6.4! Это означает, что Zabbix проведет вебинар и расскажет что же там интересного. Вебинар будет 9 марта в 18 часов МСК. Регистрация.

Пока суть да дело, давайте посмотрим что же нового там появилось.

⚡️ улучшенная интеграция с LDAP. То, что многие очень давно просили. И это, действительно, бомбезно. Появилось сопоставление группы пользователей LDAP и SAML с группами пользователей Zabbix. Теперь можно автоматически назначать группы пользователей и роли пользователей пользователям LDAP и SAML.

⚡️ новая фича для управления событиями — причины и симптома. События теперь могут быть отмечены как причины или симптомы. По умолчанию все новые проблемы рассматриваются как события-причины. Одно или несколько событий симптомов могут быть связаны с событием причины
Введено несколько новых макросов {EVENT.CAUSE} для представления данных о событиях-причинах.

⚡️мгновенное распространение изменений конфигурации. Активные и пассивные прокси Zabbix теперь могут практически мгновенно подхватывать любые изменения конфигурации, внесенные в Zabbix: ProxyConfigFrequency поддерживает интервалы до 1 секунды. Прокси Zabbix теперь получают только дельту конфигурации — изменения конфигурации, выполненные в течение интервала обновления конфигурации. Активный агент Zabbix теперь получает полную копию конфигурации только в том случае, если изменения конфигурации были сделаны между интервалами синхронизации конфигурации:

⚡️обновление Zabbix с нулевым временем простоя
Для улучшения рабочих процессов обновления компонентов Zabbix (особенно для больших сред) прокси теперь обратно совместимы в рамках одного цикла выпуска LTS. Прокси полностью поддерживается, если он имеет ту же основную версию, что и сервер Zabbix. Для версий без LTS (например: Zabbix server 6.4) прокси помечается как устаревший, если его основная версия старше, чем у сервера Zabbix, но находится в пределах того же выпуска LTS (например: Zabbix proxy 6.0/6.2).
Для версий LTS (например: Zabbix server 7.0) прокси помечается как устаревший, если его основная версия старше сервера Zabbix, но не старше предыдущего выпуска LTS (например: Zabbix proxy 6.0).

⚡️потоковая передача метрик и событий в реальном времени по HTTP. Передача метрик и события в брокеры сообщений: Kafka, RabbitMQ или Amazon Kinesis. Потоковая передача осуществляется по HTTP через REST API. Можно передавать только те данные, которые соответствуют фильтру тегов.

⚡️версионность шаблонов. Версионность шаблонов можно использовать для оптимизации конвейера CI/CD и автоматического обновления шаблонов с помощью Zabbix API.
Новые поля в списке шаблонов - Vendor и Version.

И другое. Подробнее можно узнать на странице с описанием выпуска.
Observability beyond the three pillars — Profiling in da house

Статья о том, для чего нужно профилирование запросов и какие инструменты для этого существуют. Читать дальше.
Four Golden Signals Of Monitoring: Site Reliability Engineering (SRE) Metrics

Мониторинг золотых сигналов с помощью FastAPI на k8s. Читать дальше.
Monitoring MongoDB with Prometheus using the MongoDB Exporter

Короткий гайд по настройке мониторинга MongoDB через Prometheus. Читать дальше.
Приглашаю вас на вебинар о нетипичных сценариях использования Yandex Data Transfer
14 марта, 12:00–13:00

На мероприятии будут разобраны:
🔸 какие задачи можно решить с помощью Yandex Data Transfer;
🔸 как построить пайплайны внутри платформы данных и между сервисами облака;
🔸 какие особенности трансферов стоит учесть в работе.

Будут продемонстрированы сценарии для CDC, поставки из очередей и загрузки данных в витрины, которые вы сможете реализовать самостоятельно.

Вас также ждёт Q&A-сессия. Вопросы можно прислать в чат трансляции — спикер ответит на них в прямом эфире.

Участие бесплатное, нужно зарегистрироваться ➡️
What Are Structured Logs and How Do They Improve Performance?

Структурированные логи — это бесценный инструмент, когда речь идет о понимании и устранении неполадок ПО. Благодаря четкой и аккуратной организации информации о событиях, происходящих в системе, структурированные логи позволяют легко определить проблемы и отследить ошибки. Читать дальше.
Unreadable Metrics: Why You Can’t Find Anything in Your Monitoring Dashboards

Руководство по эффективному проектированию дашбордов для DevOps и SRE. В этом посте рассмотрены нечитаемые метрики и то, как создавать эффективные дашборды, которые облегчат вам устранение неполадок. Читать дальше.
Phantom Metrics: Why Your Monitoring Dashboard May Be Lying to You

Мы смотрим на метрики, чтобы узнать, как работает наша система, будь то на уровне инфраструктуры, приложения или бизнеса. Мы доверяем нашим метрикам, которые показывают нам состояние нашей системы и места, где она ведет себя неправильно. Но показывают ли метрики, что произошло на самом деле? Вы будете удивлены, как часто это не так.

В этой статье рассмотрены математика и механика, лежащие в основе метрик, некоторые распространенные заблуждения, что нужно для получения точных метрик и существует ли вообще такая вещь. Читать дальше.
Using Python for Monitoring Machines in DevOps: A Guide to Scripting

В этой статье рассказывается о том, как использовать Python для создания сценария мониторинга нескольких значений на сервере, таких как использование процессора, памяти и дискового пространства. Также будет показано, как настроить автоматическое оповещение по электронной почте в случае, если некоторые из этих значений превышают или ниже порога. Читать дальше.
Kubernetes monitoring with Zabbix – Part 2: Understanding the discovered resources

В
предыдущей статье описывалась установка Zabbix Agent Helm Chart и настройка официальных шаблоны Kubernetes для мониторинга кластера в Zabbix. В этой статье раскрывается функциональность, предоставляемая интеграцией Kubernetes в Zabbix, и обсуждаются примеры использования для мониторинга и оповещения о событиях в кластере. Читать дальше.
Kubernetes Observability: логгинг с EFK

В этой статье про про логирование в Kubernetes посредством EFK стека. Читать дальше.
Monitoring SSL Certificates with Go

Мониторинг SSL помогает отслеживать статус SSL веб-сайта и получать информацию о его сертификате SSL. В этой статье разобрано как создать мониторинг SSL, написанный на Go с определённым набором функций. Читать дальше.
Что скрыто внутри Yandex Cloud?
Узнайте на офлайн-митапе!
Приглашаю вас на about:cloud, где разработчики расскажут, как они развивают ключевые инфраструктурные сервисы по мере роста нагрузки и сложности. Будет обсуждение, с какими сложными и интересными техническими задачами они сталкиваются.
Регистрируйтесь ➡️