Top 8 Open-Source Observability & Testing Tools
Tracetest, Malabi, Prometheus, Jaeger, Grafana Tempo, OpenSearch, SigNoz, Postman. Читать дальше.
Tracetest, Malabi, Prometheus, Jaeger, Grafana Tempo, OpenSearch, SigNoz, Postman. Читать дальше.
Monitoring vs Observability with Example
В этой статье дано практическое понимание наблюдаемости и различий между наблюдаемостью и мониторингом с помощью различных сценариев и примеров. Читать дальше.
В этой статье дано практическое понимание наблюдаемости и различий между наблюдаемостью и мониторингом с помощью различных сценариев и примеров. Читать дальше.
Spring Boot monitoring with Prometheus Operator
В этой статье описана установка Prometheus Operator, который будет автоматически определять цели мониторинга.
В демонстрации будет использовано приложение Spring Boot. Однако, следуя этой статье, вы сможете настроить любое другое приложение. Если в вашем стеке нет Spring Boot, просто пропустите первый абзац. Читать дальше.
В этой статье описана установка Prometheus Operator, который будет автоматически определять цели мониторинга.
В демонстрации будет использовано приложение Spring Boot. Однако, следуя этой статье, вы сможете настроить любое другое приложение. Если в вашем стеке нет Spring Boot, просто пропустите первый абзац. Читать дальше.
SRE/DevOps Interview Questions — Linux Troubleshooting
Опытный человек рассказывает про вопросы, которые ему задавали на собеседовании на позицию SRE/DevOps. Читать дальше.
Опытный человек рассказывает про вопросы, которые ему задавали на собеседовании на позицию SRE/DevOps. Читать дальше.
SRE: паттерны Reliability
Давайте рассмотрим некоторые из сложных методов, которые SRE может принять и внедрить при разработке системы, способствующей повышению надежности. Некоторые из этих методов решают компромиссы по‑разному, так что последствия не являются значительными. Несколько новых методов и стратегий компенсируют неудачи. В статье о: Circuit Breaker, Sidecar, Exponential backoff, Waterfall, Partitioning или “Sharding”, Fail static, Caching, Queuing, Throttling, Load Shedding, Bulkhead, Waiting room, Compensating transaction, Event-driven architecture. Читать дальше.
Давайте рассмотрим некоторые из сложных методов, которые SRE может принять и внедрить при разработке системы, способствующей повышению надежности. Некоторые из этих методов решают компромиссы по‑разному, так что последствия не являются значительными. Несколько новых методов и стратегий компенсируют неудачи. В статье о: Circuit Breaker, Sidecar, Exponential backoff, Waterfall, Partitioning или “Sharding”, Fail static, Caching, Queuing, Throttling, Load Shedding, Bulkhead, Waiting room, Compensating transaction, Event-driven architecture. Читать дальше.
OpenTelemetry — Mastering the basic main concepts
Несколько слов об OpenTelemetry — распространенном движке для Observability. Читать дальше.
Несколько слов об OpenTelemetry — распространенном движке для Observability. Читать дальше.
Building a resilient SRE process
Мы хотели достичь следующих результатов, внедрив процесс SRE, обеспечивающий устойчивость к внешним воздействиям:
⚡️Определение SLO и SLI уровня обслуживания
⚡️Автоматизировать отслеживание SLI
⚡️Создание информационных панелей SLO
⚡️Повышение надежности сервиса с помощью данных SLO
Читать дальше.
Мы хотели достичь следующих результатов, внедрив процесс SRE, обеспечивающий устойчивость к внешним воздействиям:
⚡️Определение SLO и SLI уровня обслуживания
⚡️Автоматизировать отслеживание SLI
⚡️Создание информационных панелей SLO
⚡️Повышение надежности сервиса с помощью данных SLO
Читать дальше.
Ура! Вышел новый Zabbix 6.4! Это означает, что Zabbix проведет вебинар и расскажет что же там интересного. Вебинар будет 9 марта в 18 часов МСК. Регистрация.
Пока суть да дело, давайте посмотрим что же нового там появилось.
⚡️ улучшенная интеграция с LDAP. То, что многие очень давно просили. И это, действительно, бомбезно. Появилось сопоставление группы пользователей LDAP и SAML с группами пользователей Zabbix. Теперь можно автоматически назначать группы пользователей и роли пользователей пользователям LDAP и SAML.
⚡️ новая фича для управления событиями — причины и симптома. События теперь могут быть отмечены как причины или симптомы. По умолчанию все новые проблемы рассматриваются как события-причины. Одно или несколько событий симптомов могут быть связаны с событием причины
Введено несколько новых макросов {EVENT.CAUSE} для представления данных о событиях-причинах.
⚡️мгновенное распространение изменений конфигурации. Активные и пассивные прокси Zabbix теперь могут практически мгновенно подхватывать любые изменения конфигурации, внесенные в Zabbix: ProxyConfigFrequency поддерживает интервалы до 1 секунды. Прокси Zabbix теперь получают только дельту конфигурации — изменения конфигурации, выполненные в течение интервала обновления конфигурации. Активный агент Zabbix теперь получает полную копию конфигурации только в том случае, если изменения конфигурации были сделаны между интервалами синхронизации конфигурации:
⚡️обновление Zabbix с нулевым временем простоя
Для улучшения рабочих процессов обновления компонентов Zabbix (особенно для больших сред) прокси теперь обратно совместимы в рамках одного цикла выпуска LTS. Прокси полностью поддерживается, если он имеет ту же основную версию, что и сервер Zabbix. Для версий без LTS (например: Zabbix server 6.4) прокси помечается как устаревший, если его основная версия старше, чем у сервера Zabbix, но находится в пределах того же выпуска LTS (например: Zabbix proxy 6.0/6.2).
Для версий LTS (например: Zabbix server 7.0) прокси помечается как устаревший, если его основная версия старше сервера Zabbix, но не старше предыдущего выпуска LTS (например: Zabbix proxy 6.0).
⚡️потоковая передача метрик и событий в реальном времени по HTTP. Передача метрик и события в брокеры сообщений: Kafka, RabbitMQ или Amazon Kinesis. Потоковая передача осуществляется по HTTP через REST API. Можно передавать только те данные, которые соответствуют фильтру тегов.
⚡️версионность шаблонов. Версионность шаблонов можно использовать для оптимизации конвейера CI/CD и автоматического обновления шаблонов с помощью Zabbix API.
Новые поля в списке шаблонов - Vendor и Version.
И другое. Подробнее можно узнать на странице с описанием выпуска.
Пока суть да дело, давайте посмотрим что же нового там появилось.
⚡️ улучшенная интеграция с LDAP. То, что многие очень давно просили. И это, действительно, бомбезно. Появилось сопоставление группы пользователей LDAP и SAML с группами пользователей Zabbix. Теперь можно автоматически назначать группы пользователей и роли пользователей пользователям LDAP и SAML.
⚡️ новая фича для управления событиями — причины и симптома. События теперь могут быть отмечены как причины или симптомы. По умолчанию все новые проблемы рассматриваются как события-причины. Одно или несколько событий симптомов могут быть связаны с событием причины
Введено несколько новых макросов {EVENT.CAUSE} для представления данных о событиях-причинах.
⚡️мгновенное распространение изменений конфигурации. Активные и пассивные прокси Zabbix теперь могут практически мгновенно подхватывать любые изменения конфигурации, внесенные в Zabbix: ProxyConfigFrequency поддерживает интервалы до 1 секунды. Прокси Zabbix теперь получают только дельту конфигурации — изменения конфигурации, выполненные в течение интервала обновления конфигурации. Активный агент Zabbix теперь получает полную копию конфигурации только в том случае, если изменения конфигурации были сделаны между интервалами синхронизации конфигурации:
⚡️обновление Zabbix с нулевым временем простоя
Для улучшения рабочих процессов обновления компонентов Zabbix (особенно для больших сред) прокси теперь обратно совместимы в рамках одного цикла выпуска LTS. Прокси полностью поддерживается, если он имеет ту же основную версию, что и сервер Zabbix. Для версий без LTS (например: Zabbix server 6.4) прокси помечается как устаревший, если его основная версия старше, чем у сервера Zabbix, но находится в пределах того же выпуска LTS (например: Zabbix proxy 6.0/6.2).
Для версий LTS (например: Zabbix server 7.0) прокси помечается как устаревший, если его основная версия старше сервера Zabbix, но не старше предыдущего выпуска LTS (например: Zabbix proxy 6.0).
⚡️потоковая передача метрик и событий в реальном времени по HTTP. Передача метрик и события в брокеры сообщений: Kafka, RabbitMQ или Amazon Kinesis. Потоковая передача осуществляется по HTTP через REST API. Можно передавать только те данные, которые соответствуют фильтру тегов.
⚡️версионность шаблонов. Версионность шаблонов можно использовать для оптимизации конвейера CI/CD и автоматического обновления шаблонов с помощью Zabbix API.
Новые поля в списке шаблонов - Vendor и Version.
И другое. Подробнее можно узнать на странице с описанием выпуска.
Observability beyond the three pillars — Profiling in da house
Статья о том, для чего нужно профилирование запросов и какие инструменты для этого существуют. Читать дальше.
Статья о том, для чего нужно профилирование запросов и какие инструменты для этого существуют. Читать дальше.
Four Golden Signals Of Monitoring: Site Reliability Engineering (SRE) Metrics
Мониторинг золотых сигналов с помощью FastAPI на k8s. Читать дальше.
Мониторинг золотых сигналов с помощью FastAPI на k8s. Читать дальше.
Monitoring MongoDB with Prometheus using the MongoDB Exporter
Короткий гайд по настройке мониторинга MongoDB через Prometheus. Читать дальше.
Короткий гайд по настройке мониторинга MongoDB через Prometheus. Читать дальше.
Приглашаю вас на вебинар о нетипичных сценариях использования Yandex Data Transfer
14 марта, 12:00–13:00
На мероприятии будут разобраны:
🔸 какие задачи можно решить с помощью Yandex Data Transfer;
🔸 как построить пайплайны внутри платформы данных и между сервисами облака;
🔸 какие особенности трансферов стоит учесть в работе.
Будут продемонстрированы сценарии для CDC, поставки из очередей и загрузки данных в витрины, которые вы сможете реализовать самостоятельно.
Вас также ждёт Q&A-сессия. Вопросы можно прислать в чат трансляции — спикер ответит на них в прямом эфире.
Участие бесплатное, нужно зарегистрироваться ➡️
14 марта, 12:00–13:00
На мероприятии будут разобраны:
🔸 какие задачи можно решить с помощью Yandex Data Transfer;
🔸 как построить пайплайны внутри платформы данных и между сервисами облака;
🔸 какие особенности трансферов стоит учесть в работе.
Будут продемонстрированы сценарии для CDC, поставки из очередей и загрузки данных в витрины, которые вы сможете реализовать самостоятельно.
Вас также ждёт Q&A-сессия. Вопросы можно прислать в чат трансляции — спикер ответит на них в прямом эфире.
Участие бесплатное, нужно зарегистрироваться ➡️
What Are Structured Logs and How Do They Improve Performance?
Структурированные логи — это бесценный инструмент, когда речь идет о понимании и устранении неполадок ПО. Благодаря четкой и аккуратной организации информации о событиях, происходящих в системе, структурированные логи позволяют легко определить проблемы и отследить ошибки. Читать дальше.
Структурированные логи — это бесценный инструмент, когда речь идет о понимании и устранении неполадок ПО. Благодаря четкой и аккуратной организации информации о событиях, происходящих в системе, структурированные логи позволяют легко определить проблемы и отследить ошибки. Читать дальше.
Unreadable Metrics: Why You Can’t Find Anything in Your Monitoring Dashboards
Руководство по эффективному проектированию дашбордов для DevOps и SRE. В этом посте рассмотрены нечитаемые метрики и то, как создавать эффективные дашборды, которые облегчат вам устранение неполадок. Читать дальше.
Руководство по эффективному проектированию дашбордов для DevOps и SRE. В этом посте рассмотрены нечитаемые метрики и то, как создавать эффективные дашборды, которые облегчат вам устранение неполадок. Читать дальше.
Phantom Metrics: Why Your Monitoring Dashboard May Be Lying to You
Мы смотрим на метрики, чтобы узнать, как работает наша система, будь то на уровне инфраструктуры, приложения или бизнеса. Мы доверяем нашим метрикам, которые показывают нам состояние нашей системы и места, где она ведет себя неправильно. Но показывают ли метрики, что произошло на самом деле? Вы будете удивлены, как часто это не так.
В этой статье рассмотрены математика и механика, лежащие в основе метрик, некоторые распространенные заблуждения, что нужно для получения точных метрик и существует ли вообще такая вещь. Читать дальше.
Мы смотрим на метрики, чтобы узнать, как работает наша система, будь то на уровне инфраструктуры, приложения или бизнеса. Мы доверяем нашим метрикам, которые показывают нам состояние нашей системы и места, где она ведет себя неправильно. Но показывают ли метрики, что произошло на самом деле? Вы будете удивлены, как часто это не так.
В этой статье рассмотрены математика и механика, лежащие в основе метрик, некоторые распространенные заблуждения, что нужно для получения точных метрик и существует ли вообще такая вещь. Читать дальше.
Using Python for Monitoring Machines in DevOps: A Guide to Scripting
В этой статье рассказывается о том, как использовать Python для создания сценария мониторинга нескольких значений на сервере, таких как использование процессора, памяти и дискового пространства. Также будет показано, как настроить автоматическое оповещение по электронной почте в случае, если некоторые из этих значений превышают или ниже порога. Читать дальше.
В этой статье рассказывается о том, как использовать Python для создания сценария мониторинга нескольких значений на сервере, таких как использование процессора, памяти и дискового пространства. Также будет показано, как настроить автоматическое оповещение по электронной почте в случае, если некоторые из этих значений превышают или ниже порога. Читать дальше.
Kubernetes monitoring with Zabbix – Part 2: Understanding the discovered resources
В предыдущей статье описывалась установка Zabbix Agent Helm Chart и настройка официальных шаблоны Kubernetes для мониторинга кластера в Zabbix. В этой статье раскрывается функциональность, предоставляемая интеграцией Kubernetes в Zabbix, и обсуждаются примеры использования для мониторинга и оповещения о событиях в кластере. Читать дальше.
В предыдущей статье описывалась установка Zabbix Agent Helm Chart и настройка официальных шаблоны Kubernetes для мониторинга кластера в Zabbix. В этой статье раскрывается функциональность, предоставляемая интеграцией Kubernetes в Zabbix, и обсуждаются примеры использования для мониторинга и оповещения о событиях в кластере. Читать дальше.
Kubernetes Observability: логгинг с EFK
В этой статье про про логирование в Kubernetes посредством EFK стека. Читать дальше.
В этой статье про про логирование в Kubernetes посредством EFK стека. Читать дальше.
Monitoring SSL Certificates with Go
Мониторинг SSL помогает отслеживать статус SSL веб-сайта и получать информацию о его сертификате SSL. В этой статье разобрано как создать мониторинг SSL, написанный на Go с определённым набором функций. Читать дальше.
Мониторинг SSL помогает отслеживать статус SSL веб-сайта и получать информацию о его сертификате SSL. В этой статье разобрано как создать мониторинг SSL, написанный на Go с определённым набором функций. Читать дальше.
Что скрыто внутри Yandex Cloud?
Узнайте на офлайн-митапе!
Приглашаю вас на about:cloud, где разработчики расскажут, как они развивают ключевые инфраструктурные сервисы по мере роста нагрузки и сложности. Будет обсуждение, с какими сложными и интересными техническими задачами они сталкиваются.
Регистрируйтесь ➡️
Узнайте на офлайн-митапе!
Приглашаю вас на about:cloud, где разработчики расскажут, как они развивают ключевые инфраструктурные сервисы по мере роста нагрузки и сложности. Будет обсуждение, с какими сложными и интересными техническими задачами они сталкиваются.
Регистрируйтесь ➡️