Мониторим ИТ
7.66K subscribers
103 photos
2 files
1.39K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
Becoming SRE

Гайд о том, как стать SRE. Автор приводит требования, инструменты и литературу. Всё в одном месте. Читать дальше.
A Deep Dive into Logging Mechanisms in Ansible

В этой статье рассмотрены некоторые важные методы настройки журналирования Ansible и лучшие практики, которым следует следовать. Читать дальше.
Using ChatGPT for DevOps

Как и многие, автор этого поста слышал слухи о том, что с помощью ChatGPT можно написать полноценное приложение с нуля, и, подумав "не может быть, чтобы это было так хорошо", решил протестировать его и убедиться в этом сам.

Сначала он начал просить его создавать небольшие скрипты на Python и Bash, просто чтобы окунуть пальцы ног в воды OpenAI/ChatGPT. Читать дальше.
Prometheus Push Gateway and Python

Воркшоп по настройке Push Gateway из docker-контейнера. Читать дальше.
Monitoring docker Containers and Logs via Grafana, Promtail, Prometheus and Loki, sending alerts to slack

Описание решения для мониторинга контейнеров Docker и логов и при помощи Prometheus, Grafana, Loki, cAdvisor, NodeExporter и отправки оповещений с помощью AlertManager. Читать дальше.
Конспект материалов про SLO и SLI

После прохождения одного из серии собеседований на SRE мне анонсировали, что на следующем будут задачки про SLO/SLI. Задач не было, но в ходе подготовки я сделал тематический конспект нескольких материалов, посвященных этой теме. Возможно, он будет вам полезен. Читать дальше.
Data Buffering in Zabbix Proxy

Одна из особенностей Zabbix-прокси заключается в том, что он может буферизировать собранные данные мониторинга при потере соединения с сервером Zabbix. В этом посте в блоге Zabbix показано, как это происходит, используя захват пакетов, или анализ пакетов. Читать дальше.
OpenTelemetry in Python — A Full Guide

В этой статье рассмотрено, как инструментировать OT в сервисе Python с помощью Jaeger. Читать дальше.
Top 8 Open-Source Observability & Testing Tools

Tracetest, Malabi, Prometheus, Jaeger, Grafana Tempo, OpenSearch, SigNoz, Postman. Читать дальше.
Monitoring vs Observability with Example

В этой статье дано практическое понимание наблюдаемости и различий между наблюдаемостью и мониторингом с помощью различных сценариев и примеров. Читать дальше.
Spring Boot monitoring with Prometheus Operator

В этой статье описана установка Prometheus Operator, который будет автоматически определять цели мониторинга.

В демонстрации будет использовано приложение Spring Boot. Однако, следуя этой статье, вы сможете настроить любое другое приложение. Если в вашем стеке нет Spring Boot, просто пропустите первый абзац. Читать дальше.
SRE/DevOps Interview Questions — Linux Troubleshooting

Опытный человек рассказывает про вопросы, которые ему задавали на собеседовании на позицию SRE/DevOps. Читать дальше.
SRE: паттерны Reliability

Давайте рассмотрим некоторые из сложных методов, которые SRE может принять и внедрить при разработке системы, способствующей повышению надежности. Некоторые из этих методов решают компромиссы по‑разному, так что последствия не являются значительными. Несколько новых методов и стратегий компенсируют неудачи. В статье о: Circuit Breaker, Sidecar, Exponential backoff, Waterfall, Partitioning или “Sharding”, Fail static, Caching, Queuing, Throttling, Load Shedding, Bulkhead, Waiting room, Compensating transaction, Event-driven architecture. Читать дальше.
OpenTelemetry — Mastering the basic main concepts

Несколько слов об OpenTelemetry — распространенном движке для Observability. Читать дальше.
Building a resilient SRE process

Мы хотели достичь следующих результатов, внедрив процесс SRE, обеспечивающий устойчивость к внешним воздействиям:

⚡️Определение SLO и SLI уровня обслуживания
⚡️Автоматизировать отслеживание SLI
⚡️Создание информационных панелей SLO
⚡️Повышение надежности сервиса с помощью данных SLO

Читать дальше.
Ура! Вышел новый Zabbix 6.4! Это означает, что Zabbix проведет вебинар и расскажет что же там интересного. Вебинар будет 9 марта в 18 часов МСК. Регистрация.

Пока суть да дело, давайте посмотрим что же нового там появилось.

⚡️ улучшенная интеграция с LDAP. То, что многие очень давно просили. И это, действительно, бомбезно. Появилось сопоставление группы пользователей LDAP и SAML с группами пользователей Zabbix. Теперь можно автоматически назначать группы пользователей и роли пользователей пользователям LDAP и SAML.

⚡️ новая фича для управления событиями — причины и симптома. События теперь могут быть отмечены как причины или симптомы. По умолчанию все новые проблемы рассматриваются как события-причины. Одно или несколько событий симптомов могут быть связаны с событием причины
Введено несколько новых макросов {EVENT.CAUSE} для представления данных о событиях-причинах.

⚡️мгновенное распространение изменений конфигурации. Активные и пассивные прокси Zabbix теперь могут практически мгновенно подхватывать любые изменения конфигурации, внесенные в Zabbix: ProxyConfigFrequency поддерживает интервалы до 1 секунды. Прокси Zabbix теперь получают только дельту конфигурации — изменения конфигурации, выполненные в течение интервала обновления конфигурации. Активный агент Zabbix теперь получает полную копию конфигурации только в том случае, если изменения конфигурации были сделаны между интервалами синхронизации конфигурации:

⚡️обновление Zabbix с нулевым временем простоя
Для улучшения рабочих процессов обновления компонентов Zabbix (особенно для больших сред) прокси теперь обратно совместимы в рамках одного цикла выпуска LTS. Прокси полностью поддерживается, если он имеет ту же основную версию, что и сервер Zabbix. Для версий без LTS (например: Zabbix server 6.4) прокси помечается как устаревший, если его основная версия старше, чем у сервера Zabbix, но находится в пределах того же выпуска LTS (например: Zabbix proxy 6.0/6.2).
Для версий LTS (например: Zabbix server 7.0) прокси помечается как устаревший, если его основная версия старше сервера Zabbix, но не старше предыдущего выпуска LTS (например: Zabbix proxy 6.0).

⚡️потоковая передача метрик и событий в реальном времени по HTTP. Передача метрик и события в брокеры сообщений: Kafka, RabbitMQ или Amazon Kinesis. Потоковая передача осуществляется по HTTP через REST API. Можно передавать только те данные, которые соответствуют фильтру тегов.

⚡️версионность шаблонов. Версионность шаблонов можно использовать для оптимизации конвейера CI/CD и автоматического обновления шаблонов с помощью Zabbix API.
Новые поля в списке шаблонов - Vendor и Version.

И другое. Подробнее можно узнать на странице с описанием выпуска.
Observability beyond the three pillars — Profiling in da house

Статья о том, для чего нужно профилирование запросов и какие инструменты для этого существуют. Читать дальше.
Four Golden Signals Of Monitoring: Site Reliability Engineering (SRE) Metrics

Мониторинг золотых сигналов с помощью FastAPI на k8s. Читать дальше.
Monitoring MongoDB with Prometheus using the MongoDB Exporter

Короткий гайд по настройке мониторинга MongoDB через Prometheus. Читать дальше.
Приглашаю вас на вебинар о нетипичных сценариях использования Yandex Data Transfer
14 марта, 12:00–13:00

На мероприятии будут разобраны:
🔸 какие задачи можно решить с помощью Yandex Data Transfer;
🔸 как построить пайплайны внутри платформы данных и между сервисами облака;
🔸 какие особенности трансферов стоит учесть в работе.

Будут продемонстрированы сценарии для CDC, поставки из очередей и загрузки данных в витрины, которые вы сможете реализовать самостоятельно.

Вас также ждёт Q&A-сессия. Вопросы можно прислать в чат трансляции — спикер ответит на них в прямом эфире.

Участие бесплатное, нужно зарегистрироваться ➡️