Мониторим ИТ
7.67K subscribers
106 photos
2 files
1.39K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
OTel Collector Anti-Patterns

Коллектор OpenTelemetry — гибкий и мощный конвейер данных, который позволяет получать данные OTel из одного или нескольких источников, преобразовывать их (включая пакетную обработку, фильтрацию и маскирование) и экспортировать их в один или несколько серверов для анализа. Как и в случае со многими другими инструментами, очень легко приобрести вредные привычки. В статье рассказывается о пяти антипаттернах OpenTelemetry Collector и о том, как их избежать. Читать статью.

❗️Статья на Медиум.
👍5
Мониторинг Celery

Существует популярный подход к покрытию метриками Celery: он заключается в запуске некоторого процесса, который слушает события из специальной очереди, на основе этих событий обновляются объекты метрик, а фоновый поток сервера отдаёт собранные метрики скраперу. В этой статье подробно разобраны события, их жизненный цикл, откуда и как их принимать. Также рассказано про механизм удалённого управления (remote control), какие у него есть возможности и как им пользоваться. Читать статью.
👍2👎1
How to reduce expenses on monitoring: Swapping in VictoriaMetrics for Prometheus

Статья о том, как оптимизировать хранение данных в VictoriaMetrics. Читать.
👍2
Monitoring Kubernetes network traffic by using eBPF

В этой статье рассказывают как Apache SkyWalking, используя технологию eBPF, позволяет мониторить сетевой трафик в кластере k8s. Читать статью.

❗️Статья на Медиум.
Create your own open-source observability platform using ArgoCD, Prometheus, AlertManager, OpenTelemetry and Tempo

В первой части статьи рассказано как развернуть kube-prometheus-stack, во второй — как подцепить его к OpenTelemetry и Tempo. Читать статью.
👍1
Continous Profiling with Grafana Pyroscope

Профилирование кода в течение определенного периода времени позволяет быстрее находить, отлаживать и исправлять ошибки, связанные с производительностью приложений. В статье примеры использования Grafana Pyroscope для целей непрерывного профилирования. Читать статью.

❗️Статья на Медиум.
👍5
Kubernetes Monitoring: Effective Cluster Tracking with Prometheus

Статья-воркшоп по настройке мониторинга кластера k8s при помощи Prometheus. Читать статью.

❗️Статья на Медиум.
Integration of Thanos with Prometheus and S3 as Storage

В этой статье описаны процедуры настройки Thanos в кластере Kubernetes с использованием Kube-Prometheus-Stack (Helm Chart) и данных метрик, хранящихся S3. Читать статью.

❗️Статья на Медиум.
👍4
Simplifying Certificate Monitoring in Kubernetes with SSL Exporter

SSL Exporter — инструмент для мониторинга сертификатов в Kubernetes. Он может проверять самые разные вещи, такие как TCP-соединения, веб-сайты HTTPS и даже секреты Kubernetes, где хранятся сертификаты. В статье разобран пример использования SSL Exporter. Читать статью.

❗️Статья на Медиум.
Как ELK довел нас… до Vector.dev и Clickhouse

В этой статье, Дима Синявский SRE-инженер из Vi.Tech (IT-дочка ВсеИнструменты.ру) рассказывает о том как они развивали систему логирования. Зачем им понадобился стэк Vector.dev + Clickhouse для хранения и почем он оказался выгоднее EFK.

Был ли у кого-то аналогичный опыт перехода с Elasticsearch на Clickhouse? Расскажите в комментариях.
🔥11
Измеряя качество: SLO и SLI для инфраструктурных команд

Автор рассказывает о собственном опыте внедрения SLI/SLO в команде, зоной ответственности которой являются Kubernetes-кластеры. Читать статью.
👍9
Sync Grafana OnCall with Google Calendar out-of-office events

В Grafana OnCall появилась новая интеграция — с календарем Google. Теперь инженеры поддержки смогут еще крепче спать в отпуске. Кхе-кхе.

Читать описание фичи в блоге Grafana
🔥91👎1
uptime-kuma

Легковесная утилита для мониторинга чего-то такого же легковесного: HTTP(s) / TCP / HTTP(s) Keyword / HTTP(s) Json Query / Ping / DNS Record / Push / Steam Game Server / Docker Containers.

Репыч на Гитхабе
👍211
Обучение Zabbix (ZCS/ZCP) на вендорских курсах — почему, зачем и когда

Zabbix используют многие компании, но не всегда он оптимально настроен. В небольших и средних организациях поддержкой Zabbix занимается системный администратор или группа администраторов. Часто, по остаточному принципу. Знания в области Zabbix, которыми обладает специалист, приобретены с опытом или путем урывочного изучения документации при возникновении нештатных ситуаций. Курс призван устранить такие пробелы и систематизировать знания.

Когда не работает мониторинг или в потоке событий никто не может найти полезные/правильные события, организация начинает терять деньги. Неважно, внутренние это сервисы или внешние. Работа любого сервиса внутри компании прямо или косвенно связана с извлечением прибыли.

Преимущества по итогам обучения на вендорских курсах Zabbix:

🚀 Моментальный буст компетенций сотрудников

🚀 Рост лояльности сотрудников за счет оплачиваемого полезного обучения

🚀 Повышение качества покрытия мониторингом ваших сервисов

🚀 Не нужно пускать подрядчиков в грязных сапогах в свою сеть

📅 Когда:

📖3-7 июня ZCS (Сертифицированный специалист Zabbix).

📖1-3 июля ZCP (Сертифицированный профессионал Zabbix).


❗️Действуют специальные условия при участии сразу в двух курсах. Каждый курс включает прохождение сертификации.

Вопросы можно задать @galssoftware или на почту welcome@gals.software.

❗️А еще можно подписаться на наш телеграм-канал @zabbix_ru, где мы пишем про Zabbix и ничего кроме Zabbix.
👎8👍6🔥2
Grafana — прошлое, настоящее, будущее и альтернативы

В этом году приложению исполняется десять лет, инструмент по-прежнему востребован в России. В этой статье об истории Grafana, роли этого открытого решения в развитии open source сообщества в целом. Читать на Хабре.
👍12
Canvas panel in Grafana: create custom visualizations with all the latest features

В этой статье в блоге Grafana разъясняют как устроен редактор для Canvas-панелей. Читать статью.
👍3🔥3
2 популярных канала по информационной безопасности:

🔐 infosec — редкая литература, курсы и уникальные мануалы для ИБ специалистов любого уровня и направления. Читайте, развивайтесь, практикуйте.

👨‍💻 Вакансии в ИБ — актуальные предложения от самых крупных работодателей и лидеров рынка в сфере информационной безопасности.
Распределенная трассировка с Jaeger и Clickhouse

В этой статье Филипп Бочаров, руководитель центра мониторинга и наблюдаемости в МТС Digital, рассказывает как они делают распределённую трассировку, чтобы контролировать качество сервисов и предотвращать аварии. В статье разобрано, как добиться понятной и прозрачной работы от сложных распределённых систем. Читать на Хабре.
🔥8👍3
SREcon24

18-20 марта этого года в Сан-Франциско прошла конференция SREcon24. Полную программу можно увидеть по ссылке. Было много интересных выступлений.

Ниже приведу те, которые показались наиболее полезными:

99.99% of Your Traces Are (Probably) Trash

The Sins of High Cardinality

"Logs Told Us It Was Kernel – It Wasn't"

Resilience in Action

What Is Incident Severity, but a Lie Agreed Upon?

Teaching SRE

Cross-System Interaction Failures: Don't Fail through the Cracks

Automating Disaster Recovery: The Ultimate Reliability Challenge

Taming the Linux Distribution Sprawl: A Journey to Standardization and Efficiency

The Ticking Time Bomb of Observability Expectations
👍3🔥3