Мониторим ИТ
8.09K subscribers
202 photos
2 files
1.53K links
Канал о наблюдаемости (Monitoring & Observability): логи, трейсы, метрики.

Реклама: @gals_ad_bot
Вопросы: @antoniusfirst

@usr_bin_linux — Linux, Kubernetes, Docker, Terraform, etc.

@zabbix_ru — только Zabbix

@elasticstack_ru — ElasticSearch/OpenSearch
Download Telegram
К 2025 году 50% новых облачных приложений мониторинга будут использовать инструментарий с открытым исходным кодом вместо вендорских агентов, для повышения совместимости, по сравнению с 5% в 2019 году.

И, действительно, большинство вендоров коммерческих решений постепенно добавляют поддержку открытых решений. Опубликовал на Хабре краткое описание основных моментов в свежем отчёте Gartner 2020 года по APM-системам.
Выступление Goutham Veeramachaneni на PromCon EU 2019 в Мюнхене. Рассказывает о союзе Промитиуса и Егеря, который как бы случился на небесах (тема выступления Prometheus and Jaeger: A Match Made in Heaven!). Рассказывает о том как они проверяют влияние на приложение после выкатывания релиза, используя Jaeger и Prometheus, об использование метаданных для дальнейшей фильтрации трассировок и обо многом другом. По ссылке видео и слайды.
На Медиуме есть автор Стив Мушеро (Steve Mushero), который много пишет о SRE и о подходах к мониторингу по этой методологии. Здесь он пишет про золотые сигналы SRE (Latency, Traffic, Errors, and Saturation), методики USE и RED, но есть и статьи о метриках, которые он рекомендует собирать в контексте SRE по конкретным элементам систем. Ниже подборка таких статей.

Метрики балансировщика (AWS ALB/ELB, HAProxy)

Метрики веб-серверов (Apache & Nginx)

Метрики серверов приложений (PHP, FPM, Java, Ruby, Node, Go, Python)

Метрики серверов баз данных (MySQL & AWS RDS и AWS Aurora)

Метрики Линукс-серверов (Linux)
Обнаружение аномалий в Prometheus — выступление Andrew Newdigate на Monitorama PDX 2019. Расскажет о своём опыте и подходах. А здесь слайды презентации.
Кто-то слышал про колоночную БД Apache Druid? Она из коробки поддерживает ролл-апы (это усреднение данных за периоды, чтобы не хранить длительное время сырые данные) для экономии места в БД и имеет немудрёный скейлинг (простое добавление нод) и . В этой статье на Медиуме пишут про совместное использование этой с БД с открытой BI-системой Superset. В итоге получается производительное хранилище и гибкие дашборды.

Страница проекта Druid

Страница проекта Superset

Примеры визуализаций в Superset

P.S. На основе Druid работает аналитическая платформа Imply.
Регистрируйтесь на онлайн-митап Zabbix «Что нового в Zabbix 5.0». Среди выступающих Алексей Владышев, который расскажет о новинках в Zabbix 5.0. Участие бесплатное.

Регистрация и программа мероприятия
На этом видео Nic Jansma рассказывает о бесплатном и открытом инструменте для мониторинга пользвательских транзакций (он же RUM он же Real User Monitoring) Boomerang от Akamai.

Boomerang представляет из себя JavaScript-библиотеку, которая встраивается в код веб-страницы, выполняет измерения времени загрузки элементов страницы и отслеживает пользовательский опыт. По-моему самый лучший способ мониторинга это именно наблюдение за пользовательским опытом.

Репозиторий Boomerang на Github

Выступление было на конференции открытых решений Fosdem 2020. Да, сейчас трудно поверить, что в 2020 могут быть какие-то офлайн конференции.
Наблюдаю за развитием APM-решения Instana уже давно. Его основали выходцы из немецкого интегратора, которые занимались (работая в этом самом интеграторе) другим APM-решением Appdynamics. Появилась идея сделать круче, лучше, задорнее, веселее и стать сильным конкурентом. В этом году их оценил Gartner и включил в свой магический квадрант APM-решений. Можно порадоваться за ребят.

В продолжение вчерашней темы с RUM. В этой статье от Mozilla для веб-разработчиков, рассказывают о возможностях просмотра source map в браузере Firefox (если разработчики добавили соответствующую строку в код страницы). Когда строка с JS для мониторинга уже инжектирована в веб-проект, диагностика проблем с производительностью сильно упростится, если этот JS умеет распознавать source map и работать с конечными скриптами. В своём блоге Instana пишет о преимуществах наличия в коде source maps и возможностях работы с ними в Instana.

Если нужна помощь с подбором решения для мониторинга (APM или неважно какого) — пишите в личку.

Расскажите, используете ли в своём стеке мониторинга инжекцию JS-кода с мониторингом в веб-страницы. Неважно, коммерческое (Instana, Appdynamics, NewRelic, Ключ-Астром) решение или открытое (как вчерашний Boomerang)

👍 — использую

👎 — не использую, но пора бы начать

👀 — нет необходимости в таком способе мониторинга
Вместе с уже известным квадрантом по APM-решениям, Gartner также выкатил отчёт по критичным возможностям этих же решений. В этом отчёте те же самые участники квадранта APM сравниваются по следующим критериям:

⚡️ Business analysis
⚡️ IT services monitoring
⚡️ Root cause analysis
⚡️ Anomaly detection
⚡️ Distributed profiling
⚡️ Application debugging

в контексте их применения для следующих целей:

⚡️ IT operations
⚡️ DevOps release
⚡️ Application support
⚡️ Application development
⚡️ Application owner or line of business (LOB)
⚡️ CloudOps

Если вы сейчас выбираете APM-решение, это сравнение может быть полезным для формирования шорт-листа.
Что нового в Zabbix 5.0?

По итогам прошедшего сегодня митапа, оказалось много приятных улучшений. Из ключевого:

⚡️ официальная поддержка Zabbix Agent2 (агент на Go) для Windows и Linux

⚡️ улучение инструментов визуализации (+ экспорт в PNG)

⚡️ фильтр по тегам

⚡️ массовое изменение макросов для хостов &
шаблонов

⚡️ триггерные выражения работают с текстом

⚡️ обнаружение счётчиков Windows и сенсоров IPMI

⚡️ макросы для прототипов хостов

⚡️ совместимость с Float64 от Prometheus

⚡️ исключения из правил LLD

Более подробно в презентации следом. Ещё больше презентаций на странице митапа.
Whats_New_in_Zabbix_5.0_RU.pdf
2.3 MB
Презентация «Что нового в Zabbix 5.0»
Метрики, логи и трейсы — три вещи, которые покажут всё о здоровье приложения. В этом видео разработчик Grafana Labs рассказывает как настроить корреляцию этих трёх субстанций в Grafana на основе лейлблов. Это ещё одно выступление с Fosdem 2020.
Если откроете эту ссылку — увидите сколько вам ещё осталось времени в рамках бюджета даунтайма. Можно ввести своё значение доступности.
Elasticsearch можно использовать как хранилище метрик не только для Zabbix, но и Prometheus. В этой статье в блоге Elastic описание такого механизма.

Если в Elasticsearch заведены также и логи, у вас будет единая точка для расследования ИТ и ИБ событий.
Посмотрите выступления с GrafanaCONline 2020. Мероприятие проходило с 13 по 29 мая. По понятным причинам всё было онлайн.

Since you can’t come to GrafanaCon, GrafanaCon is coming to you.

Пишут, что если гора не идёт к Магомеду, Магомед идёт к горе.

Выступления, которые показались мне интересными:

⚡️ Prometheus: what the future holds

⚡️ Powerful graph representations in Grafana

⚡️ Grafana plugins

⚡️ How to get an organization to adopt a central telemetry solution
Подборка репозиториев на Github 9 бесплатных APM-инструментов для мониторинга приложений (профилирования кода). А в конце небольшой опрос.

⚡️ Pinpoint. Поддерживает Java и PHP.

⚡️ Apache SkyWalking. Инструмент для микросервисных сред, умеет собирать телеметрию (трейсы и метрики) от Java, .NET Core, NodeJS, PHP и Python.

⚡️ JavaMelody. Название инструмента говорит само за себя.

⚡️ Stagemonitor. Умеет в Java. Есть браузерный плагин и нативная интеграция с Elastic.

⚡️ Scouter. Сравнивают себя с New Relic и Appdynamics. Инструмент поддерживает Java и распознаёт трейсы в Redis, NginX, MongoDB, RabbitMQ и Elasticsearch

⚡️ App Metrics. Мейнтейнится IBM, поддерживает NodeJS.

⚡️ Codespeed. Мониторинг и анализ вызовов внутри Python.

⚡️ GoAppMonitor. Название не обманывает — это инструмент для мониторинга Golang приложений.

⚡️ App Perf. Говорят про аналогичную функциональность как у NewRelic и AppNeta.


Пользуетесь APM-инструментами с открытым исходным кодом?

👍 — да, мне нравится. Для вас статья на Хабре с инструментами для трекинга кода приложений.

👎 — нет, не пользуюсь или предпочитаю коммерческие решения. Для вас статья на Хабре с APM-квадрантом Gartner.

👀 — ШТОА?

А ещё своё мнение можно оставить в комментах.
Несколько дней назад Appdynamics выпустил новый функционал на базе собственной APM-платформы — Experience Journey Map. Эта штука агрегирует наиболее часто используемые пользовательские маршруты (последовательность страниц сайта или экранов мобильного приложения), визуализирует их, сегментирует (устройство, браузер, гео и т.д.), показывает медленно работающие части маршрута. Пока доступно только в SaaS-версии. Но функционал интересный.
А вот такой Journey Map есть в New Relic
Отчёт GigaOm Radar for AIOps 2020 (PDF в следующем сообщении). Список вендоров вызывает вопросы: ожидал тут увидеть системы аналогичные тем, что есть в отчёте Gartner по AIOps системам. Т.е. систем, которые работают с разными источниками данных и на основе их делают root-cause, event suppression и подобные штуки. Здесь же получился винегрет из APM и AIOps.