So, what is latency? Latency is how long it takes to do something. How long does it take to have a response back? How long does it take to process a message in a queue?
Итак, что же такое задержка? Задержка — это как много времени заняло выполнение чего-либо. Как долго возвращался ответ? Как долго обрабатывалось сообщение в очереди?
А ещё задержка — входит в четвёрку золотых сигналов, о которых Google рассказывал в своей книге SRE (Site Reliability Engineering).
В статье на Медиуме, инженер из Google Джаана Доган рассказывает почему критически важно измерять задержку по каждому запросу к системе.
Посмотрите на звёздочки на приложенной картинке. Это тестовые запросы, которые пуляют намеренно, чтобы расставлять некие рэперные точки для будущего возможного дебага излишней задержки запросов. Подробнее о таких тестовых запросах в этом видео.
Итак, что же такое задержка? Задержка — это как много времени заняло выполнение чего-либо. Как долго возвращался ответ? Как долго обрабатывалось сообщение в очереди?
А ещё задержка — входит в четвёрку золотых сигналов, о которых Google рассказывал в своей книге SRE (Site Reliability Engineering).
В статье на Медиуме, инженер из Google Джаана Доган рассказывает почему критически важно измерять задержку по каждому запросу к системе.
Посмотрите на звёздочки на приложенной картинке. Это тестовые запросы, которые пуляют намеренно, чтобы расставлять некие рэперные точки для будущего возможного дебага излишней задержки запросов. Подробнее о таких тестовых запросах в этом видео.
Как-то был я на митапе по Elastic Stack в Озоне. Ребята рассказывали как у них устроен поиск на сайте с использованием Elasticsearch. Особенно запомнились примеры плохих поисков. Например, при поисковом запросе «товары для взрослых», выводились товары для взрослых кошек, собак и других животных. Среди них, конечно, были реально товары для взрослых, но как-то немного. Митап был несколько месяцев назад, сразу после него я проверил этот поисковый запрос — всё было точно также как и на слайдах: много товаров для взрослых животных. Проверил этот запрос сегодня — вуаля, реально товары для взрослых. Чего там только нет🙂
В самом Elastic в последнее время озаботились развитием продукта, чтобы его было удобно использовать в качестве поискового движка и добавляют фишки вроде AppSearch. По этой ссылке вы найдёте небольшой DIY-гайд, где рассказано как быстро раскатать поиск на базе Elasticsearch. Может он пригодится, а может и нет, но хотя бы будете знать, что для поиска Elastic вполне себе можно использовать.
В самом Elastic в последнее время озаботились развитием продукта, чтобы его было удобно использовать в качестве поискового движка и добавляют фишки вроде AppSearch. По этой ссылке вы найдёте небольшой DIY-гайд, где рассказано как быстро раскатать поиск на базе Elasticsearch. Может он пригодится, а может и нет, но хотя бы будете знать, что для поиска Elastic вполне себе можно использовать.
Medium
Elasticsearch: Building the Search Workflow
A tutorial to build working search of SQL entities via Elasticsearch
❤1
Пост для тех, у кого Kubernetes. В этой статье Ким Вюсткамп (сертифицированный по k8s, кстати) рассказывает о подходах к мониторингу через Prometheus потребления памяти и CPU подами kubernetes.
Менеджер по инфраструктуре Netflix рассказывает почему он решил попробовать поработать в дежурной смене и что из этого узнал.
Ещё один способ мониторинга сети при помощи анализа netflow-трафика — утилита ntop. На этом видео с конференции Fosdem (она про открытые решения) рассказывают с какими проблемами столкнулись после разворачивани решения для мониторинга университетской сети в Мюнхене. Архитектура, которую они у себя навернули, на приложенном скриншоте.
Сообщество Monhouse анонсировало календарь мероприятий по мониторингу на 2020 год (посмотрите весь календарь). Всего будет 7 митапов, 2 круглых стола и 1 конфа в два потока.
Сейчас они активно ищут спикеров на:
1) митапы по анонсированным темам (в приоритете митап по CI/CD процессам (19 марта)).
2) BMM 5 Conf (15 апреля).
Пишите @art_berd, если хотели бы выступить и рассказать о своём опыте в мониторинге и не только.
Сейчас они активно ищут спикеров на:
1) митапы по анонсированным темам (в приоритете митап по CI/CD процессам (19 марта)).
2) BMM 5 Conf (15 апреля).
Пишите @art_berd, если хотели бы выступить и рассказать о своём опыте в мониторинге и не только.
В этом видео (тоже с Fosdem 2020) «Distributed Tracing for beginners» показывают как работает трейсинг вызовов в распредлённом приложении. Этакий live-coding. В приложении добавляются специальные вызовы инструмента jaeger, который как раз отвечает за трейсинг вызовов. Смотреть на сам процесс (а не сухие слайды) очень увлекательно.
Матвей Кукуй — CEO и сооснователь компании Amixr.IO рассказывает об опыте работы с событями мониторинга и алертингом. По ссылке расшифровка выступления и само видео.
В основном там про подходы работы с алертами из разных систем, их взаимная обработка и умное оповещение в Amixr. К сожалению, Amixr работает только с облачным Slack и (пока) не поддерживает более приземлённые вещи вроде Mattermost или Rocketchat.
В основном там про подходы работы с алертами из разных систем, их взаимная обработка и умное оповещение в Amixr. К сожалению, Amixr работает только с облачным Slack и (пока) не поддерживает более приземлённые вещи вроде Mattermost или Rocketchat.
Мониторинг PostgreSQL нннада? Я сам в Postgre так глубоко не разбираюсь, но в этом переводе статьи полезные метрики производительности этой БД можно брать голыми руками.
Хабр
Простое обнаружение проблем производительности в PostgreSQL
Существует ли в мире очень большая и крупная база данных, которая время от времени не страдает от проблем с производительностью? Держу пари, что их не так уж мн...
В этой статье о подходе к древовидному именованию метрик для упрощения управления мониторингом. Понятное именование метрик — один из ингредиентов SRE.
Grafana стремится стать как можно более универсальным инструментом для Observability. У них были метрики, логи и вот-вот должны появиться трейсы. В этом анонсе в блоге Grafana Lab они приводят демонстрацию нового плагина Jaeger.
Если кто не знал, у Grafana есть и платная версия Enterprise, доступная по подписке, которая, в частности, расширяет набор доступных плагинов (добавляются Splunk, NewRelic, Appdynamics, Oracle и т.д.). Но т.к. Jaeger сам по себе бесплатен, не думаю, что они включат его в платный пакет.
Интересно, кто-то из читателей использует платную версию?
👍 — да, у нас есть подписка Enterprise
👎 — хватает бесплатной версии
👀 — не использкю Grafana в своём стеке мониторинга
Если кто не знал, у Grafana есть и платная версия Enterprise, доступная по подписке, которая, в частности, расширяет набор доступных плагинов (добавляются Splunk, NewRelic, Appdynamics, Oracle и т.д.). Но т.к. Jaeger сам по себе бесплатен, не думаю, что они включат его в платный пакет.
Интересно, кто-то из читателей использует платную версию?
👍 — да, у нас есть подписка Enterprise
👎 — хватает бесплатной версии
👀 — не использкю Grafana в своём стеке мониторинга
Grafana Labs
KubeCon Demo: A Preview of Grafana & Jaeger | Grafana Labs
Here’s a preview of a future feature of Grafana: distributed tracing datasources.
Ребята из Monqlab, разрабатывающие платформу UX-мониторинга и инцидент-менеджмента MONQ, приглашают поучаствовать в опросе о потребительских предпочтениях в области мониторинга и автоматизации инцидент-менеджмента.
Прохождение опроса займет не более 15-20 минут, но за это они обещают интересный подарок.
Результаты опроса в обобщённом виде опубликую в канале.
Для перехода к опросу нажмите на кнопку в конце поста.
Прохождение опроса займет не более 15-20 минут, но за это они обещают интересный подарок.
Результаты опроса в обобщённом виде опубликую в канале.
Для перехода к опросу нажмите на кнопку в конце поста.
monq.ru
Monq – корпоративный ИТ-мониторинг нового поколения
Мониторинг инфраструктуры, приложений, пользовательских интерфейсов и зонтичный мониторинг – всё в одной платформе. Работает на low и no-code автоматизации.
Для линукс-админов. Петя Зайцев на конференции Fosdem 2020 рассказывает о важных аппаратных метриках производительности Linux, которые он настоятельно рекомендует собирать. Петя Зайцев — CEO в Percona.
Сегодня в 11 часов МСК Quest и Мерлион проведут совместный вебинар по системе мониторинга Spotlight. Spotlight — легковесная система мониторинга БД SQL Server и Oracle вместе с метриками соответствующих операционных систем. Прямо в интерфейсе при наведении на проблемную метрику Spotlight выдаёт рекомендации как эту проблему пофиксить. У Spotlight есть облачная версия и мобильное приложение.
Рега по ссылке в конце поста.
Рега по ссылке в конце поста.
Если всё думаете как подступиться к Elastic Stack, то вот неплохая вводная статья. Здесь в основном про использования его в качестве движка для поиска, но раскрывается много архитектурных деталей.
Новый релиз плагина DevOpsProdigy KubeGraf для Grafana, который умеет визуализировать приложения в kubernetes.
⚡️интеграция с k8s-api для построения карты ваших приложений, сгруппированных по неймспейсам / нодам-кластера + привязка к конкретным pod’ам/сервисам;
⚡️сводная страница со всеми ошибками / предупреждениями о работе нод и приложений кластера;
⚡️возможность инсталляции плагина с облачными k8s-провайдерами через авторизацию с помощью bearer-tokena.
⚡️интеграция с k8s-api для построения карты ваших приложений, сгруппированных по неймспейсам / нодам-кластера + привязка к конкретным pod’ам/сервисам;
⚡️сводная страница со всеми ошибками / предупреждениями о работе нод и приложений кластера;
⚡️возможность инсталляции плагина с облачными k8s-провайдерами через авторизацию с помощью bearer-tokena.
Мониторинг подключения новых устройств к сети при помощи snmptrapd и Zabbix запустится гораздо быстрее, если прочитать эту статью на Хабре. Автор рассказывает о настройке устройств Cisco, демона snmptrapd и zabbix-sender.
Презентация с Promcon 2019 о PromQL, Prometheus и Alertmanager. Julien Pivotto рассказывает о собственных подходах к описаниям алертинга в YAML-файлах.
Одна из основных функций языка PromQL — агрегирование данных временных рядов в режиме реального времени. Эндрю Ньюдигейт, инженер в команде по инфраструктуре GitLab, рассказывает как этот язык можно использовать для обнаружения аномалий во временных рядах. А здесь можно посмотреть слайды презентации.
Всем тем, кто использует у себя SCOM, но хочет красоты. Две статьи Антона Мосягина об интеграции SCOM с Grafana. С таблицами и SQL-запросами — всё по хардкору.
Такая интеграция может быть полезна когда пользуетесь чем-то вроде SCOM для мониторинга окружения Microsoft, Zabbix для окружения Linux и хотите видеть всю картину происходящего в одном месте. Zabbix уже долго и упорно дружит с Grafana (есть стандартная интеграция), а вот SCOM приходится заставлять дружить.
Часть 1: System Center Operations Manager и Grafana: рисуем графики
Часть 2: SCOM и Grafana: рисуем графики — часть 2: Drill Down, Data Warehouse и docker
Такая интеграция может быть полезна когда пользуетесь чем-то вроде SCOM для мониторинга окружения Microsoft, Zabbix для окружения Linux и хотите видеть всю картину происходящего в одном месте. Zabbix уже долго и упорно дружит с Grafana (есть стандартная интеграция), а вот SCOM приходится заставлять дружить.
Часть 1: System Center Operations Manager и Grafana: рисуем графики
Часть 2: SCOM и Grafana: рисуем графики — часть 2: Drill Down, Data Warehouse и docker
Завтра, 15 апреля пройдёт второе онлайн мероприятие от сообщества Monhouse.tech.
Программа:
10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы».
11:00 - Илья Аблеев, представитель Zabbix Russian Community.
11:40 - Кирилл Малеванов, технический директор, Selectel, «Мониторинг электронагрузки в серверных стойках».
12:20 - Экспертная сессия PRTG, Вячеслав Милованов, системный инженер.
13:00 - Экспертная сессия Grafana Labs, Александр Зобнин, разработчик.
13:40 - Завершение.
Регистрация по ссылке. Конференция также будет транслироваться на YouTube канале сообщества.
Программа:
10:00 - Free Talk, круглый стол со спикерами «Коронавирус, новые тренды, новые компоненты технологического стека, прогнозы».
11:00 - Илья Аблеев, представитель Zabbix Russian Community.
11:40 - Кирилл Малеванов, технический директор, Selectel, «Мониторинг электронагрузки в серверных стойках».
12:20 - Экспертная сессия PRTG, Вячеслав Милованов, системный инженер.
13:00 - Экспертная сессия Grafana Labs, Александр Зобнин, разработчик.
13:40 - Завершение.
Регистрация по ссылке. Конференция также будет транслироваться на YouTube канале сообщества.
eventuer.timepad.ru
Online Monitoring Day / События на TimePad.ru
Online Monitoring Day — online мероприятие, объединяющее людей из разных компаний, работающих на разных позициях, имеющих разный опыт работы, придерживающихся разных взглядов и мнений, но жаждущих новых знаний в сфере мониторинга ИКТ инфраструктуры.