VictoriaMetrics : Effective alerts, from theory to practice
Golden Signals, PromQL/MetricsQL и VMalert. В статье разобраны подходы к алертингу из VM.
Golden Signals, PromQL/MetricsQL и VMalert. В статье разобраны подходы к алертингу из VM.
Облачные решения: как снизить затраты и повысить эффективность?
Приглашаем на бесплатный вебинар Слёрма 11 июня в 17:00.
Обсудим:
🔹 Типичные ошибки при работе с облачными сервисами и их влияние на бизнес.
🔹 Настройку сетевых сервисов и контроль доступа.
🔹 Как неправильный выбор ресурсов может привести к сбоям.
🔹 Почему резервное копирование — обязательная часть стратегии.
Покажем практику и кейсы с фокусом на эффективность.
Присоединяйтесь, будем учиться контролировать затраты на облачные сервисы и брать от них максимум!
Регистрация в один клик 👈
erid: 2W5zFJABQgp
Приглашаем на бесплатный вебинар Слёрма 11 июня в 17:00.
Обсудим:
🔹 Типичные ошибки при работе с облачными сервисами и их влияние на бизнес.
🔹 Настройку сетевых сервисов и контроль доступа.
🔹 Как неправильный выбор ресурсов может привести к сбоям.
🔹 Почему резервное копирование — обязательная часть стратегии.
Покажем практику и кейсы с фокусом на эффективность.
Присоединяйтесь, будем учиться контролировать затраты на облачные сервисы и брать от них максимум!
Регистрация в один клик 👈
erid: 2W5zFJABQgp
Prometheus Monitoring: Functions, Subqueries, Operators, and Modifiers
Статья из блога VictoriaMetrics о функциях, подзапросах, операторах и модификаторах.
Статья из блога VictoriaMetrics о функциях, подзапросах, операторах и модификаторах.
🚀 Разгоняем kube-prometheus-stack: секретный ингредиент в Observability
🔥 9 июня в 20:00 мск — бесплатный вебинар «Разгоняем kube-prometheus-stack».
Мониторинг не должен тормозить, особенно когда что-то идёт не так.
Что разберём:
– как ускорить отклик Grafana при работе с большими объёмами данных,
– что замедляет Prometheus и как с этим бороться,
– как сократить сетевой трафик мониторинга без потерь,
– как не положить observability-инфру при инциденте,
– и какие архитектурные подходы помогают сделать мониторинг отказоустойчивым.
Оптимизируйте kube-prometheus-stack и держите руку на пульсе — даже в условиях пиковых нагрузок.
👉 Регистрируйтесь здесь: https://otus.pw/aQZ0I/?erid=2W5zFGborZn
Занятие приурочено к старту курса "Observability: мониторинг, логирование, трейсинг", на котором вы научитесь строить эффективные системы мониторинга, работать с Prometheus, Grafana, ELK и другими инструментами, визуализировать метрики.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
🔥 9 июня в 20:00 мск — бесплатный вебинар «Разгоняем kube-prometheus-stack».
Мониторинг не должен тормозить, особенно когда что-то идёт не так.
Что разберём:
– как ускорить отклик Grafana при работе с большими объёмами данных,
– что замедляет Prometheus и как с этим бороться,
– как сократить сетевой трафик мониторинга без потерь,
– как не положить observability-инфру при инциденте,
– и какие архитектурные подходы помогают сделать мониторинг отказоустойчивым.
Оптимизируйте kube-prometheus-stack и держите руку на пульсе — даже в условиях пиковых нагрузок.
👉 Регистрируйтесь здесь: https://otus.pw/aQZ0I/?erid=2W5zFGborZn
Занятие приурочено к старту курса "Observability: мониторинг, логирование, трейсинг", на котором вы научитесь строить эффективные системы мониторинга, работать с Prometheus, Grafana, ELK и другими инструментами, визуализировать метрики.
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
ClickStack: A High-Performance OSS Observability Stack on ClickHouse
ClickStack — новое решение для наблюдаемости с открытым исходным кодом, созданное на основе ClickHouse. ClickStack обеспечивает полный, готовый к использованию инструмент для журналов, метрик, трассировок и воспроизведения сеансов — на основе производительности и эффективности ClickHouse, но разработанный как полный стек наблюдения, который открыт и доступен для всех.
Статья в блоге Clickhouse с описанием решения
Страница ClickStack
ClickStack — новое решение для наблюдаемости с открытым исходным кодом, созданное на основе ClickHouse. ClickStack обеспечивает полный, готовый к использованию инструмент для журналов, метрик, трассировок и воспроизведения сеансов — на основе производительности и эффективности ClickHouse, но разработанный как полный стек наблюдения, который открыт и доступен для всех.
Статья в блоге Clickhouse с описанием решения
Страница ClickStack
Подборка популярных каналов по информационной безопасности и этичному хакингу:
🔐 infosec — ламповое сообщество, которое публикует редкую литературу, курсы и полезный контент для ИБ специалистов любого уровня и направления.
🤯 Social Engineering — самый крупный ресурс в Telegram, посвященный этичному Хакингу, OSINT и социальной инженерии.
💬 Вакансии в ИБ — актуальные предложения от самых крупных работодателей и лидеров рынка в сфере информационной безопасности.
🔐 infosec — ламповое сообщество, которое публикует редкую литературу, курсы и полезный контент для ИБ специалистов любого уровня и направления.
🤯 Social Engineering — самый крупный ресурс в Telegram, посвященный этичному Хакингу, OSINT и социальной инженерии.
💬 Вакансии в ИБ — актуальные предложения от самых крупных работодателей и лидеров рынка в сфере информационной безопасности.
Какие есть альтернативы Prometheus, если для метрик его стало недостаточно
Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений приведено в этой статье.
Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений приведено в этой статье.
Prometheus Alerting 101: Rules, Recording Rules, and Alertmanager
Четвертая статья цикла в блоге VictoriaMetrics.
Первые три статьи:
🚀 Counters, Gauges, Histograms & Summaries
🚀 Instant Queries and Range Queries Explained
🚀 Functions, Subqueries, Operators, and Modifiers
Четвертая статья цикла в блоге VictoriaMetrics.
Первые три статьи:
🚀 Counters, Gauges, Histograms & Summaries
🚀 Instant Queries and Range Queries Explained
🚀 Functions, Subqueries, Operators, and Modifiers
Трассировка запросов в Postgres с расширением pg_trace
Трассировка запросов — это процесс сбора и анализа запросов на стороне СУБД, необходимый для диагностики проблем с производительностью в базах данных. С её помощью можно:
🚀 понять, почему запрос выполняется медленно, — для этого нужно посмотреть текст запроса на языке SQL и его план;
🚀 определить источник чрезмерной нагрузки на БД (например, ресурсоемкий запрос) и связать его с ответственным пользователем;
🚀 упростить управление рабочими нагрузками приложений за счёт отслеживания конкретных модулей и действий в службе.
Для некоторых СУБД существуют специальные инструменты для трассировки запросов — профайлеры запросов. В этой статье рассказано про pg_trace — профайлер для СУБД Postgres.
Трассировка запросов — это процесс сбора и анализа запросов на стороне СУБД, необходимый для диагностики проблем с производительностью в базах данных. С её помощью можно:
🚀 понять, почему запрос выполняется медленно, — для этого нужно посмотреть текст запроса на языке SQL и его план;
🚀 определить источник чрезмерной нагрузки на БД (например, ресурсоемкий запрос) и связать его с ответственным пользователем;
🚀 упростить управление рабочими нагрузками приложений за счёт отслеживания конкретных модулей и действий в службе.
Для некоторых СУБД существуют специальные инструменты для трассировки запросов — профайлеры запросов. В этой статье рассказано про pg_trace — профайлер для СУБД Postgres.
Почему стоит пройти официальные тренинги Zabbix?
Если вы хотите, чтобы ваша система мониторинга Zabbix работала не просто "как-то", а стабильно, надёжно и по максимуму эффективно — обучение от разработчиков Zabbix просто must-have. Вот почему:
💡 1. Быстрый старт без граблей
Сотрудники разберутся в Zabbix с нуля или систематизируют уже имеющиеся знания. Без боли, экспериментов и потери времени — только проверенные практики и рабочие кейсы.
📚 2. Только актуальные знания
Все материалы составлены самим Zabbix. Никаких устаревших гайдов с форумов — только то, что действительно работает в последних версиях.
🎓 3. Официальный сертификат
После тренинга можно сдать экзамен и получить международный сертификат, который подтверждает уровень знаний. Это не просто бумажка — это реальное подтверждение экспертизы.
🚀 4. Рост внутри команды
Обученные сотрудники — уверенные сотрудники. Они смогут быстрее находить и решать проблемы, а не тратить часы на разбор логов и эксперименты с триггерами.
💬 5. Возможность задать вопросы экспертам
На тренинге можно напрямую обсудить рабочие задачи и нюансы, с которыми сталкиваются именно ваши специалисты. Это не просто теория — это практическая польза.
🧰 6. Больше, чем документация
Даже если кто-то "и так всё умеет" — после тренинга появится масса новых идей, лайфхаков и инструментов, которые раньше просто не приходили в голову.
💸 7. Экономия времени и денег
Сотрудники не будут тратить дни на поиск решений. Они будут знать, где и как искать, и как правильно настраивать систему с первого раза.
🌍 8. Международный стандарт
Zabbix используют тысячи компаний по всему миру. Официальные знания — это способ выйти на один уровень с лидерами рынка и крупными игроками.
👥 9. Командная синергия
Когда вся команда говорит на одном языке и понимает логику системы, работать становится проще. Меньше недопонимания — больше эффективности.
🔐 10. Безопасность и надёжность
Zabbix — это не просто метрики. Это и безопасность, и отказоустойчивость. А грамотная настройка начинается с грамотных специалистов.
🎓 Тренинг Zabbix Сертифицированный Специалист 7.0 (ZCS 7.0) 📅 16-20 июня — ответ на вопрос «как быстро получить самые полные знания по Zabbix 7.0».
🎓 Тренинг Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) будет следом — 📅 14-16 июля. Отличный шанс расширить и углубить знания, полученные на тренинге ZCS.
❗️ Полное расписание тренингов
Запрос дополнительной информации можно отправить @galssoftware или на welcome@gals.software.
erid: 2Vtzqv9kf9k
Если вы хотите, чтобы ваша система мониторинга Zabbix работала не просто "как-то", а стабильно, надёжно и по максимуму эффективно — обучение от разработчиков Zabbix просто must-have. Вот почему:
💡 1. Быстрый старт без граблей
Сотрудники разберутся в Zabbix с нуля или систематизируют уже имеющиеся знания. Без боли, экспериментов и потери времени — только проверенные практики и рабочие кейсы.
📚 2. Только актуальные знания
Все материалы составлены самим Zabbix. Никаких устаревших гайдов с форумов — только то, что действительно работает в последних версиях.
🎓 3. Официальный сертификат
После тренинга можно сдать экзамен и получить международный сертификат, который подтверждает уровень знаний. Это не просто бумажка — это реальное подтверждение экспертизы.
🚀 4. Рост внутри команды
Обученные сотрудники — уверенные сотрудники. Они смогут быстрее находить и решать проблемы, а не тратить часы на разбор логов и эксперименты с триггерами.
💬 5. Возможность задать вопросы экспертам
На тренинге можно напрямую обсудить рабочие задачи и нюансы, с которыми сталкиваются именно ваши специалисты. Это не просто теория — это практическая польза.
🧰 6. Больше, чем документация
Даже если кто-то "и так всё умеет" — после тренинга появится масса новых идей, лайфхаков и инструментов, которые раньше просто не приходили в голову.
💸 7. Экономия времени и денег
Сотрудники не будут тратить дни на поиск решений. Они будут знать, где и как искать, и как правильно настраивать систему с первого раза.
🌍 8. Международный стандарт
Zabbix используют тысячи компаний по всему миру. Официальные знания — это способ выйти на один уровень с лидерами рынка и крупными игроками.
👥 9. Командная синергия
Когда вся команда говорит на одном языке и понимает логику системы, работать становится проще. Меньше недопонимания — больше эффективности.
🔐 10. Безопасность и надёжность
Zabbix — это не просто метрики. Это и безопасность, и отказоустойчивость. А грамотная настройка начинается с грамотных специалистов.
🎓 Тренинг Zabbix Сертифицированный Специалист 7.0 (ZCS 7.0) 📅 16-20 июня — ответ на вопрос «как быстро получить самые полные знания по Zabbix 7.0».
🎓 Тренинг Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) будет следом — 📅 14-16 июля. Отличный шанс расширить и углубить знания, полученные на тренинге ZCS.
❗️ Полное расписание тренингов
Запрос дополнительной информации можно отправить @galssoftware или на welcome@gals.software.
erid: 2Vtzqv9kf9k
💥 Собираем закрытую тусовку экспертов по K8s вокруг Nova Container Platform СНОВА О КУБЕРЕ
10 июня ждем DevOps-инженеров, архитекторов, CTO, CIO, разработчиков, DevSecOps-специалистов на первый офлайн КУБЕР СБОР в Москве.
Обсудим:
➖ Как выбрать решение для Service Mesh и избежать «подводных камней»
➖ Как переиспользовать старые серверы с GPU, чтобы объединять их в логический пул для тренировки современных крупных языковых моделей
➖ Как эффективно запустить распределенный интерфейс языковой модели на нескольких видеокартах в Kubernetes
➖ Разбор реального кейса по задаче безопасного хранения секретов в K8s
➖ Какие фичи мы уже добавили в оркестратор и что добавим до конца 2025 года
Вайб: крутой технический контент, неформальная обстановка, вкусная пицца и кальяны.
📌Регистрация и подробности
10 июня ждем DevOps-инженеров, архитекторов, CTO, CIO, разработчиков, DevSecOps-специалистов на первый офлайн КУБЕР СБОР в Москве.
Обсудим:
➖ Как выбрать решение для Service Mesh и избежать «подводных камней»
➖ Как переиспользовать старые серверы с GPU, чтобы объединять их в логический пул для тренировки современных крупных языковых моделей
➖ Как эффективно запустить распределенный интерфейс языковой модели на нескольких видеокартах в Kubernetes
➖ Разбор реального кейса по задаче безопасного хранения секретов в K8s
➖ Какие фичи мы уже добавили в оркестратор и что добавим до конца 2025 года
Вайб: крутой технический контент, неформальная обстановка, вкусная пицца и кальяны.
📌Регистрация и подробности
Database observability: How OpenTelemetry semantic conventions improve consistency across signals
В OpenTelemetry семантические соглашения определяют, как мы называем диапазоны, метрики и атрибуты. Без него две команды могли бы измерять одно и то же — например, длительность запроса к базе данных — но называть это совершенно разными именами (например,
В OpenTelemetry семантические соглашения определяют, как мы называем диапазоны, метрики и атрибуты. Без него две команды могли бы измерять одно и то же — например, длительность запроса к базе данных — но называть это совершенно разными именами (например,
statement.duration
и query.time
). Это сбивает с толку пользователей, с этим трудно работать, и еще труднее визуализировать или агрегировать между системами. В этой статье в блоге Grafana разобрано как достигнуть согласованности в именовании метрик и прочих сущностей.17 июня встречаемся на Database meetup от команды Авито!
Собираемся в московском офиса Авито и онлайн, чтобы послушать 3 выступления с реальными кейсами от инженеров Авито.
Если кратко, то обсудим:
➡️ Контроль ресурсов в DBaaS и проблему шумного соседа;
➡️ Отказ от репликации и жизнь из кэша;
➡️ Как перейти с Apache Kafka и Pulsar на Redpanda.
И, само собой, останется время и для нетворкинга! Регистрируйтесь по ссылке и приходите оффлайн или онлайн.
Собираемся в московском офиса Авито и онлайн, чтобы послушать 3 выступления с реальными кейсами от инженеров Авито.
Если кратко, то обсудим:
И, само собой, останется время и для нетворкинга! Регистрируйтесь по ссылке и приходите оффлайн или онлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как жить, когда у тебя N тысяч алертов в секунду
Если вы когда-либо работали с алертами, то наверняка знаете то самое чувство, когда кажется, что у системы уже на каждый чих есть особое уведомление. Вот только вместо полезных сигналов вы получаете бесконечный поток сообщений, в котором временами теряется действительно важная информация.
Когда алертов становится слишком много, это уже не инструмент мониторинга, а хаос. Мы начинаем их игнорировать, ставить чаты в мьют и надеяться, что, если что-то сломается, пользователи сами нам об этом расскажут. Так происходит не только в IT, но и практически везде — даже в медицине и авиации. Порой критические сигналы, которые должны спасать жизни, тонут в информационном шуме. А что делать, когда этот шум начинает мешать работать?
В этой статье рассказано о том, как в VK боролись с лавиной алертов, какие решения нашли — и, главное, как этот опыт можно применить в любой команде. Читать дальше на Хабре.
Если вы когда-либо работали с алертами, то наверняка знаете то самое чувство, когда кажется, что у системы уже на каждый чих есть особое уведомление. Вот только вместо полезных сигналов вы получаете бесконечный поток сообщений, в котором временами теряется действительно важная информация.
Когда алертов становится слишком много, это уже не инструмент мониторинга, а хаос. Мы начинаем их игнорировать, ставить чаты в мьют и надеяться, что, если что-то сломается, пользователи сами нам об этом расскажут. Так происходит не только в IT, но и практически везде — даже в медицине и авиации. Порой критические сигналы, которые должны спасать жизни, тонут в информационном шуме. А что делать, когда этот шум начинает мешать работать?
В этой статье рассказано о том, как в VK боролись с лавиной алертов, какие решения нашли — и, главное, как этот опыт можно применить в любой команде. Читать дальше на Хабре.
Rancher в продакшен: лучшие практики
👉 бесплатный вебинар от учебного центра Слёрм.
Будем разбирать:
🔸централизованное управление кластерами через единый интерфейс;
🔸автоматизированные бэкапы и восстановление;
🔸настройку доступа для команд и интеграцию внешней аутентификации;
🔸 встроенные мониторинг и использование магазина приложений.
Подробно покажем и расскажем, как Rancher упрощает эксплуатацию k8s и управление инфраструктурой.
Эксперты встречи:
⭐️ Виталий Лихачев, SRE в крупнейшем голландском тревелтехе
⭐️ Вячеслав Федосеев, TeamLead DevOps в «Честном знаке»
Когда: 16 июня в 19:00 мск
Занять место на вебинаре 👉 через бота
Больше инструментов и все необходимые hard skills для старта в DevOps — на курсе-профессии «DevOps Upgrade».
👉 бесплатный вебинар от учебного центра Слёрм.
Будем разбирать:
🔸централизованное управление кластерами через единый интерфейс;
🔸автоматизированные бэкапы и восстановление;
🔸настройку доступа для команд и интеграцию внешней аутентификации;
🔸 встроенные мониторинг и использование магазина приложений.
Подробно покажем и расскажем, как Rancher упрощает эксплуатацию k8s и управление инфраструктурой.
Эксперты встречи:
⭐️ Виталий Лихачев, SRE в крупнейшем голландском тревелтехе
⭐️ Вячеслав Федосеев, TeamLead DevOps в «Честном знаке»
Когда: 16 июня в 19:00 мск
Занять место на вебинаре 👉 через бота
Больше инструментов и все необходимые hard skills для старта в DevOps — на курсе-профессии «DevOps Upgrade».
The Lost Fourth Pillar of Observability - Config Data Monitoring
Уже много было написано о журналах, метриках и трассировках, они действительно являются ключевыми компонентами в наблюдаемости, мониторинге приложений и систем. Однако, часто упускают из виду данные конфигурации и их наблюдаемость. В этой статье рассмотрено, что такое данные конфигурации, чем они отличаются от журналов, метрик и трассировок, и обсуждается, какая архитектура необходима для хранения этого типа данных и в каких сценариях она представляет ценность. Читать дальше.
Уже много было написано о журналах, метриках и трассировках, они действительно являются ключевыми компонентами в наблюдаемости, мониторинге приложений и систем. Однако, часто упускают из виду данные конфигурации и их наблюдаемость. В этой статье рассмотрено, что такое данные конфигурации, чем они отличаются от журналов, метрик и трассировок, и обсуждается, какая архитектура необходима для хранения этого типа данных и в каких сценариях она представляет ценность. Читать дальше.
⚡️Как превратить российскую виртуализацию zVirt в комплексную платформу с элементами самообслуживания, мониторинга, аналитики и управления?
Шаг 1: Мониторинг и аналитика — оценка текущего состояния zVirt, выявление узких мест и планирование масштабирования.
Шаг 2: Расширенное управление zVirt — автоматизация задач управления, создания виртуальных ресурсов, применение ресурсных квот и разделение инфраструктуры на проекты.
Шаг 3: Гибридное облако — объединение zVirt с другими платформами виртуализации в едином портале с централизованным управлением.
Обо всех подробностях рассказываем на онлайн-вебинаре 18 июня.
👉Подробности и регистрация
Шаг 1: Мониторинг и аналитика — оценка текущего состояния zVirt, выявление узких мест и планирование масштабирования.
Шаг 2: Расширенное управление zVirt — автоматизация задач управления, создания виртуальных ресурсов, применение ресурсных квот и разделение инфраструктуры на проекты.
Шаг 3: Гибридное облако — объединение zVirt с другими платформами виртуализации в едином портале с централизованным управлением.
Обо всех подробностях рассказываем на онлайн-вебинаре 18 июня.
👉Подробности и регистрация
Как настроить мониторинг, чтобы не проспать проблему
В статье рассказывают как настроить мониторинг так, чтобы проблемы ловились сразу — ещё до того, как начнут ломиться сообщения в поддержку. По большей части описание инструментария.
В статье рассказывают как настроить мониторинг так, чтобы проблемы ловились сразу — ещё до того, как начнут ломиться сообщения в поддержку. По большей части описание инструментария.
Как мониторить k8s при помощи Grafana, Prometheus, AlertManager и Promtail с Loki вы узнаете из этого цикла статей:
How to create a Monitoring Stack using Kube-Prometheus-stack (Part 1)
How to create a Monitoring Stack: Evolving our Kubernetes Monitoring Stack (part 2)
❗️Статьи на medium.com
How to create a Monitoring Stack using Kube-Prometheus-stack (Part 1)
How to create a Monitoring Stack: Evolving our Kubernetes Monitoring Stack (part 2)
❗️Статьи на medium.com
VictoriaTraces? Вы серьезно?
В VictoriaMetrics у нас уже решения для метрик и логирования: Victoria Metrics и Victoria Logs. Наблюдаемость, как известно, включает в себя метрики, логи и трейсы. Так где же VictoriaTraces ?
Если вам интересно, планируют ли они покрыть еще и трейсы, то в этой статье приоткрывается завеса тайны. В этой статье вендор делится результатами исследования распределенной трассировки и рассматривает два ключевых вопроса: будет ли VictoriaTraces и насколько конкурентоспособной она может быть?
В VictoriaMetrics у нас уже решения для метрик и логирования: Victoria Metrics и Victoria Logs. Наблюдаемость, как известно, включает в себя метрики, логи и трейсы. Так где же VictoriaTraces ?
Если вам интересно, планируют ли они покрыть еще и трейсы, то в этой статье приоткрывается завеса тайны. В этой статье вендор делится результатами исследования распределенной трассировки и рассматривает два ключевых вопроса: будет ли VictoriaTraces и насколько конкурентоспособной она может быть?