Мониторим ИТ
7.48K subscribers
61 photos
2 files
1.33K links
Это канал о мониторинге ИТ-инфраструктуры и приложений (Monitoring & Observability Channel)

Консультации Настройка Вопросы @antoniusfirst

@usr_bin_linux — канал об ИТ-инфраструктуре (Linux, Kubernetes, Docker, Terraform, etc.)
Download Telegram
VictoriaMetrics : Effective alerts, from theory to practice

Golden Signals, PromQL/MetricsQL и VMalert. В статье разобраны подходы к алертингу из VM.
Облачные решения: как снизить затраты и повысить эффективность?

Приглашаем на бесплатный вебинар Слёрма 11 июня в 17:00.

Обсудим:

🔹 Типичные ошибки при работе с облачными сервисами и их влияние на бизнес.
🔹 Настройку сетевых сервисов и контроль доступа.
🔹 Как неправильный выбор ресурсов может привести к сбоям.
🔹 Почему резервное копирование — обязательная часть стратегии.

Покажем практику и кейсы с фокусом на эффективность.

Присоединяйтесь, будем учиться контролировать затраты на облачные сервисы и брать от них максимум!

Регистрация в один клик 👈

erid: 2W5zFJABQgp
Prometheus Monitoring: Functions, Subqueries, Operators, and Modifiers

Статья из блога VictoriaMetrics о функциях, подзапросах, операторах и модификаторах.
🚀 Разгоняем kube-prometheus-stack: секретный ингредиент в Observability

🔥 9 июня в 20:00 мск — бесплатный вебинар «Разгоняем kube-prometheus-stack».
Мониторинг не должен тормозить, особенно когда что-то идёт не так.

Что разберём:

– как ускорить отклик Grafana при работе с большими объёмами данных,
– что замедляет Prometheus и как с этим бороться,
– как сократить сетевой трафик мониторинга без потерь,
– как не положить observability-инфру при инциденте,
– и какие архитектурные подходы помогают сделать мониторинг отказоустойчивым.

Оптимизируйте kube-prometheus-stack и держите руку на пульсе — даже в условиях пиковых нагрузок.

👉 Регистрируйтесь здесь: https://otus.pw/aQZ0I/?erid=2W5zFGborZn

Занятие приурочено к старту курса "Observability: мониторинг, логирование, трейсинг", на котором вы научитесь строить эффективные системы мониторинга, работать с Prometheus, Grafana, ELK и другими инструментами, визуализировать метрики.

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
ClickStack: A High-Performance OSS Observability Stack on ClickHouse

ClickStack — новое решение для наблюдаемости с открытым исходным кодом, созданное на основе ClickHouse. ClickStack обеспечивает полный, готовый к использованию инструмент для журналов, метрик, трассировок и воспроизведения сеансов — на основе производительности и эффективности ClickHouse, но разработанный как полный стек наблюдения, который открыт и доступен для всех.

Статья в блоге Clickhouse с описанием решения

Страница ClickStack
Подборка популярных каналов по информационной безопасности и этичному хакингу:

🔐 infosec — ламповое сообщество, которое публикует редкую литературу, курсы и полезный контент для ИБ специалистов любого уровня и направления.

🤯 Social Engineering — самый крупный ресурс в Telegram, посвященный этичному Хакингу, OSINT и социальной инженерии.

💬 Вакансии в ИБ — актуальные предложения от самых крупных работодателей и лидеров рынка в сфере информационной безопасности.
Какие есть альтернативы Prometheus, если для метрик его стало недостаточно

Prometheus прекрасно подходит для краткосрочного мониторинга, но у этого решения есть свои ограничения по масштабу, и если вы столкнулись с высоким потреблением памяти/CPU, снижением скорости запросов или вам требуются уникальные лейблы вида user ID, то стоит подумать над внедрением альтернатив. На наш взгляд следующими после Prometheus в линейке стоят Thanos, Cortex, Mimir или VictoriaMetrics. Объективное, насколько это возможно, сравнение характеристик этих решений приведено в этой статье.
Prometheus Alerting 101: Rules, Recording Rules, and Alertmanager

Четвертая статья цикла в блоге VictoriaMetrics.

Первые три статьи:

🚀 Counters, Gauges, Histograms & Summaries

🚀 Instant Queries and Range Queries Explained

🚀 Functions, Subqueries, Operators, and Modifiers
Трассировка запросов в Postgres с расширением pg_trace

Трассировка запросов — это процесс сбора и анализа запросов на стороне СУБД, необходимый для диагностики проблем с производительностью в базах данных. С её помощью можно:

🚀 понять, почему запрос выполняется медленно, — для этого нужно посмотреть текст запроса на языке SQL и его план;

🚀 определить источник чрезмерной нагрузки на БД (например, ресурсоемкий запрос) и связать его с ответственным пользователем;

🚀 упростить управление рабочими нагрузками приложений за счёт отслеживания конкретных модулей и действий в службе.

Для некоторых СУБД существуют специальные инструменты для трассировки запросов — профайлеры запросов. В этой статье рассказано про pg_trace — профайлер для СУБД Postgres.
Почему стоит пройти официальные тренинги Zabbix?

Если вы хотите, чтобы ваша система мониторинга Zabbix работала не просто "как-то", а стабильно, надёжно и по максимуму эффективно — обучение от разработчиков Zabbix просто must-have. Вот почему:

💡 1. Быстрый старт без граблей
Сотрудники разберутся в Zabbix с нуля или систематизируют уже имеющиеся знания. Без боли, экспериментов и потери времени — только проверенные практики и рабочие кейсы.

📚 2. Только актуальные знания
Все материалы составлены самим Zabbix. Никаких устаревших гайдов с форумов — только то, что действительно работает в последних версиях.

🎓 3. Официальный сертификат
После тренинга можно сдать экзамен и получить международный сертификат, который подтверждает уровень знаний. Это не просто бумажка — это реальное подтверждение экспертизы.

🚀 4. Рост внутри команды
Обученные сотрудники — уверенные сотрудники. Они смогут быстрее находить и решать проблемы, а не тратить часы на разбор логов и эксперименты с триггерами.

💬 5. Возможность задать вопросы экспертам
На тренинге можно напрямую обсудить рабочие задачи и нюансы, с которыми сталкиваются именно ваши специалисты. Это не просто теория — это практическая польза.

🧰 6. Больше, чем документация
Даже если кто-то "и так всё умеет" — после тренинга появится масса новых идей, лайфхаков и инструментов, которые раньше просто не приходили в голову.

💸 7. Экономия времени и денег
Сотрудники не будут тратить дни на поиск решений. Они будут знать, где и как искать, и как правильно настраивать систему с первого раза.

🌍 8. Международный стандарт
Zabbix используют тысячи компаний по всему миру. Официальные знания — это способ выйти на один уровень с лидерами рынка и крупными игроками.

👥 9. Командная синергия
Когда вся команда говорит на одном языке и понимает логику системы, работать становится проще. Меньше недопонимания — больше эффективности.

🔐 10. Безопасность и надёжность
Zabbix — это не просто метрики. Это и безопасность, и отказоустойчивость. А грамотная настройка начинается с грамотных специалистов.

🎓 Тренинг Zabbix Сертифицированный Специалист 7.0 (ZCS 7.0) 📅 16-20 июня — ответ на вопрос «как быстро получить самые полные знания по Zabbix 7.0».

🎓 Тренинг Zabbix сертифицированный профессионал 7.0 (ZCP 7.0) будет следом — 📅 14-16 июля. Отличный шанс расширить и углубить знания, полученные на тренинге ZCS.

❗️ Полное расписание тренингов

Запрос дополнительной информации можно отправить @galssoftware или на welcome@gals.software.

erid: 2Vtzqv9kf9k
💥 Собираем закрытую тусовку экспертов по K8s вокруг Nova Container Platform СНОВА О КУБЕРЕ
 
10 июня ждем DevOps-инженеров, архитекторов, CTO, CIO, разработчиков, DevSecOps-специалистов на первый офлайн КУБЕР СБОР в Москве.
 
Обсудим:
 
Как выбрать решение для Service Mesh и избежать «подводных камней»
 
Как переиспользовать старые серверы с GPU, чтобы объединять их в логический пул для тренировки современных крупных языковых моделей
 
Как эффективно запустить распределенный интерфейс языковой модели на нескольких видеокартах в Kubernetes
 
Разбор реального кейса по задаче безопасного хранения секретов в K8s
 
Какие фичи мы уже добавили в оркестратор и что добавим до конца 2025 года
 
Вайб: крутой технический контент, неформальная обстановка, вкусная пицца и кальяны.
 
📌Регистрация и подробности
Database observability: How OpenTelemetry semantic conventions improve consistency across signals

В OpenTelemetry семантические соглашения определяют, как мы называем диапазоны, метрики и атрибуты. Без него две команды могли бы измерять одно и то же — например, длительность запроса к базе данных — но называть это совершенно разными именами (например, statement.duration и query.time). Это сбивает с толку пользователей, с этим трудно работать, и еще труднее визуализировать или агрегировать между системами. В этой статье в блоге Grafana разобрано как достигнуть согласованности в именовании метрик и прочих сущностей.
17 июня встречаемся на Database meetup от команды Авито!

Собираемся в московском офиса Авито и онлайн, чтобы послушать 3 выступления с реальными кейсами от инженеров Авито.

Если кратко, то обсудим:
➡️ Контроль ресурсов в DBaaS и проблему шумного соседа;
➡️ Отказ от репликации и жизнь из кэша;
➡️ Как перейти с Apache Kafka и Pulsar на Redpanda.

И, само собой, останется время и для нетворкинга! Регистрируйтесь по ссылке и приходите оффлайн или онлайн.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как жить, когда у тебя N тысяч алертов в секунду

Если вы когда-либо работали с алертами, то наверняка знаете то самое чувство, когда кажется, что у системы уже на каждый чих есть особое уведомление. Вот только вместо полезных сигналов вы получаете бесконечный поток сообщений, в котором временами теряется действительно важная информация.

Когда алертов становится слишком много, это уже не инструмент мониторинга, а хаос. Мы начинаем их игнорировать, ставить чаты в мьют и надеяться, что, если что-то сломается, пользователи сами нам об этом расскажут. Так происходит не только в IT, но и практически везде — даже в медицине и авиации. Порой критические сигналы, которые должны спасать жизни, тонут в информационном шуме. А что делать, когда этот шум начинает мешать работать?

В этой статье рассказано о том, как в VK боролись с лавиной алертов, какие решения нашли — и, главное, как этот опыт можно применить в любой команде. Читать дальше на Хабре.
Rancher в продакшен: лучшие практики

👉 бесплатный вебинар от учебного центра Слёрм.

Будем разбирать:

🔸централизованное управление кластерами через единый интерфейс;
🔸автоматизированные бэкапы и восстановление;
🔸настройку доступа для команд и интеграцию внешней аутентификации;
🔸 встроенные мониторинг и использование магазина приложений.

Подробно покажем и расскажем, как Rancher упрощает эксплуатацию k8s и управление инфраструктурой.

Эксперты встречи:

⭐️ Виталий Лихачев, SRE в крупнейшем голландском тревелтехе
⭐️ Вячеслав Федосеев, TeamLead DevOps в «Честном знаке»

Когда: 16 июня в 19:00 мск

Занять место на вебинаре 👉 через бота

Больше инструментов и все необходимые hard skills для старта в DevOps — на курсе-профессии «DevOps Upgrade».
The Lost Fourth Pillar of Observability - Config Data Monitoring

Уже много было написано о журналах, метриках и трассировках, они действительно являются ключевыми компонентами в наблюдаемости, мониторинге приложений и систем. Однако, часто упускают из виду данные конфигурации и их наблюдаемость. В этой статье рассмотрено, что такое данные конфигурации, чем они отличаются от журналов, метрик и трассировок, и обсуждается, какая архитектура необходима для хранения этого типа данных и в каких сценариях она представляет ценность. Читать дальше.
⚡️Как превратить российскую виртуализацию zVirt в комплексную платформу с элементами самообслуживания, мониторинга, аналитики и управления?

Шаг 1: Мониторинг и аналитика — оценка текущего состояния zVirt, выявление узких мест и планирование масштабирования.

Шаг 2: Расширенное управление zVirt — автоматизация задач управления, создания виртуальных ресурсов, применение ресурсных квот и разделение инфраструктуры на проекты.

Шаг 3: Гибридное облако — объединение zVirt с другими платформами виртуализации в едином портале с централизованным управлением.

Обо всех подробностях рассказываем на онлайн-вебинаре 18 июня.

👉Подробности и регистрация
Как настроить мониторинг, чтобы не проспать проблему

В статье рассказывают как настроить мониторинг так, чтобы проблемы ловились сразу — ещё до того, как начнут ломиться сообщения в поддержку. По большей части описание инструментария.
Как мониторить k8s при помощи Grafana, Prometheus, AlertManager и Promtail с Loki вы узнаете из этого цикла статей:

How to create a Monitoring Stack using Kube-Prometheus-stack (Part 1)


How to create a Monitoring Stack: Evolving our Kubernetes Monitoring Stack (part 2)

❗️Статьи на medium.com
VictoriaTraces? Вы серьезно?

В VictoriaMetrics у нас уже решения для метрик и логирования: Victoria Metrics и Victoria Logs. Наблюдаемость, как известно, включает в себя метрики, логи и трейсы. Так где же VictoriaTraces ?

Если вам интересно, планируют ли они покрыть еще и трейсы, то в этой статье приоткрывается завеса тайны. В этой статье вендор делится результатами исследования распределенной трассировки и рассматривает два ключевых вопроса: будет ли VictoriaTraces и насколько конкурентоспособной она может быть?