В нашей инфраструктуре мы давно используем PSI (Pressure Stall Information) для выявления перенасыщения (saturation) ресурсов: CPU, диск, память.
Есть мнение, что saturation — ключевой показатель, по которому легко понять состояние системы. Вокруг него построена методология USE Method.
PSI призван заменить Load Average, который не позволяет быстро и точно определять состояние системы.
Изначально PSI собирал данные per host — полезно, но шумно в контейнерных средах с множеством cgroup.
В Cgroup v2 появилась поддержка PSI для отдельных cgroup, а скоро cadvisor добавит сбор PSI по каждому контейнеру — вот тогда заживем!
P.S. Если будет запрос, могу в будущих заметках углубиться в детали. Дайте знать! 😊
tags: #cpu #k8s #metrics
Есть мнение, что saturation — ключевой показатель, по которому легко понять состояние системы. Вокруг него построена методология USE Method.
PSI призван заменить Load Average, который не позволяет быстро и точно определять состояние системы.
Изначально PSI собирал данные per host — полезно, но шумно в контейнерных средах с множеством cgroup.
В Cgroup v2 появилась поддержка PSI для отдельных cgroup, а скоро cadvisor добавит сбор PSI по каждому контейнеру — вот тогда заживем!
P.S. Если будет запрос, могу в будущих заметках углубиться в детали. Дайте знать! 😊
tags: #cpu #k8s #metrics
Brendangregg
The USE Method
👍59