Сложные системы тяготеют к отказам.
Отказы такое же свойство систем, как надёжность, наблюдаемость, масштабируемость и т. д.
Работа Richard I. Cook How Complex Systems Fail освещает:
- природу отказов;
- двойственную роль оператора системы - как защитник от хаоса, так и непосредственно причина его появления;
- заблуждения пост-анализа инцидентов - всегда есть совокупность причин, пост-знание всегда предвзято;
- отказы как следствие возрастания сложности систем.
Полезное чтение для построения причинно-следственных связей.
tags: #reliability #sre_theory
Отказы такое же свойство систем, как надёжность, наблюдаемость, масштабируемость и т. д.
Работа Richard I. Cook How Complex Systems Fail освещает:
- природу отказов;
- двойственную роль оператора системы - как защитник от хаоса, так и непосредственно причина его появления;
- заблуждения пост-анализа инцидентов - всегда есть совокупность причин, пост-знание всегда предвзято;
- отказы как следствие возрастания сложности систем.
Полезное чтение для построения причинно-следственных связей.
tags: #reliability #sre_theory
👍3
SadServers №15 | Middle-level | Tokyo
Траблшутинг в ленту!
Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец приведем в чувства webserver.
#sadservers #linux #devops #troubleshooting #sre #tcpdump
Траблшутинг в ленту!
Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец приведем в чувства webserver.
#sadservers #linux #devops #troubleshooting #sre #tcpdump
YouTube
SadServers №15 | Middle-level | Tokyo
#sadservers #linux #devops #troubleshooting #sre #tcpdump
Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец…
Tokyo - пятнадцатая задача среднего (middle) уровня на sadservers.com:
- изучим состояние сокетов через ss;
- посмотрим на ретрансмиты в tcpdump;
- поправив правила netfilter (iptables);
- и наконец…
👍9❤1
Сетевой анализ с eBPF: измеряем Round Trip Time
Под катом:
* мои рассуждения о сложности интерпретации latency в современных системах;
* небольшой гайд по eBPF - напишем по шагам инструмент, который поможет отвечать на вопрос: "причина замедления в приложении или в инфраструктуре?".
Полезного чтения!
tags: #eBPF #Linux #SRE #TCP
Длительность (latency) — ключевой показатель производительности системы. На первый взгляд всё просто: рост задержки — признак деградации. Сложность в деталях...
Под катом:
* мои рассуждения о сложности интерпретации latency в современных системах;
* небольшой гайд по eBPF - напишем по шагам инструмент, который поможет отвечать на вопрос: "причина замедления в приложении или в инфраструктуре?".
Полезного чтения!
tags: #eBPF #Linux #SRE #TCP
www.alebedev.tech
Сетевой анализ с eBPF: измеряем Round Trip Time
Разбираем сложность интерпретации Latency и пишем свой инструмент на eBPF, который эту сложность снижает.
👍19