Forwarded from CatOps
Советы по подготовке Postmortems с примерами.
Подойдет как для публичных, так для приватных разборов инцидентов. Примеры, конечно же, из публичных.
Среди прочего:
- Использовать визуализацию (графики, например)
- Пытаться докопаться до сути вещей и причин происходящего (я лично не верю, что "root cause всегда один", поэтому сознательно избегаю этого понятия)
- Не тянуть с Постмортемом: чем раньше начать разбор - тем свежее память у людей
- Blameless
- Tell a story: справедливо больше для публичных постмортемов, но если при разборе у вас присутствует люди из другого контекста (менеджеры, инженеры команд, которые не принимали непосредственного участия в решении проблемы, etc.) совет может сработать и для приватных pm
#postmortem #culture
Подойдет как для публичных, так для приватных разборов инцидентов. Примеры, конечно же, из публичных.
Среди прочего:
- Использовать визуализацию (графики, например)
- Пытаться докопаться до сути вещей и причин происходящего (я лично не верю, что "root cause всегда один", поэтому сознательно избегаю этого понятия)
- Не тянуть с Постмортемом: чем раньше начать разбор - тем свежее память у людей
- Blameless
- Tell a story: справедливо больше для публичных постмортемов, но если при разборе у вас присутствует люди из другого контекста (менеджеры, инженеры команд, которые не принимали непосредственного участия в решении проблемы, etc.) совет может сработать и для приватных pm
#postmortem #culture
Blameless
Blog | Blameless Resources
Insights from thought leaders on incident management best practices, tools for site reliabiliity engineers
Forwarded from Sysadmin Tools 🇺🇦
A List of Post-mortems!
Table of Contents
- Config Errors
- Hardware/Power Failures
- Conflicts
- Time
- Uncategorized
- Other lists of postmortems
- Analysis
- Contributors
#postmortem #github #google #microsoft #heroku #cloudflare
Table of Contents
- Config Errors
- Hardware/Power Failures
- Conflicts
- Time
- Uncategorized
- Other lists of postmortems
- Analysis
- Contributors
#postmortem #github #google #microsoft #heroku #cloudflare
GitHub
GitHub - danluu/post-mortems: A collection of postmortems. Sorry for the delay in merging PRs!
A collection of postmortems. Sorry for the delay in merging PRs! - danluu/post-mortems
Forwarded from ceph.expert
Истории сбоев
У freedesktop немного развалился ceph и отказал gitlab который на нем жил.
https://www.opennet.ru/opennews/art.shtml?num=57341
Сбой произошел в результате выхода из сторя 2 ссд дисков, а так же наложившехся проблем.
Самое занимательное, на мой взгляд, чат инженеров востанавливющих работоспособность.
https://people.freedesktop.org/~cbrill/dri-log/?channel=freedesktop&highlight_names=&date=2022-06-12&show_html=true
Зы в результате сбой данные не постардали.
#ceph #rook #failure #cephfs #ssd #postmortem
У freedesktop немного развалился ceph и отказал gitlab который на нем жил.
https://www.opennet.ru/opennews/art.shtml?num=57341
Сбой произошел в результате выхода из сторя 2 ссд дисков, а так же наложившехся проблем.
Самое занимательное, на мой взгляд, чат инженеров востанавливющих работоспособность.
https://people.freedesktop.org/~cbrill/dri-log/?channel=freedesktop&highlight_names=&date=2022-06-12&show_html=true
Зы в результате сбой данные не постардали.
#ceph #rook #failure #cephfs #ssd #postmortem
www.opennet.ru
Сбой в GitLab-инфраструктуре FreeDesktop, затронувший репозитории многих проектов
Поддерживаемая сообществом FreeDesktop инфраструктура разработки на основе платформы GitLab (gitlab.freedesktop.org) оказалась недоступна из-за выхода из строя сразу двух SSD-накопителей в распределённом хранилище на базе ФС Ceph. Пока не даётся никаких прогнозов…