🚀🐳 Летит Кит: SRE и не только
177 subscribers
101 photos
2 videos
5 files
90 links
Дмитрий Синявский, SR-иженер и спикер (@r3code)

Заметки о замеченном и замечательном.
SRE, SLI/SLO, логи, наблюдаемость.
Кейсы.

₽: Консультации, аудит SRE практик, организация SRE без SRE, разработка ПО на заказ

Дублирую в MAX https://clck.ru/3Sr7qM
Download Telegram
Скоро осень, а осень тоже время несения добра позитива 🍁 под шелест желтой листвы.
А я снова буду шелестеть про SLI/SLO и дарить наш опыт на конференции #merge https://baltic2025.mergeconf.ru/ 17-19 октября 2025.

Для тех кто хочет посетить конференции MERGE (Светлогорск, Москва, Иннополис) у меня есть персональный промокод на скидку в 20%!
Кто хочет получить промокод - пишите в комментарии "Хочу на Merge"

P.S> для дочитавших до конца. 👨‍🏫 Есть один бесплатный билет - кто первый напишет в комментарий "Хочу бесплатно", тот первый получит.
🔥2
🧙‍♂️Готовился как-то я к вебинару по паттернам надежности SRE и нашел классный сборник
Resilience and Reliability Patterns
https://jurf.github.io/daap/resilience-and-reliability-patterns/
Хорошо структурировано.

✒️Хочу заметить, что паттерны надежности - это не серебряная пуля 🎯, все равно могут быть сайд-эффекты о которых следует узнать заранее. Тот же паттерн Retries может вам организовать DoS атаку (пример в https://habr.com/ru/companies/tbank/articles/858602/)
👍3
3 месяца назад Neil Murphy, один из авторов SRE Book опубликовал анонс, что они пишут 2 редакцию! И спрашивал, а чего бы вы там хотели видеть?! 👁

Первой ответила от нас @kaleturina, затем и я добавил.

Оставляю тут текст своего коммента и Марины, чтобы потом посмотреть учли ли наши пожелания.

Мой коммент:

> I'd like to propose developing and describing a model of SLI/SLO maturity. As I see in real practice many companies can only support the very first level - define some SLOs and just watching them, because they still do not understand why they need it. The second level - do SLO based decisions based on error budget levels, if EB exhausted - dig and try to fix it. At this level I also see a lack of motivation at the teams level, so companies handle it by including a service SLO in team's KPI (I think this is a bad idea leading to "workarounds" to fit the SLIs to the KPI target). The third - a rapid reaction to SLIs drops by Multi Window Multi Burn Rate alerts, any fast burn rate alert declared as an incident (this helps with a better reaction), teams trying to fix issues before the budget exhausted, no slow burn alerts analytics, no feature freezes. The fourth is the third plus slow burn alerts analytics and decisions, analytics accepted by a company, error budget policy with feature freezers and an unfreeze tax.
I've never seen the 4th level ) Especially a real feature freezing practice.
And another one. Do we need to compensate an Error budget that was spent by service A due to failure in the underlying service B?
What if the B service is our Kubernetrs cluster or our network and all our services spent their budgets because of this falure? Should we do a feature freeze for all affected services?

Коммент Марины:
There are several topics I would personally love to see covered. It won't fit in one message, so I will split it :)

1. On-call compensation packages
Many companies expect engineers to work overtime, including handling incidents outside regular working hours, without offering any additional compensation. This approach not only leads to burnout among engineers, but also creates unrealistic expectations in upper management regarding operational costs. Both of these factors negatively impact long-term system reliability.

2. Improving the "burn rate" metric
The current concept of a "burn rate of 4" is unclear to many engineers and therefore rarely used in practice. It might be more helpful to reframe this concept—perhaps by alerting teams when they are projected to exhaust their error budget within a certain timeframe. Making the metric more intuitive could significantly improve its adoption and usefulness.

#sre #slo #allslo
🔥4
Приветствую всех на конференции Стачка 2025 в Санкт-Петербурге!

Мой доклад будет в зале 🟩Green8 в 🕝14:50.

Залетайте.

Если вы уже здесь - пишите, встретимся 😉
❤‍🔥2🔥2🤩1
🤦”Вот, что за херня!? Не видно же ничего.“

Ситуация: Плоский конференц-зал, большие экраны показывают вашу презентацию, но они висят почти в пол, потому задним рядам почти не видна нижняя часть слайда.

🗣️Потому ровно такая мысль звучит в голове у слушателей вашего доклада, когда они видят слайды с таким дизайном в вашей презентации.

Это я к чему. #Спикеру важно знать как будет выглядеть место #выступлениия. Если организатор не показывает сам, то попросите фото из зала. Это позволит вам адаптировать презентацию под это место, а люди увидят все, что должны были.

👉 Приходилось ли так вот всматриваться сквозь лес голов в интересный доклад?
🧙‍♂️👉Удивительное рядом. Вы встречали ситуацию, когда вам надо спасать сервис от нагрузки?

Варианты проблем:
А) долгие запросы в БД
Б) Сервис просто сам не вытягивает производительностью, а надо хоть как-то да пережить это.

Как это решить?

🧠Логичный мозг скажет:
По А) - дело ясное, сами натворили, сами найдут запрос и оптимизируют.
По Б) - кешироварие давайте, или отмасштабировать ещё больше


👨‍🔧Практика говорит:
По А) часто дешевле это сейчас залить ресурсами и искать спокойно проблему, чем тратить время, инженеров на оптимизацию
По Б) если этот сервис участвует в запросах с фронтенда (веб), то вам повезло – тут ограничения можно сделать прямо в веб приложении, например, сделать отложенную загрузку по кнопке (пока пользователь не нажал, запросов к нашему страдальцу нет).


🫴Какие у вас были необычные решения для снижения нагрузки?

#sre #практика
👍1
🐁 Мышиная возня.

Лет так 10 назад я увидел, то коллега преклонного возраста, лет так 60, вместо мыши использует для работы с электронными схемами стилус 🖋 и планшет 📋 настольный. Это было очень удивительно, но очень нужно ему. Не потому что класс и удобно. Туннельный синдром коварно подобрался к основной рабочей конечности человека-за-работой-сидящего - просто стало больно нажимать указательным пальцем на кнопку мыши.

Основание моей ладони постучало в мозг с идеей "А не хотим ли мы также?". Тогда я решил попробовать вертикальную мышь ✍️ - и это резко облегчило мне работу. Да в стрелялки с ней играть уже неудобно, но работать хорошо. Я с ней прожил больше 5 лет. Единственный недостаток - ей же нужно место на столе и коврик.

И вот в этом году я созрел до толкания "ядра" - купил трекбол, причем с большим шариком - Kensington Expert. Адаптировался быстро. Точность по началу хуже, но привыкаешь. А еще руке просто приятно, как массаж.

🙋🏼‍♂️ Пробовали когда-нибудь такие девайсы в работе?

#здоровье #девайсы
🤩1
🔍 Коллеги из DevCrowd пытаются понять, что сейчас в России есть SRE и DevOps инженеры, а есть ли разница?

Как по мне, так точно нет четких границ и понимания у компаний, скорее мешанина и неоднозначность.

Можем немного ясности помочь внести. Ниже
ссылка на опрос для DevOps/SRE и многоруких шив, кто выполняет эти роли без названия в долдности

Ркзультаты ребята раскроют в ноябре 2025 и мы их обязательно посмотрим.


➡️ Опрос https://t.me/devcrowd_official/35

Если у вас есть прям четкое понимание границ, набора инструментов и навыков в этом вопросе, то прошу делиться - так сказать устроим экзит-пол )
Через пару дней надеюсь видеть знакомые лица на https://baltic2025.mergeconf.ru/ пройдет в Калининградской области, г. Светлогорск

Приходите на мой доклад.
Итак уже сегодня в 12:10, Светлогорск, Янтарь-холл.
Буду увеличивать количество просветлённых умов и сэкономленных инженерных часов при внедрении SLO.

За эту неделю у нас еще добавилось приключений по сопровождению SLO, так что доклад живет и обрастает новыми деталями.

Если вы вдруг здесь - пишите мне повидаемся вживую 😉
3
Ребята, вышел наконец-то наш подкаст с Владимиром Утратенко про DevOps, который мы записали в сентябре.

Послушайте 👂https://t.me/letitkit/47?single.

Это мой первый раз в роли ведущего, как вам понравилось?

🙋 Делитесь, о чем бы вы хотели еще послушать и какого гостя хотели бы услышать?
4
Вышла моя статья "Как я пришел к SLO: От хаоса алертов к осознанности" на Habr.
В нейя делюсь личным опытом как и почему меня привело к подходу SLO для контроля договорённостей о надежности.

https://habr.com/ru/articles/898004/

Это только первая часть, я дописываю еще вторую про проблемы и грабли которые собрал и починил при реализации.

А у вас так бывало, что под "надо" удавалось найти или вовремя услышать про подход/инструмент?
🔥5
🕝 Для меня закончился HighLoad++ 2025. Съездил на 1 день.

Встретился впервые вживую со своим коллегой, которого знал только по общим задачам и фото — Николай Кокоулин выступал от нас "Ви.Tech" в самом большом зале "Казан". Его историю про приключения ML в кешировании пришло послушать много людей — почти полный зал. Было интересно, и было много интересных вопросов у слушателей.

🤠 Стенды были прикольные. Сама локация тоже интересная, т.к. небольшие залы с прозрачными стенами, просто понять какой где доклад и какая там движуха.

Конечно встретил многих знакомых и давно знакомых людей — отлично пообщались, обменялись опытом. Был рад всех видеть! 🤝

P.S. Отдельным постом выложу пару головоломок - ребусов, что были в викторине Mir.Platform. Одну я так и не отгадал - может вместе сможем 🤔
👍3🔥1