🚀🐳 Летит Кит: SRE и не только
177 subscribers
101 photos
2 videos
5 files
91 links
Дмитрий Синявский, SR-иженер и спикер (@r3code)

Заметки о замеченном и замечательном.
SRE, SLI/SLO, логи, наблюдаемость.
Кейсы.

₽: Консультации, аудит SRE практик, организация SRE без SRE, разработка ПО на заказ

Дублирую в MAX https://clck.ru/3Sr7qM
Download Telegram
🕝 Для меня закончился HighLoad++ 2025. Съездил на 1 день.

Встретился впервые вживую со своим коллегой, которого знал только по общим задачам и фото — Николай Кокоулин выступал от нас "Ви.Tech" в самом большом зале "Казан". Его историю про приключения ML в кешировании пришло послушать много людей — почти полный зал. Было интересно, и было много интересных вопросов у слушателей.

🤠 Стенды были прикольные. Сама локация тоже интересная, т.к. небольшие залы с прозрачными стенами, просто понять какой где доклад и какая там движуха.

Конечно встретил многих знакомых и давно знакомых людей — отлично пообщались, обменялись опытом. Был рад всех видеть! 🤝

P.S. Отдельным постом выложу пару головоломок - ребусов, что были в викторине Mir.Platform. Одну я так и не отгадал - может вместе сможем 🤔
👍3🔥1
Детище растет!

После #DevOpsConf 2024 мы с ребятами пообщались и создали закрытую группу чисто про SLO🎯 (Service Level Objectives), чтобы скопить опыт по этой практике SRE.

В последнее время доклады и вопросы по SLO появляются на конференциях все чаще.
Ведь по этой теме довольно мало компаний и людей работают, а многие книги и статьи часто не дают конкретики. Мы сошлись во мнении, что не помешало бы нам комьюнити 😎, где можно вопросы по #SLO обсудить.

в 2024 нас было 6, через год более 40. Теперь же в нашем сообществе более 200 человек!
А двое из них уже ходят в мерче с нашим логотипом 🤩

🗣 В этом году мы сделали группу сообщества ALLSLO https://t.me/allslo_ru публичной.

Мы встречаемся с участниками сообщества в реальной жизни, и даже уже записали первый подкаст в этом году. Конечно туда вошло 1/10 от того, что мы хотели обсудить, но это было классно! Спасибо Паше @shaman_s_bubnom и Кириллу @login40k, что поддержали меня в этом.

🐳 Если что и можно записать в дневник радости 📖😃, то это определённо оно - я рад что мы смогли объединиться и помогать друг другу.
🤩32👍1
Как я стал SRE. Часть 1.

Я много лет работал в разработке. 13 лет на ЭЗАН в телекоммуникациях c Delphi 7 и Windows в руках мы командой успешно управляли разным оборудованием связи нашей системой управления. Cистема эта трудится по сей день на волокно-оптических линиях связи РЖД, Газпром.
Копались в сетевых пакетах. Переходили архивов исходиков в SVN.
Прикручивали CI и CD с Jenkins.
Сборка и публикация релиза по кнопке и разливка документации на сайт - это работало! Как позже я пойму - все это уже были части DevOps подхода.
Самая экзотическая автоматизация тогда была - запуск из Jenkins джобы GUI приложения Windows в котором AutoIT скрипт нажимал нужные нам кнопочки и генерил файл, а результат мы получали артефактом.
Потом мы писали на FreePascal GUI приложения для Linux, познакомились с его устройством, а затем и с Docker. Linux везде в облачных системах - пригодилось.
Позднее освоили Go и писали часть софта уже не нем, там же познакомились с gRPC.

Что из этого нужно SRE?

Вы открыли часть 1
🤩1
Вчера вечером 2 часа ковырял код sloth.dev, чтобы из нашего форка перенести функционал проверки дубликатов по SLO ID.

Автор настолько изменил структуру кода в версии 0.14, что пришлось разбираться почти с нуля.

Осталось тесты интеграции починить. А отлаживать их тяжло, ибо запускается собранный бинарь sloth, т.е. дебаггером godlv построчно не пройдешь сбойный тест.

Придется рефакторить код, чтобы юнит тестом это проверить 🥵
Как я стал SRE. Часть 2 из 3

В 2019 я устроился Go-разработчиком в стартап Tabby. Были микросервисы, Kubernetes - новые для меня облака. В которых все сложно связанно, но знание Linux помогало.
Начал с того, что просто начал фиксировать в документации, все что мне было непонятно и чему находил объяснения,
очень много спрашивал, узнавал связи сервисов - до сих пор продолжаю так делать )

Меня бесили и наши неединообразные логи - по ним же сложно искать!
Привели логи в порядок, потом подключили сквозную трассировку с DataDog,
соединили трейсы с логами, а затем полную трассировку от фронтенда до бека.
Помогал - писал код общих пакетов go для облегчения этого всего и направлял команды,
при этом еще в своей команде фичи пилил. Вместе с Андреем были первыми 2 дежурными на проде - круглосуточными. Он обучал меня, показывал – и мы разделяли все боли эксплуатации. Мы изучали связи сервисов и могли их сами чинить, даже полусонные.

Что из этого пригодилось мне как SRE позже?

Вы открыли часть 2
2
Как я стал SRE. Часть 3 из 3

Мы работали дежурными и понимали, что нам не хватает данных для мониторинга. Сначала я сделал несколько досок по метрикам трейсов, стали видны просадки по заказам и другие показатели. Подкрутили сюда алерты по аномалиям.
Организовал полноценное дежурство на проде, обучал других разрабов дежурству, писал им доку и инструкции. Оповещения через OpsGenie, тренировки дежурной смены с колесом нефортуны, реагирование на инциденты, их разбор (постмортемы). И, конечно, давал руководству в чатике об этом сводки. Классно все вертелось и строилось.

В итоге, оказалось, многое из того, что я делал уже было в книге Google SRE.

Сам момент перехода случился внезапно: после 2 года работы я ушел в отпуск разработчиком, а вернулся из него уже SRE. Так решили ребята с которыми я работал. Мне было приятно переключиться полностью на решение этих проблем. С тех пор я SRE. Строю и поддерживаю надежные и устойчивые системы.

🧙‍♂️Вот так.

А как вы пришли к своей работе? Что запомнилось больше всего?
6
🎯 Встречаемся на HighLoad++ в Сколково 6-7 ноября 2025!

🥸 В этот раз я намерен только лицезреть и ухослушать доклады, вопрошать к докладствующим.

🤗 Буду рад повидаться вживую с каждым, независимо от того посетитель ты или докладчик.

✒️ Хотя если ты докладчик - скидывай в коммент еще и ссылку на тезисы, так рискуешь втянуть себе слушателей, которые тебя поддержат. Да и нам поможешь составить маршрут по докладам.

🔥 Отмечайтесь реакциями, кто будет на конференции вживую - посчитаемся и встретимся!

#встречи #оффлайн #вживую #москва
🔥4😭1
Уточняю, буду на HighLoad один день 6 ноября 2025.

Кто будет в этот день, просьба коммент 👇 написать если будете в тот же день. Увидимся 🤠
Кстати в этом году HighLoad в Сколково не в привычной "шайбе", а в внимание! В прямоугольном помещении!!! 😱

Что думаю несказанно порадует посетителей ))

И оказалось это совсем не рядом. Я уже по привычке собирался ехать в "шайбу". Хорошо сегодня посмотрел программу. Смотрю там названия залов чуднЫе — не те. "Вот те раз" подумал Мюллер, "вот те два" - подумал Штирлиц и сбросил 2 кирпич. Может и город не тот 🤣 Оказалось тот.

Внимательнее товарищи.

#highload #карта #москва
Объясняю сыну про
🍬 SLI и SLO на примере конфет

Иногда сын спрашивает, чем я занимаюсь и приходится придумывать как доступно объяснить.

— Пап, а что за "сло" ты там делаешь?

— Хмм... Представь, фабрика делает конфеты — каждая в своём фантике. Ты купил килограмм, набралось штук 50.

Решил принести в класс — раздать на все 30 человек.

Раздал а в одной оказался воздух. «Ну, бывает», — думаешь, там еще 20 в пакете,, поменял на другую. Класс доволен. Ты герой.

А теперь представь: 30 из 50 — дутые.
Ты раздаёшь — и у половины в руках ничего.
Тишина. Такое себе — стыдно. Думаешь "что так сложно конфеты было завернуть?".

Вот чтоб так не было, фабрика проверяет:

SLI — это счётчик:
*«Сколько нормальных конфет мы сделали за сегодня?»*
Например: 992 настоящих + 8 дутых → SLI = 992/1000.

И ставит себе же условие —
SLO: минимум 995 из 1000 фантиков в час будут с конфетой, иначе надо срочно чинить:
«Стоп! Мы не просто теряем деньги — мы теряем доверие!». Значит можно ошибаться до 5 раз в час.

В IT то же самое:
* Пользователь нажимает кнопку → ждёт результат.
* Получил — как конфета в фантике.
* Получил ошибку — как дутый фантик.

Сын:
> **«А как мы поймём — не кончится ли наше “можно ошибаться” ещё до конца дня?..
> И что, если оно кончается не по чуть-чуть, а сразу — Бах и 99 из 100 пустые уже?

А это уже другая история, сынок.

#SLO #объясняем #sre
👍4
Кстати к прошлому посту по заводу конфет и SLO.

Сын тут принес недавно вопрос-загадку:
— Кстати, пап, на том заводе конфет хотели сложных роботов ставить за мильоны для выявления "пустых фантиков", а рабочим было лень руками проверять пока роботов поставят и они это решили за 5т.р. Знаешь как?
🥸 Уважаемые знатоки, какие варианты у вас, если не гуглить и не Гпятить?

#загадка #оптимизация #лень
👍2
HighLoad 2025. Выступал мой коллега из Ви.Tech в главном зале "Казан" с докладом про ML в кешировании. Людей был почти полный зал. Впервые с ним свиделись вживую.

Также повидал многих друзей и знакомых, обменялись опытом и новостями. Был рад всех видеть.

Площадка интересная в этот раз - много прозрачных залов.

В конце дня еще рядом со стендом MTS был мини-концерт кавер группы - прикольно.

Во время афтерпати кстати еще шли доклады - я записал себе из одного идею про "стратегический час". Если хотите расскажу позже — только скажите. Я же у себя практикую "час размышления".