Новость-новость ℹ️
С этой недели я член программного коммитета DevOpsConf (Онтико).
👉 Буду помогать ПК в отборе докладов и спикерам с подготовкой докладов.
🧙♂️ Это мне сейчас интересно, потому что позволяет, как специалисту, еще шире взглянуть на нашу область работы в ИТ, познакомится с новыми людьми.
🗣️ С докладчиками же хочется делится своим опытом докладчика, передавать им его, чтобы их материал раскрывался и приносил пользу слушателям.
————————————————
И сразу объявление 📣
Пока ты читал, возможно, у тебя дозрела идея классного доклада и ты захотел подать его на 🔥DevOpsConf 2026.
Правда срок приема докладов уже вышел 😐. Но тебе везет! — Вот тот самый последний вагон в который можно запрыгнуть с докладом!
🗓 Зарегистрируйся сейчас и приходи на 🎤 Онлайн-встречау с ПК DevOpsConf во вторник, 27 января, 18:00 — после нее ты получишь секретную ссылку для подачи заявки на доклад до 1 февраля 2026 💫
#devopsconf #конференции #пк #новость
С этой недели я член программного коммитета DevOpsConf (Онтико).
👉 Буду помогать ПК в отборе докладов и спикерам с подготовкой докладов.
🧙♂️ Это мне сейчас интересно, потому что позволяет, как специалисту, еще шире взглянуть на нашу область работы в ИТ, познакомится с новыми людьми.
🗣️ С докладчиками же хочется делится своим опытом докладчика, передавать им его, чтобы их материал раскрывался и приносил пользу слушателям.
————————————————
И сразу объявление 📣
Пока ты читал, возможно, у тебя дозрела идея классного доклада и ты захотел подать его на 🔥DevOpsConf 2026.
Правда срок приема докладов уже вышел 😐. Но тебе везет! — Вот тот самый последний вагон в который можно запрыгнуть с докладом!
🗓 Зарегистрируйся сейчас и приходи на 🎤 Онлайн-встречау с ПК DevOpsConf во вторник, 27 января, 18:00 — после нее ты получишь секретную ссылку для подачи заявки на доклад до 1 февраля 2026 💫
#devopsconf #конференции #пк #новость
👍1🔥1
🔥 Ухты! Observability Conf обзавелась своим сайтом!
🔭 https://observability-conf.ru
✏️ Регистрируйся и приходи послушать.
- Оффлайн:
г. Москва, м. Бауманская, F-Loft 19 марта 2026
- или онлайн (ссылка позже после регистрации)
#observabilityconf #конференция #анонс #регистрация
🔭 https://observability-conf.ru
✏️ Регистрируйся и приходи послушать.
- Оффлайн:
г. Москва, м. Бауманская, F-Loft 19 марта 2026
- или онлайн (ссылка позже после регистрации)
#observabilityconf #конференция #анонс #регистрация
👉 Observability Conf приглашает к подаче заявок на доклады.
🎯 Кто не приносил доклад мне лично, но хочет рассказать про мониторинг и observability, или знаете того кто имеет интересный доклад ?!
🫴 Приглашаем подать заявку до 27 февраля 2026.
Я знаю многие сомневаются нужно ли вообще - нужно. Нужно. Особенно если вы были в ограниченных условиях, в маленькой или средней компании.
👉 Ждем твою заявку тут https://observability-conf.ru
🎯 Кто не приносил доклад мне лично, но хочет рассказать про мониторинг и observability, или знаете того кто имеет интересный доклад ?!
🫴 Приглашаем подать заявку до 27 февраля 2026.
Я знаю многие сомневаются нужно ли вообще - нужно. Нужно. Особенно если вы были в ограниченных условиях, в маленькой или средней компании.
👉 Ждем твою заявку тут https://observability-conf.ru
Michel The Bear с коллегами тут похоливарили "в SREду на кухне" про мониторинг и всё что с ним связано.
Приглашаю сравнить вашу точку зрения с коллегами 😉
Аудио https://music.yandex.ru/track/147188042
Видео
https://vkvideo.ru/video-152990965_456240051
https://youtu.be/WyT9ni4mGtU
#мониторинг #observability #devops #sre #подкаст
Приглашаю сравнить вашу точку зрения с коллегами 😉
Аудио https://music.yandex.ru/track/147188042
Видео
https://vkvideo.ru/video-152990965_456240051
https://youtu.be/WyT9ni4mGtU
#мониторинг #observability #devops #sre #подкаст
🔥2
Пользуетесь ли вы Ai-ассистетнами для работы?
Я активно. Стадию принятия уже пошел.
В рабочей среде местный Qwen в Visual Studio Code через расширения Continue или Roo Code. В этот можно кормить наш код и он не уйдет в паблик.
Для личного позования у меня Qwen через расширение Lingma. И вот недавно я в первый раз оплатил доступ к модели, но это не часто слышимые ChatGPT или Claude.
Не знаю как, но вырулил я сначала на сайт z.ai - Зай, Дед Мазай :) Так вот они – китайцы 🇨🇳 – выпустили еще модель GLM-4.7 (линейная модель). По возможностям сопоставима с Claude, но стоит 6$, а не 20$ за тоже самое. Но у меня не было опыта работы с Claude, потому не с чем сравнить 😁.
Понадобилось 3 дня на адаптацию к работе. Лучше всего заработал с расширением Roo Code. Первый объект на пробу — рефакторинг чужого кода на JavaScript. С Lingma мне за 3 попытки не удалось сохранить функционал, ломалось.
С GLM-4.7 получилось. Возможно я просто накопил нужные навыки и сложилось.
Но теперь проблема — появилось еще дофига идей куда это приложить в работе ))
🧙♂️ Какой ваш опыт? Какие задачи вы с удовольствием смогли решить с помощью AI?
Я активно. Стадию принятия уже пошел.
В рабочей среде местный Qwen в Visual Studio Code через расширения Continue или Roo Code. В этот можно кормить наш код и он не уйдет в паблик.
Для личного позования у меня Qwen через расширение Lingma. И вот недавно я в первый раз оплатил доступ к модели, но это не часто слышимые ChatGPT или Claude.
Не знаю как, но вырулил я сначала на сайт z.ai - Зай, Дед Мазай :) Так вот они – китайцы 🇨🇳 – выпустили еще модель GLM-4.7 (линейная модель). По возможностям сопоставима с Claude, но стоит 6$, а не 20$ за тоже самое. Но у меня не было опыта работы с Claude, потому не с чем сравнить 😁.
Понадобилось 3 дня на адаптацию к работе. Лучше всего заработал с расширением Roo Code. Первый объект на пробу — рефакторинг чужого кода на JavaScript. С Lingma мне за 3 попытки не удалось сохранить функционал, ломалось.
С GLM-4.7 получилось. Возможно я просто накопил нужные навыки и сложилось.
Но теперь проблема — появилось еще дофига идей куда это приложить в работе ))
🧙♂️ Какой ваш опыт? Какие задачи вы с удовольствием смогли решить с помощью AI?
Документирование новых поделок с #AI
Удивительно хорошо зашла эта задача с Ai даже с корпоративным Qwen. Банально докидываешь выкатку с Ansible через Gitlab старому проекту, все уже отладил и вдруг... Внезапно подумал, что через полгодика может надобно быстро вспомнить "А это вообще что?".
Тут я подхожу из позиции, что будущий я не знает меня нынешнего, и лучше объяснить все важное, и что вызывало боль.
Раньше я сей README.md писал бы сам доставая из головы структуру проекта, применения, известные проблемы.
Теперь же я могу надиктовать черновик структуры и сказать как наполнить. Агент же сходит по структуре, если нужно и добавит инфы.
Остается прочитать результат и подкорректировать.
Странное у меня ощущение, иногда кажется, что сам бы с первого раза написал и, возможно, за то же время, что генерировать+читать+корректировать.
А как у вас? Доку вообще пишете?
Удивительно хорошо зашла эта задача с Ai даже с корпоративным Qwen. Банально докидываешь выкатку с Ansible через Gitlab старому проекту, все уже отладил и вдруг... Внезапно подумал, что через полгодика может надобно быстро вспомнить "А это вообще что?".
Тут я подхожу из позиции, что будущий я не знает меня нынешнего, и лучше объяснить все важное, и что вызывало боль.
Раньше я сей README.md писал бы сам доставая из головы структуру проекта, применения, известные проблемы.
Теперь же я могу надиктовать черновик структуры и сказать как наполнить. Агент же сходит по структуре, если нужно и добавит инфы.
Остается прочитать результат и подкорректировать.
Странное у меня ощущение, иногда кажется, что сам бы с первого раза написал и, возможно, за то же время, что генерировать+читать+корректировать.
А как у вас? Доку вообще пишете?
👍2
👨🚒 Потянуло меня посмотреть, что в опыте пожарных настоящих есть полезного для IT-инцидентов.
Написал статью, чтобы закрепить свое виденье на этот вопрос.
И знаете, многое похоже, но кое-что прям явно хочется забрать.
Я, например, до сих пор горю, что некоторые считают тред инцидента в мессенджере равносильным протоколу / журналу инцидента.
Да возможно ваша культура общения настолько высока, что так и есть, но чаще в жизни это 40-300 сообщений, которые невозможно быстро причитать, когда зашел в инцидент.
Если у вас есть AI-бот которого можно натравить на инцидент, чтобы он сделал саммари - это круто. Но это все равно не протокол. Я считаю, что протокол должен вестись отдельно. Сейчас уже можно прикрутить к этому AI, идея - сделать бота, которому в треде указал через эмоджи сообщение и он закинул это в текущий протокол. А еще лучше сделать бота фасилитатора-инцидента, который бы подсказывал, что пора дать апдейт в таком то виде (может быть и сам бы предложил текст), рассказать какие гипотезы тестим, что делаем в ближайшие полчаса, уведомить пользователей и т.п.
Почитать https://habr.com/ru/articles/994690/
#статьи #sre #инцидент_менеджмент #habr
Написал статью, чтобы закрепить свое виденье на этот вопрос.
И знаете, многое похоже, но кое-что прям явно хочется забрать.
Я, например, до сих пор горю, что некоторые считают тред инцидента в мессенджере равносильным протоколу / журналу инцидента.
Да возможно ваша культура общения настолько высока, что так и есть, но чаще в жизни это 40-300 сообщений, которые невозможно быстро причитать, когда зашел в инцидент.
Если у вас есть AI-бот которого можно натравить на инцидент, чтобы он сделал саммари - это круто. Но это все равно не протокол. Я считаю, что протокол должен вестись отдельно. Сейчас уже можно прикрутить к этому AI, идея - сделать бота, которому в треде указал через эмоджи сообщение и он закинул это в текущий протокол. А еще лучше сделать бота фасилитатора-инцидента, который бы подсказывал, что пора дать апдейт в таком то виде (может быть и сам бы предложил текст), рассказать какие гипотезы тестим, что делаем в ближайшие полчаса, уведомить пользователей и т.п.
Почитать https://habr.com/ru/articles/994690/
#статьи #sre #инцидент_менеджмент #habr
Хабр
От пожарных к продакшену: что IT-команды могут почерпнуть у профессионалов реагирования на инциденты
Меня зовут Дима Синявский, я SRE-инженер в Ви.Tech. Я решил написать о работе с инцидентами, ведь мы часто говорим, что "тушим пожары". Так вот мне стало интересно, можно ли что-то полезного...
👍1🔥1
Лайфхаки моего детства, где не было Интернета
Это была самая интересная книга для правильного приложения рук. Если энциклопедия Почемучка рассказывала о мире, то эта направляла фантазию в "как сделать". Многое из нее я сделал.
Смотрю на некоторые из идей и понимаю, что сейчас на работе иногда занимаешься примерно тем же, собирая из разных компонентов что-то новое для решения определенной задачи.
А у вас в детстве было что-то похожее?
#неформально
Это была самая интересная книга для правильного приложения рук. Если энциклопедия Почемучка рассказывала о мире, то эта направляла фантазию в "как сделать". Многое из нее я сделал.
Смотрю на некоторые из идей и понимаю, что сейчас на работе иногда занимаешься примерно тем же, собирая из разных компонентов что-то новое для решения определенной задачи.
А у вас в детстве было что-то похожее?
#неформально
❤2😭1
Это стоит перепостить!
Миша написал классный пост про TCP протокол. Мне прямо вспомнились времена работы в телекоммуникациях, когда мы неделями в Wireshark сидели, чтобы отреверсить протокол управления в железяке.
Когда читаешь это, думаешь, да ладно - ну вот же 21 век крутые технологии, скорости гигабитные 5G и 6G, а тут речь за какой-то "господин килобайт". Даже возмущение какое-то возникает сначала )
Но хоть технологии и ушли далеко, но база по прежнему из 1983 года (тогда повсеместно началось применение TCP-протокола).
#tcp #репост #история #база
https://t.me/jtprogru_channel/4455
Миша написал классный пост про TCP протокол. Мне прямо вспомнились времена работы в телекоммуникациях, когда мы неделями в Wireshark сидели, чтобы отреверсить протокол управления в железяке.
Когда читаешь это, думаешь, да ладно - ну вот же 21 век крутые технологии, скорости гигабитные 5G и 6G, а тут речь за какой-то "господин килобайт". Даже возмущение какое-то возникает сначала )
Но хоть технологии и ушли далеко, но база по прежнему из 1983 года (тогда повсеместно началось применение TCP-протокола).
#tcp #репост #история #база
https://t.me/jtprogru_channel/4455
Telegram
Мишка на сервере
Почему 1 КБ может замедлить загрузку сайта?
Привет, %username%! Знал ли ты, что добавив всего 1 КБ данных к своему сайту, ты можешь удвоить время его загрузки? Звучит как магия, но на самом деле все дело в том, как работает TCP Slow Start — механизм, который…
Привет, %username%! Знал ли ты, что добавив всего 1 КБ данных к своему сайту, ты можешь удвоить время его загрузки? Звучит как магия, но на самом деле все дело в том, как работает TCP Slow Start — механизм, который…
❤2
Вы как относитесь к написанию кода с AI?
Я вот с этой картинкой, не согласен. При работе с AI агентом я выступаю как Product Owner - описываю результат, который удовлетворит бизнес. Когда бизнес - это вы сами, то агенты - это ваша команда.
Косячит ли команда? Всегда ли понимает задачи правильно и однозначно? Конечно нет - на себе много раз проверял. Если принял задачу с мыслю "тут все очевидно", то это скорее звоночек, что лучше спросить "а что ты имел в виду?". Это во много раз сокращает переделки.
О чем это я - о том что, всегда нужно изучать план изменений, что предложила ваша команда разработчиков. Особенно если это AI.
Можно еще научить агента спрашивать "правильно ли я понял, что".
Думаю хорошо такой набор правил собирать в отдельном репозитории, чтобы позже переиспользовать.
Вы переиспользуете промты? Или каждый раз из головы?
Я вот с этой картинкой, не согласен. При работе с AI агентом я выступаю как Product Owner - описываю результат, который удовлетворит бизнес. Когда бизнес - это вы сами, то агенты - это ваша команда.
Косячит ли команда? Всегда ли понимает задачи правильно и однозначно? Конечно нет - на себе много раз проверял. Если принял задачу с мыслю "тут все очевидно", то это скорее звоночек, что лучше спросить "а что ты имел в виду?". Это во много раз сокращает переделки.
О чем это я - о том что, всегда нужно изучать план изменений, что предложила ваша команда разработчиков. Особенно если это AI.
Можно еще научить агента спрашивать "правильно ли я понял, что".
Думаю хорошо такой набор правил собирать в отдельном репозитории, чтобы позже переиспользовать.
Вы переиспользуете промты? Или каждый раз из головы?
Не мог удержаться не запостить этот скрин.
Я недавно посмотрел Темный рыцарь. И тут он!
P.S. Из фильма "Бетман против SRE".
#fun #мониторинг #grafana #batman
Я недавно посмотрел Темный рыцарь. И тут он!
P.S. Из фильма "Бетман против SRE".
#fun #мониторинг #grafana #batman
🔥6😁2😈2
👁 Увидимся на DevOpsConf 2026 на моем докладе!
Вы уже знаете, что я с 2026 года в ПК DevOpsConf, но еще осенью я подал несколько заявок на доклад. В этот раз оказался интересна тема SLO.
Доклад "Как SLO водят нас за нос" будет не о том, что это, как это реализовать, а про то, как и где можно проколоться в подсчетах, как система может сама обманывать вас, и как неправильное позиционирование и применение SLO приводит лишь к гонке за зелеными бордами, вместо реальной надежности. Конечно, просто пересказать это будет недостаточно - расскажу как можно это обходить.
📆 Встречаемся 3 апреля на
DevOpsConf 2026, Стрим: Наблюдаемость/Мониторинг инфраструктуры, Зал 6
🔖 В это году конференция на ВДНХ! Павильон № 38 Бизнес. Техноград
Вы уже знаете, что я с 2026 года в ПК DevOpsConf, но еще осенью я подал несколько заявок на доклад. В этот раз оказался интересна тема SLO.
Доклад "Как SLO водят нас за нос" будет не о том, что это, как это реализовать, а про то, как и где можно проколоться в подсчетах, как система может сама обманывать вас, и как неправильное позиционирование и применение SLO приводит лишь к гонке за зелеными бордами, вместо реальной надежности. Конечно, просто пересказать это будет недостаточно - расскажу как можно это обходить.
📆 Встречаемся 3 апреля на
DevOpsConf 2026, Стрим: Наблюдаемость/Мониторинг инфраструктуры, Зал 6
🔖 В это году конференция на ВДНХ! Павильон № 38 Бизнес. Техноград
🔥4❤1
Про антипаттерны алертов.
Макс написал все за меня. Нет, не тот который ловит даже на парковке 😁.
Потому просто заберите себе это в практику — это реально полезно.
Я все эти антиппттерны видел в жизни, и не хочется чтобы вам пришлось будить разработчика ночью лично, только потому что он отключил телефон, а ты живешь по случайности в том же отеле и на том же этаже.
Брать тут https://t.me/youngmaxnotes/103
💫 Как у вас подгорело от "прекрасных" алертов? Расскажите в комментах
#алертинг #антипаттерны #база #репост
Макс написал все за меня. Нет, не тот который ловит даже на парковке 😁.
Потому просто заберите себе это в практику — это реально полезно.
Я все эти антиппттерны видел в жизни, и не хочется чтобы вам пришлось будить разработчика ночью лично, только потому что он отключил телефон, а ты живешь по случайности в том же отеле и на том же этаже.
Брать тут https://t.me/youngmaxnotes/103
💫 Как у вас подгорело от "прекрасных" алертов? Расскажите в комментах
#алертинг #антипаттерны #база #репост
Telegram
A young Max’s notebook
5 антипаттернов алертов
На новом месте работы я заметил, что алерты сливаются в общий чат и это жутко неудобно. Первое же, что я сделал - отключил уведомления :) Значит, что-то явно не так.
Решил собрать антипаттерны и рассказать об этом.
Алертов много…
На новом месте работы я заметил, что алерты сливаются в общий чат и это жутко неудобно. Первое же, что я сделал - отключил уведомления :) Значит, что-то явно не так.
Решил собрать антипаттерны и рассказать об этом.
Алертов много…
👍4❤1
Тренировка по #инцидент_менеджемент
Помню как погружался в работу с инцидентами.
Я начал работать в небольшой компании, у нас был 1 дежурный. Я стал вторым. И оба мы были разработчиками.
Сначала он меня учил на пальцах о системе и взаимодействии компонентов, показывал как чинить часто возникающие проблемы, а я смотрел. Я записывал в доку, потом пытался повторить тоже самое сам под его присмотром. Дальше выдал мне доступ на прод. И вот первое дежурство с потными ручонками... Страшно. Но оно кончилось и ничего не развалилось 😁
Второй раз уже случилось непонятное и пришлось копать логи, запросы и ошибки. Нашли - завели багу, и поняли, что по таким логам "так себе копать".
Освоился и с кубером и Google Cloud. Один падучий сервис будил меня 4 дня подряд в час ночи. Я на 3 день сделал себе консоль прямо на телефоне, чтобы ходить перезагружать тот сбойный под не вставая с кровати 😉 На 5 ночь я проснулся сам в 1 час ночи - но никто не позвонил. Оказалось разработчики починили 👨🔧 вчера.
Пока компания маленькая и растет - можно и получается учиться прямо на проде, т.к. потери не велики.
В большой компании и в зрелом бизнесе такое уже не позволят. Да и до всего прода вы доступ уже не получите.
Тогда как тренироваться?
Вы можете попробовать сделать стенд повторяющий часть прода и там ломать и пробовать чинить - так делают ребята в Яндекс такси (рассказывали в докладе).
Другой способ – попробовать отдельные тренажёры. Вот несколько площадок для тренировок онлайн по Linux и Kubernetes:
- https://labs.iximiuz.com/challenges?author=ivan-velichko&filter=all&category=kubernetes
- https://sadservers.com/
- https://keep-alive.ru - командные траблшутинга
- https://srega.me/ - индивидуальные тренировки в формате Capture the flag
Или
- Оффлайн на своей машине https://github.com/Manoj-engineer/k8squest
А как в работу с инцидентами погружались вы? Как получали опыт troubleshooting?
#troubleshooting #личный_опыт #sre
Помню как погружался в работу с инцидентами.
Я начал работать в небольшой компании, у нас был 1 дежурный. Я стал вторым. И оба мы были разработчиками.
Сначала он меня учил на пальцах о системе и взаимодействии компонентов, показывал как чинить часто возникающие проблемы, а я смотрел. Я записывал в доку, потом пытался повторить тоже самое сам под его присмотром. Дальше выдал мне доступ на прод. И вот первое дежурство с потными ручонками... Страшно. Но оно кончилось и ничего не развалилось 😁
Второй раз уже случилось непонятное и пришлось копать логи, запросы и ошибки. Нашли - завели багу, и поняли, что по таким логам "так себе копать".
Освоился и с кубером и Google Cloud. Один падучий сервис будил меня 4 дня подряд в час ночи. Я на 3 день сделал себе консоль прямо на телефоне, чтобы ходить перезагружать тот сбойный под не вставая с кровати 😉 На 5 ночь я проснулся сам в 1 час ночи - но никто не позвонил. Оказалось разработчики починили 👨🔧 вчера.
Пока компания маленькая и растет - можно и получается учиться прямо на проде, т.к. потери не велики.
В большой компании и в зрелом бизнесе такое уже не позволят. Да и до всего прода вы доступ уже не получите.
Тогда как тренироваться?
Вы можете попробовать сделать стенд повторяющий часть прода и там ломать и пробовать чинить - так делают ребята в Яндекс такси (рассказывали в докладе).
Другой способ – попробовать отдельные тренажёры. Вот несколько площадок для тренировок онлайн по Linux и Kubernetes:
- https://labs.iximiuz.com/challenges?author=ivan-velichko&filter=all&category=kubernetes
- https://sadservers.com/
- https://keep-alive.ru - командные траблшутинга
- https://srega.me/ - индивидуальные тренировки в формате Capture the flag
Или
- Оффлайн на своей машине https://github.com/Manoj-engineer/k8squest
А как в работу с инцидентами погружались вы? Как получали опыт troubleshooting?
#troubleshooting #личный_опыт #sre
Не тот open API. Когда вы не управляете клиентами.
Очередной раз вижу в чате клич "Ребята, отзовитесь, кто пользуется API нашего сервиса X?".
Кажется, что за ерунда? Это же все наши внутренние сервисы -- посмотри по логам, по трейсам откуда запросы идут...
Но там может этого не быть. Например, ваши же сервисы не отправляют User-Agent со своим именем и версией в вызове, или нет трейсов. Всё - у вас просто куча логов об обращении на какой то endpoint вашего API.
Но проблема глубже - в этой ситуации у вас нет инструмента контроля нагрузки, вы не знаете вытянет ли ваш сервис. Да можно сказать - мы провели нагрузочное тестирование и он вытянет еще x10. Но ты не знаешь сколько придет, хотя можешь это сделать.
О чем я говорю - о способе который видел впервые у Amazon.
Как это работает:
1) Вы даете доступ в API только по индивидуальным ApiKey, каждому потребителю свой
2) Каждый потребитель запрашивает у вас ApiKey и обязан принести сразу число - сколько нагрузки он будет вам давать (rps, ops)
3) Вы смотрите в показатели своего сервиса и принимаете решение. Если хватает мощности, то сразу выдаете ApiKey, иначе вы можете сказать "Ребята, у нас не хватит производительности вас обслужить - берем задачу на подумать как повысить производительность", и когда повысили - выдаем ApiKey.
4) Конечно хоршо бы вести базу какой ApiKey на какой сервис выдали, чтобы найти ответственных если что.
5) И также по ApiKey вы можете легко выставлять Rate-Limit, что позволит не завалить весь сервис, если один из клиентов сошел с ума.
А у вас пользуется подобными способами?
Встроено это в процесс подключения новых потребителей API?
Очередной раз вижу в чате клич "Ребята, отзовитесь, кто пользуется API нашего сервиса X?".
Кажется, что за ерунда? Это же все наши внутренние сервисы -- посмотри по логам, по трейсам откуда запросы идут...
Но там может этого не быть. Например, ваши же сервисы не отправляют User-Agent со своим именем и версией в вызове, или нет трейсов. Всё - у вас просто куча логов об обращении на какой то endpoint вашего API.
Но проблема глубже - в этой ситуации у вас нет инструмента контроля нагрузки, вы не знаете вытянет ли ваш сервис. Да можно сказать - мы провели нагрузочное тестирование и он вытянет еще x10. Но ты не знаешь сколько придет, хотя можешь это сделать.
О чем я говорю - о способе который видел впервые у Amazon.
Как это работает:
1) Вы даете доступ в API только по индивидуальным ApiKey, каждому потребителю свой
2) Каждый потребитель запрашивает у вас ApiKey и обязан принести сразу число - сколько нагрузки он будет вам давать (rps, ops)
3) Вы смотрите в показатели своего сервиса и принимаете решение. Если хватает мощности, то сразу выдаете ApiKey, иначе вы можете сказать "Ребята, у нас не хватит производительности вас обслужить - берем задачу на подумать как повысить производительность", и когда повысили - выдаем ApiKey.
4) Конечно хоршо бы вести базу какой ApiKey на какой сервис выдали, чтобы найти ответственных если что.
5) И также по ApiKey вы можете легко выставлять Rate-Limit, что позволит не завалить весь сервис, если один из клиентов сошел с ума.
А у вас пользуется подобными способами?
Встроено это в процесс подключения новых потребителей API?
🔥6👍1🤔1
Проверка инфраструктуры кодом - иногда и двух пар глаз 👀👀 недостаточно
Бывало у вас так: два инженера посмотрели в пулл-реквест, кивнули, мерджнули, а потом - бац!
Инцидент из-за кривой настройки безопасности или ресурса, улетевшего в продакшн без лимитов?
У нас бывало. И это не вопрос компетенции. Это вопрос того, что человек просто не может держать в голове все 750+ правил безопасной конфигурации.
Тут на помощь приходят инструменты статического анализа для Infrastructure as Code (IaC). Например, попался мне на глаза Checkov - https://www.checkov.io/
Что умеет:
- сканирует Terraform, CloudFormation, ARM, Helm, Kubernetes, Dockerfile и Serverless Framework
- проверяет на 750+ предустановленных политик - от открытых портов до отсутствия шифрования
- позволяет писать свои политики, если у вас специфичные требования
- интегрируется в CI/CD, чтобы ловить проблемы до мерджа
Почему это важно для SRE и DevOps:
- снижает когнитивную нагрузку на ревьюверов
- формализует знания о лучших практиках
- превращает "мы так не делаем" в автоматический чек
- дает артефакт для аудита и постмортема
Альтернативы, которые тоже стоит посмотреть:
- tfsec - легковесный, фокус на Terraform
- Terrascan - поддерживает несколько провайдеров, хорош для политик как код
- KICS от Checkmarx - открытый, с акцентом на безопасность
Внедряешь такую проверку в пайплайн - и количество "а мы не заметили" в ревью падает.
Конечно, инструмент не заменяет инженера, но страхует от банальных промахов.
А вы используете статический анализ для IaC? Какой инструмент выбрали и почему? Сталкивались с инцидентами, которые можно было предотвратить автоматической проверкой?
#SRE #IaC #SAST #Security #DevSecOps #DevOps
Бывало у вас так: два инженера посмотрели в пулл-реквест, кивнули, мерджнули, а потом - бац!
Инцидент из-за кривой настройки безопасности или ресурса, улетевшего в продакшн без лимитов?
У нас бывало. И это не вопрос компетенции. Это вопрос того, что человек просто не может держать в голове все 750+ правил безопасной конфигурации.
Тут на помощь приходят инструменты статического анализа для Infrastructure as Code (IaC). Например, попался мне на глаза Checkov - https://www.checkov.io/
Что умеет:
- сканирует Terraform, CloudFormation, ARM, Helm, Kubernetes, Dockerfile и Serverless Framework
- проверяет на 750+ предустановленных политик - от открытых портов до отсутствия шифрования
- позволяет писать свои политики, если у вас специфичные требования
- интегрируется в CI/CD, чтобы ловить проблемы до мерджа
Почему это важно для SRE и DevOps:
- снижает когнитивную нагрузку на ревьюверов
- формализует знания о лучших практиках
- превращает "мы так не делаем" в автоматический чек
- дает артефакт для аудита и постмортема
Альтернативы, которые тоже стоит посмотреть:
- tfsec - легковесный, фокус на Terraform
- Terrascan - поддерживает несколько провайдеров, хорош для политик как код
- KICS от Checkmarx - открытый, с акцентом на безопасность
Внедряешь такую проверку в пайплайн - и количество "а мы не заметили" в ревью падает.
Конечно, инструмент не заменяет инженера, но страхует от банальных промахов.
А вы используете статический анализ для IaC? Какой инструмент выбрали и почему? Сталкивались с инцидентами, которые можно было предотвратить автоматической проверкой?
#SRE #IaC #SAST #Security #DevSecOps #DevOps
www.checkov.io
Prevent cloud misconfigurations and find vulnerabilities during build-time in infrastructure as code, container images and open source packages with Checkov by Bridgecrew.
Товарищи, SLO использующие, я тут перевозил в новый sloth.dev 0.15 фичу по проверке наличия дубликатов по slo_id.
И в коде заметил новинку - в мастере лежит код UI для SLI/SLO. В нем выводится список сервисов, сами SLO, и показания SLI на графиках, остатки бюджета. При запуске надо указать путь до ручки Prometheus. Поиграться с фейковыми данными можно через
Эдакая мини-Grafana. Или кто может видел - такое было в Pyrra.dev
Есть индикация активны ли ticket/page алерты сейчас. Показывает число алертов по сервису.
Ограничения - график бюджета считает в фиксированных окнах календарных.
Остаток показывает в плавающем окне. Что такое "Current Burning budget" я пока не понял. Пока еще не все "интуитивно" понятно.
Полезно, как минимум для диагностики. Я бы даже командам дал как запасной вариант.
А вы как думаете, полезно это будет? Кому в первую очередь?
#allslo #sloth #slo #tools #инструменты #sre
И в коде заметил новинку - в мастере лежит код UI для SLI/SLO. В нем выводится список сервисов, сами SLO, и показания SLI на графиках, остатки бюджета. При запуске надо указать путь до ручки Prometheus. Поиграться с фейковыми данными можно через
./sloth server --fake-prometheusЭдакая мини-Grafana. Или кто может видел - такое было в Pyrra.dev
Есть индикация активны ли ticket/page алерты сейчас. Показывает число алертов по сервису.
Ограничения - график бюджета считает в фиксированных окнах календарных.
Остаток показывает в плавающем окне. Что такое "Current Burning budget" я пока не понял. Пока еще не все "интуитивно" понятно.
Полезно, как минимум для диагностики. Я бы даже командам дал как запасной вариант.
А вы как думаете, полезно это будет? Кому в первую очередь?
#allslo #sloth #slo #tools #инструменты #sre
🔥2