❄️ 1 Декабря: Начало конца (года)
Коллеги, на календаре 1 декабря. В мире IT это означает одно: Code Freeze близко.
Если вы планировали: — Мигрировать почтовик; — Обновлять ядро корп-файервола; — Переезжать на новый Kubernetes-кластер;
...то у вас есть максимум 2 недели. После 15-20 декабря наступает негласный (или гласный) режим Read-Only.
Правила выживания в декабре:
1. Завершаем, а не начинаем. Доделываем хвосты, закрываем тикеты. Новые глобальные проекты — в бэклог на январь.
2. Закупка железа/лицензий. Бюджеты закрываются. Если вам нужен новый сервер — счет должен быть оплачен вчера.
3. График дежурств. Утвердите, кто будет "трезвым водителем" инфраструктуры в новогоднюю ночь, уже сейчас.
Не станьте тем админом, который деплоит продакшен 30 декабря. Чудес не бывает, бывают только факапы.
#adminlife #planning #codefreeze #management #bestpractice
Коллеги, на календаре 1 декабря. В мире IT это означает одно: Code Freeze близко.
Если вы планировали: — Мигрировать почтовик; — Обновлять ядро корп-файервола; — Переезжать на новый Kubernetes-кластер;
...то у вас есть максимум 2 недели. После 15-20 декабря наступает негласный (или гласный) режим Read-Only.
Правила выживания в декабре:
1. Завершаем, а не начинаем. Доделываем хвосты, закрываем тикеты. Новые глобальные проекты — в бэклог на январь.
2. Закупка железа/лицензий. Бюджеты закрываются. Если вам нужен новый сервер — счет должен быть оплачен вчера.
3. График дежурств. Утвердите, кто будет "трезвым водителем" инфраструктуры в новогоднюю ночь, уже сейчас.
Не станьте тем админом, который деплоит продакшен 30 декабря. Чудес не бывает, бывают только факапы.
#adminlife #planning #codefreeze #management #bestpractice
🔥3
🤔 Проблема X-Y: Почему пользователи врут (не специально)
Один из главных навыков Сеньора — умение распознать X-Y Problem. Это сэкономит вам часы отладки.
Ситуация: Пользователь (или Джун) приходит и спрашивает:
«Как мне получить последние 3 символа строки в Bash?» (Это проблема Y)
Вы тратите время, пишете sed или awk команду. А потом выясняется, что он хотел узнать расширение файла (Проблема X), и ваше решение ломается на файлах типа .tar.gz.
Суть: Пользователь столкнулся с проблемой X. Он придумал кривое решение Y, но не знает, как его реализовать. И спрашивает вас про Y, скрывая реальную задачу.
Решение: Всегда задавайте вопрос: «А какую конечную задачу ты пытаешься решить?». В 90% случаев окажется, что нужно не «парсить строку», а просто взять готовую утилиту или API.
Не чините костыли. Ищите причину.
#softskills #problemsovling #psychology #adminlife #management
Один из главных навыков Сеньора — умение распознать X-Y Problem. Это сэкономит вам часы отладки.
Ситуация: Пользователь (или Джун) приходит и спрашивает:
«Как мне получить последние 3 символа строки в Bash?» (Это проблема Y)
Вы тратите время, пишете sed или awk команду. А потом выясняется, что он хотел узнать расширение файла (Проблема X), и ваше решение ломается на файлах типа .tar.gz.
Суть: Пользователь столкнулся с проблемой X. Он придумал кривое решение Y, но не знает, как его реализовать. И спрашивает вас про Y, скрывая реальную задачу.
Решение: Всегда задавайте вопрос: «А какую конечную задачу ты пытаешься решить?». В 90% случаев окажется, что нужно не «парсить строку», а просто взять готовую утилиту или API.
Не чините костыли. Ищите причину.
#softskills #problemsovling #psychology #adminlife #management
🔥 Blameless Post-Mortem: Почему нельзя искать виноватых
Когда падает прод, инстинкт руководителя (и неопытного лида) — найти виновного. «Кто запушил конфиг? Петя? Лишить премии!»
Это путь в никуда. Архитектор строит культуру Blameless Post-Mortem (Разбор полетов без обвинений).
Почему это выгодно:
1. Честность: Если Петя знает, что его накажут, он будет скрывать ошибку до последнего, пока сервер не сгорит. Если знает, что не накажут — он придет и скажет: «Я сломал, давайте чинить». Время реакции сокращается в разы.
2. Системный подход: Ошибка человека — это всегда ошибка системы.
Плохой вопрос: «Почему Петя удалил базу?»
Вопрос архитектора: «Почему система позволила Пете удалить базу одной командой без подтверждения и бэкапа?»
Правило: Мы не чиним людей (увольнением). Мы чиним процессы (автоматизацией и защитой от дурака). В следующий раз, когда что-то сломается, начните разбор с фразы: «Мы не ищем виновных, мы ищем причину сбоя».
#softskills #management #sre #postmortem #culture #devops
Когда падает прод, инстинкт руководителя (и неопытного лида) — найти виновного. «Кто запушил конфиг? Петя? Лишить премии!»
Это путь в никуда. Архитектор строит культуру Blameless Post-Mortem (Разбор полетов без обвинений).
Почему это выгодно:
1. Честность: Если Петя знает, что его накажут, он будет скрывать ошибку до последнего, пока сервер не сгорит. Если знает, что не накажут — он придет и скажет: «Я сломал, давайте чинить». Время реакции сокращается в разы.
2. Системный подход: Ошибка человека — это всегда ошибка системы.
Плохой вопрос: «Почему Петя удалил базу?»
Вопрос архитектора: «Почему система позволила Пете удалить базу одной командой без подтверждения и бэкапа?»
Правило: Мы не чиним людей (увольнением). Мы чиним процессы (автоматизацией и защитой от дурака). В следующий раз, когда что-то сломается, начните разбор с фразы: «Мы не ищем виновных, мы ищем причину сбоя».
#softskills #management #sre #postmortem #culture #devops
🔥5
🚌 Bus Factor: Почему быть "незаменимым" — это ловушка
Многие админы стремятся стать единственными, кто знает, как работает сеть или как деплоится бэкенд. Им кажется, что это гарантия безопасности: "Меня не уволят, потому что без меня всё рухнет".
Это карьерный тупик. Если ваш Bus Factor = 1 (если вас собьет автобус, проект умрет), то:
Вы не уйдете в отпуск. Вас будут дергать в горах и на пляже.
Вас не повысят. Руководство не может перевести вас на позицию Архитектора или CTO, потому что на текущем месте вас некем заменить. Вы становитесь заложником своей рутины.
Что делает Архитектор: Он стремится стать ненужным.
Автоматизирует всё, что можно.
Пишет документацию так, чтобы справился джун.
Делится знаниями.
Парадокс: Чем проще вас заменить в текущих задачах, тем ценнее вы становитесь для компании как инженер, способный строить новые системы, а не чинить старые.
#career #management #busfactor #softskills #growth #philosophy
Многие админы стремятся стать единственными, кто знает, как работает сеть или как деплоится бэкенд. Им кажется, что это гарантия безопасности: "Меня не уволят, потому что без меня всё рухнет".
Это карьерный тупик. Если ваш Bus Factor = 1 (если вас собьет автобус, проект умрет), то:
Вы не уйдете в отпуск. Вас будут дергать в горах и на пляже.
Вас не повысят. Руководство не может перевести вас на позицию Архитектора или CTO, потому что на текущем месте вас некем заменить. Вы становитесь заложником своей рутины.
Что делает Архитектор: Он стремится стать ненужным.
Автоматизирует всё, что можно.
Пишет документацию так, чтобы справился джун.
Делится знаниями.
Парадокс: Чем проще вас заменить в текущих задачах, тем ценнее вы становитесь для компании как инженер, способный строить новые системы, а не чинить старые.
#career #management #busfactor #softskills #growth #philosophy
🪟 Windows: Секретный "God Mode" и быстрый доступ к администрированию 🛠️
Иногда нужно быстро найти глубокую настройку в Windows Server или Win11, но новый интерфейс "Параметры" только путает. Есть способ вывести абсолютно все настройки системы (более 200 штук) в одну папку с человеческим поиском.
Как создать "Все задачи":
1. Создай на рабочем столе новую папку.
2. Переименуй её в это: GodMode.{ED7BA470-8E54-465E-825C-99712043E01C}
Открыв эту папку, ты получишь список всех инструментов управления — от настройки iSCSI и ODBC до управления сертификатами и планами электропитания. Всё в одном месте, без бесконечных кликов по меню. 💎
#windows #sysadmin #lifehack #tips #windows11 #windowsserver #management
Иногда нужно быстро найти глубокую настройку в Windows Server или Win11, но новый интерфейс "Параметры" только путает. Есть способ вывести абсолютно все настройки системы (более 200 штук) в одну папку с человеческим поиском.
Как создать "Все задачи":
1. Создай на рабочем столе новую папку.
2. Переименуй её в это: GodMode.{ED7BA470-8E54-465E-825C-99712043E01C}
Открыв эту папку, ты получишь список всех инструментов управления — от настройки iSCSI и ODBC до управления сертификатами и планами электропитания. Всё в одном месте, без бесконечных кликов по меню. 💎
#windows #sysadmin #lifehack #tips #windows11 #windowsserver #management
🔥2👍1👏1
💀 Искусство Post-Mortem: Как писать отчеты об авариях, чтобы тебя повысили, а не уволили
В Google это называют Blameless Post-Mortem (разбор полетов без поиска виноватых). В российских реалиях это часто называют «объяснительная». Разница в том, что объяснительную пишут, чтобы прикрыть свою спину, а Post-Mortem пишут, чтобы прикрыть спину компании.
Вот структура идеального отчета, после которого директор скажет:
«Да, нам нужно купить это железо», а не «Вы уволены».
1️⃣ Правило «Без вины» (No Blame Policy)
2️⃣ Хронология — это твой щит
3️⃣ Метод «5 Почему» (5 Whys) — путь к бюджету
4️⃣ Переводи с «эльфийского» на деньги
5️⃣ Action Items: как мы потратим ваши деньги
Итог
Никогда не упускай хороший кризис.
Пока всё работает — IT выглядит как статья расходов.
Когда всё ломается — ты становишься человеком, которому дают ресурсы.
Пиши Post-Mortem честно, сухо и с цифрами — и вместо увольнения получишь доверие, уважение и бюджет на апгрейд.
Стабильного прода и мудрых руководителей 🤝
#лонгрид #карьера #postmortem #management #money #sysadmin #admin_future
В Google это называют Blameless Post-Mortem (разбор полетов без поиска виноватых). В российских реалиях это часто называют «объяснительная». Разница в том, что объяснительную пишут, чтобы прикрыть свою спину, а Post-Mortem пишут, чтобы прикрыть спину компании.
Вот структура идеального отчета, после которого директор скажет:
«Да, нам нужно купить это железо», а не «Вы уволены».
1️⃣ Правило «Без вины» (No Blame Policy)
Первая строчка любого отчета. Мы ищем причину в системе, а не человека.
❌ Плохо:
«Администратор Иванов случайно удалил таблицу в базе данных».
✅ Хорошо:
«Отсутствие защиты от случайного удаления (подтверждения команды) и наличие прав на DROP TABLE у дежурного инженера в продуктивной среде привело к потере данных».
Почему это работает:
если обвинить Иванова — в следующий раз Иванов скроет ошибку.
Если обвинить процесс — становится понятно, что увольнение одного человека проблему не решит.
2️⃣ Хронология — это твой щит
Менеджеры всегда спрашивают: «Почему так долго чинили?»
В отчете должна быть поминутная хронология:
• 14:00 — мониторинг Zabbix зафиксировал рост latency
• 14:05 — дежурный инженер получил алерт и начал диагностику
• 14:15 — выявлена проблема с дисковым массивом
• 14:20 — принято решение переключить трафик на резервный ЦОД
Зачем это нужно:
показывает, что команда работала, а время уходило, например, на согласования с бизнесом. Часто именно здесь рождаются аргументы для пересмотра SLA.
3️⃣ Метод «5 Почему» (5 Whys) — путь к бюджету
Главная цель — найти Root Cause.
Пример: упал сайт.
Почему? — закончилось место на диске.
Почему? — логи заняли всё пространство.
Почему? — ротация логов не сработала.
Почему? — конфиг изменили вручную с ошибкой.
Почему? — нет CI/CD для конфигов и автоматической проверки.
Вывод:
нужно не «чистить диск», а внедрять Ansible, GitLab CI и закладывать ресурсы на DevOps и тестовую инфраструктуру.
4️⃣ Переводи с «эльфийского» на деньги
Директору не важны OOM-killer и race condition.
Ему важны потери бизнеса.
Раздел Impact:
• Downtime: сервис недоступен 45 минут
• Losses: потеряно ~1500 транзакций
• Risks: высокие репутационные риски (жалобы VIP-клиентов)
Когда появляется цифра потерь, просьба купить сервер уже выглядит как инвестиция, а не расход.
5️⃣ Action Items: как мы потратим ваши деньги
Что делаем, чтобы это не повторилось.
Сейчас (без затрат):
• исправлен конфиг
• добавлен алерт
Среднесрочно:
• переработка скриптов деплоя
Долгосрочно (бюджет):
Проблема: текущий сервер БД не справляется с пиками нагрузки.
Риск: повтор аварии в ближайшие 2 месяца.
Решение: кластер из двух серверов + лицензия Enterprise-backup.
Итог
Никогда не упускай хороший кризис.
Пока всё работает — IT выглядит как статья расходов.
Когда всё ломается — ты становишься человеком, которому дают ресурсы.
Пиши Post-Mortem честно, сухо и с цифрами — и вместо увольнения получишь доверие, уважение и бюджет на апгрейд.
#лонгрид #карьера #postmortem #management #money #sysadmin #admin_future
🔥6👍1
🧠 Skill: «Фактор автобуса» (Bus Factor) — почему незаменимость это плохо
В админской среде есть опасное заблуждение: «Если только я знаю, как это работает, меня не уволят».
На самом деле, высокая «незаменимость» — это ловушка, которая мешает тебе расти, уходить в отпуск и получать бюджеты.
Как прокачать этот скилл:
Вывод: Чем выше Bus Factor твоей команды, тем более зрелым инженером ты считаешься.
Сеньор — это тот, кто может уйти в отпуск на месяц и его ни разу не дернут.
#skills #management #career #documentation #sysadmin #mindset #admin_future
В админской среде есть опасное заблуждение: «Если только я знаю, как это работает, меня не уволят».
На самом деле, высокая «незаменимость» — это ловушка, которая мешает тебе расти, уходить в отпуск и получать бюджеты.
Техническая суть:
«Фактор автобуса» — это количество членов команды, которых должен переехать автобус, чтобы проект/инфраструктура встали колом. Если твой Bus Factor равен 1 (это ты) — у компании огромные риски, а у тебя — вечный стресс.
Как прокачать этот скилл:
1. Документация «для идиота»: Пиши инструкции так, чтобы твой сменщик мог поднять упавший сервис в 3 часа ночи без твоего звонка.
2.Infrastructure as Code (IaC): Твои знания должны быть зафиксированы в коде Ansible/Terraform, а не только в твоей голове.
3. Shared Secrets: Используй командные менеджеры паролей (Vault, Passbolt). Никаких личных блокнотов с паролями от рута.
Вывод: Чем выше Bus Factor твоей команды, тем более зрелым инженером ты считаешься.
Сеньор — это тот, кто может уйти в отпуск на месяц и его ни разу не дернут.
#skills #management #career #documentation #sysadmin #mindset #admin_future
🚀 Skills: Постмортем — Как перестать наступать на те же грабли
Сервер упал, ты его поднял за 5 минут — молодец. Но если ты не написал «постмортем» (разбор полетов), через месяц ты снова будешь поднимать его в 3 часа ночи по той же самой причине. В 2026-м цена ошибки в инфраструктуре на ARM-кластерах слишком высока.
Золотые правила хорошего постмортема:
Шаблон простого отчета в Markdown:
Админ, который пишет такие отчеты, автоматически переходит в категорию инженеров, которым доверяют ключи от самого дорогого продакшена.
#skills #management #postmortem #reliability #career
Сервер упал, ты его поднял за 5 минут — молодец. Но если ты не написал «постмортем» (разбор полетов), через месяц ты снова будешь поднимать его в 3 часа ночи по той же самой причине. В 2026-м цена ошибки в инфраструктуре на ARM-кластерах слишком высока.
Золотые правила хорошего постмортема:
1. Никаких имен: Цель — найти слабое место в системе, а не «наказать Ваню».
2. Хронология: Запиши по минутам: что случилось, когда заметили, когда исправили.
3. Root Cause: Найди корень проблемы. «Забился диск» — это не корень. «Логротейт не отработал из-за ошибки в конфиге» — вот это оно.
Шаблон простого отчета в Markdown:
Инцидент #42: Падение API
Дата: 17.03.2026
Что случилось: Ошибка 502 на фронтенде в течение 15 минут.
Причина: Утечка памяти в новом контейнере, OOM Killer прибил процесс.
Как исправили: Увеличили лимиты RAM, откатили версию образа.
Что сделать, чтобы не повторилось: Настроить алерт на потребление 80% RAM контейнером.
Админ, который пишет такие отчеты, автоматически переходит в категорию инженеров, которым доверяют ключи от самого дорогого продакшена.
#skills #management #postmortem #reliability #career
👍4
📋 Skills: Твой парашют в мире хаоса — Чек-листы
В 2026 году сложность систем такова, что даже самый опытный админ может забыть закрыть один порт в фаерволе или сменить дефолтный пароль на новой службе. Ошибка стоит дорого. Твой главный инструмент здесь — не феноменальная память, а простой текстовый чек-лист.
Почему это работает:
Пример чек-листа при вводе нового Linux-сервера:
Админ, работающий по списку — это признак профессионализма, а не отсутствия опыта. Это гарантия того, что в три часа ночи тебе не придется вспоминать, какой именно конфиг ты забыл поправить.
#skills #productivity #checklist #management #bestpractices #admin_future
В 2026 году сложность систем такова, что даже самый опытный админ может забыть закрыть один порт в фаерволе или сменить дефолтный пароль на новой службе. Ошибка стоит дорого. Твой главный инструмент здесь — не феноменальная память, а простой текстовый чек-лист.
Почему это работает:
1. Разгрузка головы: Тебе не нужно держать в уме 20 шагов развертывания сервера. Ты просто идешь по пунктам.
2. Идентичность: Все твои серверы настроены одинаково, потому что ты всегда идешь по одному и тому же гайду.
3. Делегирование: С хорошим чек-листом даже младший админ не уронит продакшен при выполнении стандартных задач.
Пример чек-листа при вводе нового Linux-сервера:
1. Обновить пакеты системы.
2. Настроить правильный часовой пояс.
3. Создать пользователя с sudo и отключить вход для root.
4. Отключить авторизацию по паролю в SSH (только ключи).
5. Настроить фаервол (запретить всё, кроме нужных портов).
6. Установить и проверить агент мониторинга.
Админ, работающий по списку — это признак профессионализма, а не отсутствия опыта. Это гарантия того, что в три часа ночи тебе не придется вспоминать, какой именно конфиг ты забыл поправить.
#skills #productivity #checklist #management #bestpractices #admin_future
👍3
🚀 Skills: Золотое правило Read-Only Friday
Сегодня 20 марта, пятница. В 2026 году это правило актуально как никогда. Если у тебя возникла «гениальная» идея накатить критическое обновление или сменить правила на фаерволе прямо сейчас — гони её прочь.
Почему мы не трогаем продакшен в пятницу:
1. Закон подлости: Самые странные ошибки вылезают через 2 часа после деплоя, как раз когда ты уже дома.
2. Дефицит ресурсов: В выходные найти коллегу или поддержку провайдера в разы сложнее.
3. Психология: В конце недели внимание притупляется, и цена «опечатки» в конфиге возрастает.
Что делать в пятницу:
Вывод: Хороший админ — это не тот, кто героически чинит сервер в субботу утром, а тот, кто спокойно отдыхает, потому что ничего не трогал в пятницу.
#skills #adminlife #friday #management #bestpractices #admin_future
Сегодня 20 марта, пятница. В 2026 году это правило актуально как никогда. Если у тебя возникла «гениальная» идея накатить критическое обновление или сменить правила на фаерволе прямо сейчас — гони её прочь.
Почему мы не трогаем продакшен в пятницу:
1. Закон подлости: Самые странные ошибки вылезают через 2 часа после деплоя, как раз когда ты уже дома.
2. Дефицит ресурсов: В выходные найти коллегу или поддержку провайдера в разы сложнее.
3. Психология: В конце недели внимание притупляется, и цена «опечатки» в конфиге возрастает.
Что делать в пятницу:
Занимайся документацией, пиши инструкции в Markdown, чисти старые логи или наводи порядок в тикетах. Пятница — день тишины и подготовки.
Вывод: Хороший админ — это не тот, кто героически чинит сервер в субботу утром, а тот, кто спокойно отдыхает, потому что ничего не трогал в пятницу.
#skills #adminlife #friday #management #bestpractices #admin_future
🏷️ Skills: Искусство именования — Чтобы не гадать, что это за сервер
Поговорим о именовании серверов. Называть машины srv1, test2 или, что еще хуже, именами богов из мифологии — это путь к катастрофе, когда в твоем парке становится больше 10 узлов. В 2026 году твоя инфраструктура должна быть «картой», а не ребусом.
Хорошее имя сервера должно отвечать на три вопроса: Что это? Где это? Для чего это?
Правильная схема (Роль-Локация-Окружение-Индекс):
Зачем это нужно:
Вывод: Порядок в именах — это порядок в голове и в коде.
#skills #infrastructure #naming #bestpractices #management #admin_future
Поговорим о именовании серверов. Называть машины srv1, test2 или, что еще хуже, именами богов из мифологии — это путь к катастрофе, когда в твоем парке становится больше 10 узлов. В 2026 году твоя инфраструктура должна быть «картой», а не ребусом.
Хорошее имя сервера должно отвечать на три вопроса: Что это? Где это? Для чего это?
Правильная схема (Роль-Локация-Окружение-Индекс):
Пример: db-msk-prod-01
1. db — роль (database). Сразу ясно, что внутри.
2. msk — локация (Moscow). Понятно, в каком ДЦ искать.
3. prod — окружение (production/dev/test). Не перепутаешь, где можно проводить тесты.
4. 01 — порядковый номер. Для масштабирования.
Зачем это нужно:
Для автоматизации и твоего спокойствия. Если тебе прилетает алерт от zabbix-prod-02, ты сразу понимаешь критичность и где физически находится узел. Это упрощает написание скриптов (Ansible/PowerShell), где ты можешь обращаться к группам машин по маске имени.
Вывод: Порядок в именах — это порядок в голове и в коде.
#skills #infrastructure #naming #bestpractices #management #admin_future
🔥2
🔄 Skills: Ребут — это не решение, а временная мера
Давайте будем честными: фраза «попробуйте перезагрузить» спасла миллионы админских нервов. Но в 2026 году, когда системы стали сложнее, простой рестарт сервера — это не только спасение, но и потеря всех улик.
Почему не стоит сразу тянуться к кнопке Reset:
Что делать вместо этого:
Вывод: Перезагрузка — это крайняя мера. Настоящий профи сначала ставит диагноз, а потом «лечит». Иначе ты превращаешься в оператора кнопки, а не системного инженера.
#skills #troubleshooting #bestpractices #management #sysadmin #admin_future
Давайте будем честными: фраза «попробуйте перезагрузить» спасла миллионы админских нервов. Но в 2026 году, когда системы стали сложнее, простой рестарт сервера — это не только спасение, но и потеря всех улик.
Почему не стоит сразу тянуться к кнопке Reset:
1. Исчезновение логов: Если проблема в памяти или в конкретном процессе, перезагрузка сотрет текущее состояние, и ты не узнаешь причину сбоя.
2. Маскировка симптомов: Ребут лечит следствие (зависший сервис), но не причину (утечка памяти или конфликт драйверов). Через неделю всё повторится.
3. Риск не подняться: Старое железо или сервер с кривым конфигом может просто не пережить перезагрузку.
Что делать вместо этого:
1. Сними дамп: Если процесс завис — выгрузи его состояние.
2. Проверь ресурсы: Глянь btop или Get-Process, кто именно съел ресурсы.
3. Читай логи ДО ребута: Потом их может не быть в оперативной памяти.
Вывод: Перезагрузка — это крайняя мера. Настоящий профи сначала ставит диагноз, а потом «лечит». Иначе ты превращаешься в оператора кнопки, а не системного инженера.
#skills #troubleshooting #bestpractices #management #sysadmin #admin_future
🧠 Skills: Культура Blameless Post-Mortem — как чинить системы, а не людей
Все падают. Даже инфраструктура технологических гигантов периодически ложится отдыхать. Отличие сильной IT-команды от слабой заключается не в количестве инцидентов, а в том, что происходит на следующий день. В 2026 году метод поиска крайнего инженера — это прямой путь к деградации инфраструктуры. Встречайте концепцию Blameless Post-Mortem (Безобвинительный разбор инцидентов) из практик SRE.
Что это такое:
Как провести правильный Post-Mortem:
Если за ошибку наказывают, инженеры начинают скрывать проблемы и не зовут на помощь до последнего. В культуре Blameless люди сами приходят и говорят: «Я нашел уязвимый процесс в наших регламентах, давайте закроем дыру, пока не рвануло».
Ваша задача как сисадмина и архитектора — строить отказоустойчивые системы. А самая ненадежная деталь системы — это уставший человек с правами высшего уровня.Защищайте людей от систем, а системы от людей.
#skills #sre #postmortem #management #devops #admin_future
Все падают. Даже инфраструктура технологических гигантов периодически ложится отдыхать. Отличие сильной IT-команды от слабой заключается не в количестве инцидентов, а в том, что происходит на следующий день. В 2026 году метод поиска крайнего инженера — это прямой путь к деградации инфраструктуры. Встречайте концепцию Blameless Post-Mortem (Безобвинительный разбор инцидентов) из практик SRE.
Что это такое:
Это документ и встреча, цель которых — понять ПОЧЕМУ произошел сбой, а не КТО его устроил. Главный принцип: мы исходим из того, что каждый сотрудник в момент инцидента действовал с хорошими намерениями и принимал оптимальные решения на основе той информации и инструментов, которые у него были.
Как провести правильный Post-Mortem:
— Запрет на слово КТО: Вместо «Кто удалил боевую базу данных?» мы спрашиваем «Какая последовательность действий привела к удалению?» и «Почему система позволила это сделать без подтверждения?».
— Хронология — это база: Соберите точный таймлайн. Во сколько пришел алерт, когда начали чинить, когда восстановили. Только сухие факты из систем мониторинга и рабочих чатов без эмоциональных окрасов.
— План действий: Итогом должен стать список системных задач в трекере. Например: «Настроить права доступа так, чтобы деструктивные команды не работали на проде без апрува второго администратора».
Если за ошибку наказывают, инженеры начинают скрывать проблемы и не зовут на помощь до последнего. В культуре Blameless люди сами приходят и говорят: «Я нашел уязвимый процесс в наших регламентах, давайте закроем дыру, пока не рвануло».
Ваша задача как сисадмина и архитектора — строить отказоустойчивые системы. А самая ненадежная деталь системы — это уставший человек с правами высшего уровня.
#skills #sre #postmortem #management #devops #admin_future
🔥3
🚌 Skills: «Фактор автобуса» — главный риск, о котором молчат сисадмины
Представьте ситуацию: вы единственный, кто знает, как работает связка вашей базы данных, DMZ-зоны и хитрого скрипта очистки логов. А теперь представьте, что вы выиграли в лотерею и улетели на острова без связи. Или, что менее приятно, попали под автобус (отсюда и термин Bus Factor).
Почему это вредит лично вам:
Как повышать Bus Factor в 2026 году:
Незаменимых людей нет, есть люди, после ухода которых приходится всё перестраивать с нуля. Делитесь знаниями и не будьте узким горлышком своей инфраструктуры.
#skills #management #busfactor #sysadmin #bestpractices #admin_future
Представьте ситуацию: вы единственный, кто знает, как работает связка вашей базы данных, DMZ-зоны и хитрого скрипта очистки логов. А теперь представьте, что вы выиграли в лотерею и улетели на острова без связи. Или, что менее приятно, попали под автобус (отсюда и термин Bus Factor).
Фактор автобуса — это количество людей в команде, которых нужно потерять, чтобы IT-инфраструктура компании полностью встала. Если этот фактор равен единице (только вы), это катастрофа и для бизнеса, и лично для вас.
Почему это вредит лично вам:
— Невозможно уйти в нормальный отпуск. Телефон будет звонить даже на пляже.
— Невозможно пойти на повышение. Вас банально некем заменить на текущем месте, вы стали заложником собственной инфраструктуры.
— Выгорание. Вы несете ответственность за все системы 24 на 7.
Как повышать Bus Factor в 2026 году:
— Пароли: Никаких личных блокнотов и файлов на рабочем столе. Только корпоративный менеджер паролей с доступом для коллег.
— Документация: Описывайте не только «как сделать», но и «почему мы сделали именно так».
— Перекрестное обучение: Возьмите за правило раз в неделю садиться с коллегой и показывать ему одну из ваших систем. Разбирали вчера архитектуру DMZ-сервера? Проведите мини-презентацию для отдела.
Незаменимых людей нет, есть люди, после ухода которых приходится всё перестраивать с нуля. Делитесь знаниями и не будьте узким горлышком своей инфраструктуры.
#skills #management #busfactor #sysadmin #bestpractices #admin_future
🧠 Skills: Бэкап Шредингера — почему ваши резервные копии ничего не стоят
У вас настроены автоматические бэкапы баз данных, конфигураций роутеров выгружаются по расписанию, а виртуалки снепшотятся каждую ночь. Вы молодец, спите спокойно. Но задайте себе один неудобный вопрос: когда вы в последний раз пробовали развернуть инфраструктуру с нуля из этих архивов?
Суровая истина системного администрирования гласит: бэкап, который никогда не восстанавливали — это не бэкап. Это просто дорогой файл, занимающий место на диске.
Что происходит на практике в момент аварии:
Выясняется, что скрипт полгода копировал пустые папки. Пароль от зашифрованного архива знает только бывший сотрудник. Свежая база данных отказывается разворачиваться на старой версии СУБД, а файл с конфигурацией Nginx почему-то вообще не попал в список исключений для бэкапа.
Как лечить:
Опыт инженера измеряется не умением написать bash-скрипт для архивации, а гарантированным временем (RTO), за которое он способен поднять компанию из пепла.Тестируйте восстановление, пока это можно сделать без паники и седых волос.
#skills #backup #disasterrecovery #management #sysadmin #admin_future
У вас настроены автоматические бэкапы баз данных, конфигураций роутеров выгружаются по расписанию, а виртуалки снепшотятся каждую ночь. Вы молодец, спите спокойно. Но задайте себе один неудобный вопрос: когда вы в последний раз пробовали развернуть инфраструктуру с нуля из этих архивов?
Суровая истина системного администрирования гласит: бэкап, который никогда не восстанавливали — это не бэкап. Это просто дорогой файл, занимающий место на диске.
Что происходит на практике в момент аварии:
Выясняется, что скрипт полгода копировал пустые папки. Пароль от зашифрованного архива знает только бывший сотрудник. Свежая база данных отказывается разворачиваться на старой версии СУБД, а файл с конфигурацией Nginx почему-то вообще не попал в список исключений для бэкапа.
Как лечить:
Внедряйте правило Disaster Recovery Day (День аварийного восстановления). Раз в квартал выделяйте чистый тестовый сервер. Отключайтесь от основной сети и пытайтесь поднять копию критического сервиса, используя исключительно вашу документацию и ночные бэкапы.
Опыт инженера измеряется не умением написать bash-скрипт для архивации, а гарантированным временем (RTO), за которое он способен поднять компанию из пепла.
#skills #backup #disasterrecovery #management #sysadmin #admin_future
🧠 Skills: Усталость от алертов. Как Zabbix убивает вашу внимательность
Коллеги, если в вашей дежурной группе в Telegram каждый день сыпятся десятки сообщений "CPU Load is > 80%" или "Disk space < 20%", и вы их просто смахиваете, не читая — у вас серьезная проблема. Это называется Alert Fatigue (усталость от предупреждений).
В 2026 году мониторинг не должен быть логом событий. Алерт должен приходить ТОЛЬКО тогда, когда требуется немедленное действие живого человека.
Внедряем правило 3 вопросов для настройки любого триггера:
Это влияет на бизнес прямо сейчас?
Я должен бросить свой кофе и чинить это немедленно?
Если я проигнорирую это до завтрашнего утра, кто-то заметит?
Если хотя бы на один вопрос ответ "Нет" — смело переводим этот триггер в разрез инфо-дашбордов или утренних отчетов. Никаких пуш-уведомлений и красных значков.
Зачем это нужно:
Когда случится настоящий сбой (например, дропнется RAID-массив в проде), вы можете просто пропустить этот критический алерт между пятьюдесятью рядовыми сообщениями о высокой загрузке процессора на тестовом контуре. Тишина в канале мониторинга — это признак здоровой инфраструктуры и здоровой психики администратора.
#skills #monitoring #zabbix #management #sysadmin #admin_future
Коллеги, если в вашей дежурной группе в Telegram каждый день сыпятся десятки сообщений "CPU Load is > 80%" или "Disk space < 20%", и вы их просто смахиваете, не читая — у вас серьезная проблема. Это называется Alert Fatigue (усталость от предупреждений).
В 2026 году мониторинг не должен быть логом событий. Алерт должен приходить ТОЛЬКО тогда, когда требуется немедленное действие живого человека.
Внедряем правило 3 вопросов для настройки любого триггера:
Это влияет на бизнес прямо сейчас?
Я должен бросить свой кофе и чинить это немедленно?
Если я проигнорирую это до завтрашнего утра, кто-то заметит?
Если хотя бы на один вопрос ответ "Нет" — смело переводим этот триггер в разрез инфо-дашбордов или утренних отчетов. Никаких пуш-уведомлений и красных значков.
Зачем это нужно:
Когда случится настоящий сбой (например, дропнется RAID-массив в проде), вы можете просто пропустить этот критический алерт между пятьюдесятью рядовыми сообщениями о высокой загрузке процессора на тестовом контуре. Тишина в канале мониторинга — это признак здоровой инфраструктуры и здоровой психики администратора.
#skills #monitoring #zabbix #management #sysadmin #admin_future
👍3