Admin Future
239 subscribers
50 photos
1 video
4 files
87 links
Превращаем эникейщиков в System Architects.
🚀 Твой навигатор в мире IT-инфраструктуры:

▪️ Hard Skills: Linux, Windows, Network, Security
▪️ Tools: Лучший софт и скрытые фишки
▪️ Mindset: Как думать, чтобы платили много


Админ - @maksimshap
Download Telegram
❄️ 1 Декабря: Начало конца (года)

Коллеги, на календаре 1 декабря. В мире IT это означает одно: Code Freeze близко.

Если вы планировали: — Мигрировать почтовик; — Обновлять ядро корп-файервола; — Переезжать на новый Kubernetes-кластер;

...то у вас есть максимум 2 недели. После 15-20 декабря наступает негласный (или гласный) режим Read-Only.

Правила выживания в декабре:

1. Завершаем, а не начинаем. Доделываем хвосты, закрываем тикеты. Новые глобальные проекты — в бэклог на январь.

2. Закупка железа/лицензий. Бюджеты закрываются. Если вам нужен новый сервер — счет должен быть оплачен вчера.

3. График дежурств. Утвердите, кто будет "трезвым водителем" инфраструктуры в новогоднюю ночь, уже сейчас.

Не станьте тем админом, который деплоит продакшен 30 декабря. Чудес не бывает, бывают только факапы.

#adminlife #planning #codefreeze #management #bestpractice
🔥3
🤔 Проблема X-Y: Почему пользователи врут (не специально)

Один из главных навыков Сеньора — умение распознать X-Y Problem. Это сэкономит вам часы отладки.

Ситуация: Пользователь (или Джун) приходит и спрашивает:

«Как мне получить последние 3 символа строки в Bash?» (Это проблема Y)

Вы тратите время, пишете sed или awk команду. А потом выясняется, что он хотел узнать расширение файла (Проблема X), и ваше решение ломается на файлах типа .tar.gz.

Суть: Пользователь столкнулся с проблемой X. Он придумал кривое решение Y, но не знает, как его реализовать. И спрашивает вас про Y, скрывая реальную задачу.

Решение: Всегда задавайте вопрос: «А какую конечную задачу ты пытаешься решить?». В 90% случаев окажется, что нужно не «парсить строку», а просто взять готовую утилиту или API.

Не чините костыли. Ищите причину.

#softskills #problemsovling #psychology #adminlife #management
🔥 Blameless Post-Mortem: Почему нельзя искать виноватых

Когда падает прод, инстинкт руководителя (и неопытного лида) — найти виновного. «Кто запушил конфиг? Петя? Лишить премии!»

Это путь в никуда. Архитектор строит культуру Blameless Post-Mortem (Разбор полетов без обвинений).

Почему это выгодно:

1. Честность: Если Петя знает, что его накажут, он будет скрывать ошибку до последнего, пока сервер не сгорит. Если знает, что не накажут — он придет и скажет: «Я сломал, давайте чинить». Время реакции сокращается в разы.

2. Системный подход: Ошибка человека — это всегда ошибка системы.

Плохой вопрос: «Почему Петя удалил базу?»

Вопрос архитектора: «Почему система позволила Пете удалить базу одной командой без подтверждения и бэкапа?»

Правило: Мы не чиним людей (увольнением). Мы чиним процессы (автоматизацией и защитой от дурака). В следующий раз, когда что-то сломается, начните разбор с фразы: «Мы не ищем виновных, мы ищем причину сбоя».

#softskills #management #sre #postmortem #culture #devops
🔥5
🚌 Bus Factor: Почему быть "незаменимым" — это ловушка

Многие админы стремятся стать единственными, кто знает, как работает сеть или как деплоится бэкенд. Им кажется, что это гарантия безопасности: "Меня не уволят, потому что без меня всё рухнет".

Это карьерный тупик. Если ваш Bus Factor = 1 (если вас собьет автобус, проект умрет), то:

Вы не уйдете в отпуск. Вас будут дергать в горах и на пляже.

Вас не повысят. Руководство не может перевести вас на позицию Архитектора или CTO, потому что на текущем месте вас некем заменить. Вы становитесь заложником своей рутины.


Что делает Архитектор: Он стремится стать ненужным.

Автоматизирует всё, что можно.

Пишет документацию так, чтобы справился джун.

Делится знаниями.

Парадокс: Чем проще вас заменить в текущих задачах, тем ценнее вы становитесь для компании как инженер, способный строить новые системы, а не чинить старые.

#career #management #busfactor #softskills #growth #philosophy
🪟 Windows: Секретный "God Mode" и быстрый доступ к администрированию 🛠️

Иногда нужно быстро найти глубокую настройку в Windows Server или Win11, но новый интерфейс "Параметры" только путает. Есть способ вывести абсолютно все настройки системы (более 200 штук) в одну папку с человеческим поиском.

Как создать "Все задачи":

1. Создай на рабочем столе новую папку.

2. Переименуй её в это: GodMode.{ED7BA470-8E54-465E-825C-99712043E01C}

Открыв эту папку, ты получишь список всех инструментов управления — от настройки iSCSI и ODBC до управления сертификатами и планами электропитания. Всё в одном месте, без бесконечных кликов по меню. 💎

#windows #sysadmin #lifehack #tips #windows11 #windowsserver #management
🔥2👍1👏1
💀 Искусство Post-Mortem: Как писать отчеты об авариях, чтобы тебя повысили, а не уволили

В Google это называют Blameless Post-Mortem (разбор полетов без поиска виноватых). В российских реалиях это часто называют «объяснительная». Разница в том, что объяснительную пишут, чтобы прикрыть свою спину, а Post-Mortem пишут, чтобы прикрыть спину компании.
Вот структура идеального отчета, после которого директор скажет:
«Да, нам нужно купить это железо», а не «Вы уволены».

1️⃣ Правило «Без вины» (No Blame Policy)
Первая строчка любого отчета. Мы ищем причину в системе, а не человека.
Плохо:
«Администратор Иванов случайно удалил таблицу в базе данных».
Хорошо:
«Отсутствие защиты от случайного удаления (подтверждения команды) и наличие прав на DROP TABLE у дежурного инженера в продуктивной среде привело к потере данных».
Почему это работает:
если обвинить Иванова — в следующий раз Иванов скроет ошибку.
Если обвинить процесс — становится понятно, что увольнение одного человека проблему не решит.


2️⃣ Хронология — это твой щит
Менеджеры всегда спрашивают: «Почему так долго чинили?»
В отчете должна быть поминутная хронология:
• 14:00 — мониторинг Zabbix зафиксировал рост latency
• 14:05 — дежурный инженер получил алерт и начал диагностику
• 14:15 — выявлена проблема с дисковым массивом
• 14:20 — принято решение переключить трафик на резервный ЦОД
Зачем это нужно:
показывает, что команда работала, а время уходило, например, на согласования с бизнесом. Часто именно здесь рождаются аргументы для пересмотра SLA.


3️⃣ Метод «5 Почему» (5 Whys) — путь к бюджету
Главная цель — найти Root Cause.
Пример: упал сайт.
Почему? — закончилось место на диске.
Почему? — логи заняли всё пространство.
Почему? — ротация логов не сработала.
Почему? — конфиг изменили вручную с ошибкой.
Почему? — нет CI/CD для конфигов и автоматической проверки.
Вывод:
нужно не «чистить диск», а внедрять Ansible, GitLab CI и закладывать ресурсы на DevOps и тестовую инфраструктуру.


4️⃣ Переводи с «эльфийского» на деньги
Директору не важны OOM-killer и race condition.
Ему важны потери бизнеса.
Раздел Impact:
• Downtime: сервис недоступен 45 минут
• Losses: потеряно ~1500 транзакций
• Risks: высокие репутационные риски (жалобы VIP-клиентов)
Когда появляется цифра потерь, просьба купить сервер уже выглядит как инвестиция, а не расход.


5️⃣ Action Items: как мы потратим ваши деньги
Что делаем, чтобы это не повторилось.
Сейчас (без затрат):
• исправлен конфиг
• добавлен алерт
Среднесрочно:
• переработка скриптов деплоя
Долгосрочно (бюджет):
Проблема: текущий сервер БД не справляется с пиками нагрузки.
Риск: повтор аварии в ближайшие 2 месяца.
Решение: кластер из двух серверов + лицензия Enterprise-backup.


Итог
Никогда не упускай хороший кризис.
Пока всё работает — IT выглядит как статья расходов.
Когда всё ломается — ты становишься человеком, которому дают ресурсы.
Пиши Post-Mortem честно, сухо и с цифрами — и вместо увольнения получишь доверие, уважение и бюджет на апгрейд.
Стабильного прода и мудрых руководителей 🤝

#лонгрид #карьера #postmortem #management #money #sysadmin #admin_future
🔥6👍1
🧠 Skill: «Фактор автобуса» (Bus Factor) — почему незаменимость это плохо

В админской среде есть опасное заблуждение: «Если только я знаю, как это работает, меня не уволят».
На самом деле, высокая «незаменимость» — это ловушка, которая мешает тебе расти, уходить в отпуск и получать бюджеты.

Техническая суть:
«Фактор автобуса» — это количество членов команды, которых должен переехать автобус, чтобы проект/инфраструктура встали колом. Если твой Bus Factor равен 1 (это ты) — у компании огромные риски, а у тебя — вечный стресс.

Как прокачать этот скилл:
1. Документация «для идиота»: Пиши инструкции так, чтобы твой сменщик мог поднять упавший сервис в 3 часа ночи без твоего звонка.

2.Infrastructure as Code (IaC): Твои знания должны быть зафиксированы в коде Ansible/Terraform, а не только в твоей голове.

3. Shared Secrets: Используй командные менеджеры паролей (Vault, Passbolt). Никаких личных блокнотов с паролями от рута.


Вывод: Чем выше Bus Factor твоей команды, тем более зрелым инженером ты считаешься.
Сеньор — это тот, кто может уйти в отпуск на месяц и его ни разу не дернут.

#skills #management #career #documentation #sysadmin #mindset #admin_future
🚀 Skills: Постмортем — Как перестать наступать на те же грабли

Сервер упал, ты его поднял за 5 минут — молодец. Но если ты не написал «постмортем» (разбор полетов), через месяц ты снова будешь поднимать его в 3 часа ночи по той же самой причине. В 2026-м цена ошибки в инфраструктуре на ARM-кластерах слишком высока.

Золотые правила хорошего постмортема:
1. Никаких имен: Цель — найти слабое место в системе, а не «наказать Ваню».
2. Хронология: Запиши по минутам: что случилось, когда заметили, когда исправили.
3. Root Cause: Найди корень проблемы. «Забился диск» — это не корень. «Логротейт не отработал из-за ошибки в конфиге» — вот это оно.


Шаблон простого отчета в Markdown:

Инцидент #42: Падение API
Дата: 17.03.2026
Что случилось: Ошибка 502 на фронтенде в течение 15 минут.
Причина: Утечка памяти в новом контейнере, OOM Killer прибил процесс.
Как исправили: Увеличили лимиты RAM, откатили версию образа.
Что сделать, чтобы не повторилось: Настроить алерт на потребление 80% RAM контейнером.


Админ, который пишет такие отчеты, автоматически переходит в категорию инженеров, которым доверяют ключи от самого дорогого продакшена.

#skills #management #postmortem #reliability #career
👍4
📋 Skills: Твой парашют в мире хаоса — Чек-листы

В 2026 году сложность систем такова, что даже самый опытный админ может забыть закрыть один порт в фаерволе или сменить дефолтный пароль на новой службе. Ошибка стоит дорого. Твой главный инструмент здесь — не феноменальная память, а простой текстовый чек-лист.

Почему это работает:
1. Разгрузка головы: Тебе не нужно держать в уме 20 шагов развертывания сервера. Ты просто идешь по пунктам.
2. Идентичность: Все твои серверы настроены одинаково, потому что ты всегда идешь по одному и тому же гайду.
3. Делегирование: С хорошим чек-листом даже младший админ не уронит продакшен при выполнении стандартных задач.


Пример чек-листа при вводе нового Linux-сервера:
1. Обновить пакеты системы.
2. Настроить правильный часовой пояс.
3. Создать пользователя с sudo и отключить вход для root.
4. Отключить авторизацию по паролю в SSH (только ключи).
5. Настроить фаервол (запретить всё, кроме нужных портов).
6. Установить и проверить агент мониторинга.


Админ, работающий по списку — это признак профессионализма, а не отсутствия опыта. Это гарантия того, что в три часа ночи тебе не придется вспоминать, какой именно конфиг ты забыл поправить.

#skills #productivity #checklist #management #bestpractices #admin_future
👍3
🚀 Skills: Золотое правило Read-Only Friday

Сегодня 20 марта, пятница. В 2026 году это правило актуально как никогда. Если у тебя возникла «гениальная» идея накатить критическое обновление или сменить правила на фаерволе прямо сейчас — гони её прочь.

Почему мы не трогаем продакшен в пятницу:
1. Закон подлости: Самые странные ошибки вылезают через 2 часа после деплоя, как раз когда ты уже дома.
2. Дефицит ресурсов: В выходные найти коллегу или поддержку провайдера в разы сложнее.
3. Психология: В конце недели внимание притупляется, и цена «опечатки» в конфиге возрастает.

Что делать в пятницу:
Занимайся документацией, пиши инструкции в Markdown, чисти старые логи или наводи порядок в тикетах. Пятница — день тишины и подготовки.


Вывод: Хороший админ — это не тот, кто героически чинит сервер в субботу утром, а тот, кто спокойно отдыхает, потому что ничего не трогал в пятницу.

#skills #adminlife #friday #management #bestpractices #admin_future
🏷️ Skills: Искусство именования — Чтобы не гадать, что это за сервер

Поговорим о именовании серверов. Называть машины srv1, test2 или, что еще хуже, именами богов из мифологии — это путь к катастрофе, когда в твоем парке становится больше 10 узлов. В 2026 году твоя инфраструктура должна быть «картой», а не ребусом.

Хорошее имя сервера должно отвечать на три вопроса: Что это? Где это? Для чего это?

Правильная схема (Роль-Локация-Окружение-Индекс):
Пример: db-msk-prod-01

1. db — роль (database). Сразу ясно, что внутри.
2. msk — локация (Moscow). Понятно, в каком ДЦ искать.
3. prod — окружение (production/dev/test). Не перепутаешь, где можно проводить тесты.
4. 01 — порядковый номер. Для масштабирования.


Зачем это нужно:
Для автоматизации и твоего спокойствия. Если тебе прилетает алерт от zabbix-prod-02, ты сразу понимаешь критичность и где физически находится узел. Это упрощает написание скриптов (Ansible/PowerShell), где ты можешь обращаться к группам машин по маске имени.


Вывод: Порядок в именах — это порядок в голове и в коде.

#skills #infrastructure #naming #bestpractices #management #admin_future
🔥2
🔄 Skills: Ребут — это не решение, а временная мера

Давайте будем честными: фраза «попробуйте перезагрузить» спасла миллионы админских нервов. Но в 2026 году, когда системы стали сложнее, простой рестарт сервера — это не только спасение, но и потеря всех улик.

Почему не стоит сразу тянуться к кнопке Reset:
1. Исчезновение логов: Если проблема в памяти или в конкретном процессе, перезагрузка сотрет текущее состояние, и ты не узнаешь причину сбоя.
2. Маскировка симптомов: Ребут лечит следствие (зависший сервис), но не причину (утечка памяти или конфликт драйверов). Через неделю всё повторится.
3. Риск не подняться: Старое железо или сервер с кривым конфигом может просто не пережить перезагрузку.


Что делать вместо этого:
1. Сними дамп: Если процесс завис — выгрузи его состояние.
2. Проверь ресурсы: Глянь btop или Get-Process, кто именно съел ресурсы.
3. Читай логи ДО ребута: Потом их может не быть в оперативной памяти.


Вывод: Перезагрузка — это крайняя мера. Настоящий профи сначала ставит диагноз, а потом «лечит». Иначе ты превращаешься в оператора кнопки, а не системного инженера.

#skills #troubleshooting #bestpractices #management #sysadmin #admin_future
🧠 Skills: Культура Blameless Post-Mortem — как чинить системы, а не людей

Все падают. Даже инфраструктура технологических гигантов периодически ложится отдыхать. Отличие сильной IT-команды от слабой заключается не в количестве инцидентов, а в том, что происходит на следующий день. В 2026 году метод поиска крайнего инженера — это прямой путь к деградации инфраструктуры. Встречайте концепцию Blameless Post-Mortem (Безобвинительный разбор инцидентов) из практик SRE.

Что это такое:
Это документ и встреча, цель которых — понять ПОЧЕМУ произошел сбой, а не КТО его устроил. Главный принцип: мы исходим из того, что каждый сотрудник в момент инцидента действовал с хорошими намерениями и принимал оптимальные решения на основе той информации и инструментов, которые у него были.


Как провести правильный Post-Mortem:
— Запрет на слово КТО: Вместо «Кто удалил боевую базу данных?» мы спрашиваем «Какая последовательность действий привела к удалению?» и «Почему система позволила это сделать без подтверждения?».
— Хронология — это база: Соберите точный таймлайн. Во сколько пришел алерт, когда начали чинить, когда восстановили. Только сухие факты из систем мониторинга и рабочих чатов без эмоциональных окрасов.
— План действий: Итогом должен стать список системных задач в трекере. Например: «Настроить права доступа так, чтобы деструктивные команды не работали на проде без апрува второго администратора».


Если за ошибку наказывают, инженеры начинают скрывать проблемы и не зовут на помощь до последнего. В культуре Blameless люди сами приходят и говорят: «Я нашел уязвимый процесс в наших регламентах, давайте закроем дыру, пока не рвануло».

Ваша задача как сисадмина и архитектора — строить отказоустойчивые системы. А самая ненадежная деталь системы — это уставший человек с правами высшего уровня. Защищайте людей от систем, а системы от людей.

#skills #sre #postmortem #management #devops #admin_future
🔥3
🚌 Skills: «Фактор автобуса» — главный риск, о котором молчат сисадмины

Представьте ситуацию: вы единственный, кто знает, как работает связка вашей базы данных, DMZ-зоны и хитрого скрипта очистки логов. А теперь представьте, что вы выиграли в лотерею и улетели на острова без связи. Или, что менее приятно, попали под автобус (отсюда и термин Bus Factor).

Фактор автобуса — это количество людей в команде, которых нужно потерять, чтобы IT-инфраструктура компании полностью встала. Если этот фактор равен единице (только вы), это катастрофа и для бизнеса, и лично для вас.


Почему это вредит лично вам:
— Невозможно уйти в нормальный отпуск. Телефон будет звонить даже на пляже.
— Невозможно пойти на повышение. Вас банально некем заменить на текущем месте, вы стали заложником собственной инфраструктуры.
— Выгорание. Вы несете ответственность за все системы 24 на 7.


Как повышать Bus Factor в 2026 году:
— Пароли: Никаких личных блокнотов и файлов на рабочем столе. Только корпоративный менеджер паролей с доступом для коллег.
— Документация: Описывайте не только «как сделать», но и «почему мы сделали именно так».
— Перекрестное обучение: Возьмите за правило раз в неделю садиться с коллегой и показывать ему одну из ваших систем. Разбирали вчера архитектуру DMZ-сервера? Проведите мини-презентацию для отдела.


Незаменимых людей нет, есть люди, после ухода которых приходится всё перестраивать с нуля. Делитесь знаниями и не будьте узким горлышком своей инфраструктуры.

#skills #management #busfactor #sysadmin #bestpractices #admin_future
🧠 Skills: Бэкап Шредингера — почему ваши резервные копии ничего не стоят

У вас настроены автоматические бэкапы баз данных, конфигураций роутеров выгружаются по расписанию, а виртуалки снепшотятся каждую ночь. Вы молодец, спите спокойно. Но задайте себе один неудобный вопрос: когда вы в последний раз пробовали развернуть инфраструктуру с нуля из этих архивов?

Суровая истина системного администрирования гласит: бэкап, который никогда не восстанавливали — это не бэкап. Это просто дорогой файл, занимающий место на диске.

Что происходит на практике в момент аварии:
Выясняется, что скрипт полгода копировал пустые папки. Пароль от зашифрованного архива знает только бывший сотрудник. Свежая база данных отказывается разворачиваться на старой версии СУБД, а файл с конфигурацией Nginx почему-то вообще не попал в список исключений для бэкапа.

Как лечить:
Внедряйте правило Disaster Recovery Day (День аварийного восстановления). Раз в квартал выделяйте чистый тестовый сервер. Отключайтесь от основной сети и пытайтесь поднять копию критического сервиса, используя исключительно вашу документацию и ночные бэкапы.


Опыт инженера измеряется не умением написать bash-скрипт для архивации, а гарантированным временем (RTO), за которое он способен поднять компанию из пепла. Тестируйте восстановление, пока это можно сделать без паники и седых волос.

#skills #backup #disasterrecovery #management #sysadmin #admin_future
🧠 Skills: Усталость от алертов. Как Zabbix убивает вашу внимательность

Коллеги, если в вашей дежурной группе в Telegram каждый день сыпятся десятки сообщений "CPU Load is > 80%" или "Disk space < 20%", и вы их просто смахиваете, не читая — у вас серьезная проблема. Это называется Alert Fatigue (усталость от предупреждений).

В 2026 году мониторинг не должен быть логом событий. Алерт должен приходить ТОЛЬКО тогда, когда требуется немедленное действие живого человека.

Внедряем правило 3 вопросов для настройки любого триггера:

Это влияет на бизнес прямо сейчас?

Я должен бросить свой кофе и чинить это немедленно?

Если я проигнорирую это до завтрашнего утра, кто-то заметит?

Если хотя бы на один вопрос ответ "Нет" — смело переводим этот триггер в разрез инфо-дашбордов или утренних отчетов. Никаких пуш-уведомлений и красных значков.

Зачем это нужно:
Когда случится настоящий сбой (например, дропнется RAID-массив в проде), вы можете просто пропустить этот критический алерт между пятьюдесятью рядовыми сообщениями о высокой загрузке процессора на тестовом контуре. Тишина в канале мониторинга — это признак здоровой инфраструктуры и здоровой психики администратора.

#skills #monitoring #zabbix #management #sysadmin #admin_future
👍3