Downtime Bar&Grill
Котаны, все по плану, вебинар по блокировкам завтра в 20:00 по Москве, сделали его открытым. Там сейчас зарегано 3 (три) человека. И если завтра на бесплатный вебинар придет меньше людей, чем на платный интенсив, сами понимаете, это будет наше последнее…
Спасибо всем кто заглянул на огонек вебинара! Тайминг конечно же опять поехал и получилось полтора часа вместо часа, но вроде все по делу. Пришли в этот раз конечно не 60 человек как на интенсив, но 30 человек вечером в рабочий день тоже серьезно, спасибо что нашли время, надеюсь было полезно!
Посмотрели как работают длинные транзакции (спойлер:не очень ), как работают блокировки и как получить информацию о дедлоках. Видео как смонтируем выложим, но по времени быстро не ожидайте.
По обратной связи пишите пожалуйста @dagureevaa
Что почитать если только зашел?
1. Что такое SRE
2. Антипаттерны в DevOps и SRE
3. Мониторинг и алертинг
4. Тренды современного IT
5. Что такое Chaos Engineering?
6. Культура взаимодействия между DevOps и SRE
7. Почему падает прод
#события #MySQL #РецептыMysql @downtine_bar
Посмотрели как работают длинные транзакции (спойлер:
По обратной связи пишите пожалуйста @dagureevaa
Что почитать если только зашел?
1. Что такое SRE
2. Антипаттерны в DevOps и SRE
3. Мониторинг и алертинг
4. Тренды современного IT
5. Что такое Chaos Engineering?
6. Культура взаимодействия между DevOps и SRE
7. Почему падает прод
#события #MySQL #РецептыMysql @downtine_bar
❤🔥6🔥6💘3👍1
Почему мониторинг и алертинг — это основа надежной системы. Часть 1.
“Мониторинг и алертинг являются ключевыми элементами обеспечения надежности IT-систем!”. Такой яркий заголовок часто можно встретить в начале любой статьи. Но почему это действительно так важно для любой системы и любого бизнеса?
На самом деле мониторинг это одна из первых линий защиты системы от отказов и залог ее стабильной работы (и особенно высоконагруженной). Именно грамотно настроенный мониторинг позволяет выявить аномалии и потенциальные сбои до того, как они станут критичными (а бизнес придет надавать по шапке) и в некоторых случаях, позволяет отследить девиации и предотвратить инцидент (да-да, практически как в особом мнении и мы не про концовку!).
Не менее важный игрок в этой гонке за девятками – быстрое оповещение (алертинг) об инцидентах, который помогает оперативно реагировать и минимизировать негативное воздействие на пользователей.
Полезная привычка собирать данные о метриках системы и анализировать их позволит понимать, как эта самая система работает в реальных условиях, и своевременно выявлять узкие места. Например, анализ трендов с помощью данных мониторинга, помогает предсказать возможные проблемы, такие как нехватка ресурсов или деградация производительности.
Мониторинг и алертинг выступают надежными товарищами в планировании и соблюдении бюджета ошибок. Получается, что мониторинг и алертинг действительно являются must have-ом для любой компании. Звучит круто, но как это выглядит на практике?
Нужно понимать, что мониторинг не так прост, как кажется. У мониторинга есть разные уровни, каждый из которых вносит свой вклад в создание общей картины системы.
Уровни мониторинга:
Инфраструктурный мониторинг (базовый уровень)
Что мониторится:
🔧 Серверы (CPU, RAM, диск)
🔧 Сети (пропускная способность, потери пакетов, задержки)
🔧 Базы данных (доступность, время выполнения запросов, место на диске)
🔧 Аппаратные компоненты (температура процессоров, состояние жестких дисков)
Цель: убедиться, что все базовые компоненты системы работают корректно
Сервисный мониторинг (средний уровень)
Что мониторится:
🔧 Внутренние метрики сервисов и приложений
🔧 Логи (ошибки, исключения)
🔧 Производительность (время отклика API, успешные/ошибочные запросы)
🔧 Подсистемы приложения (кэш, очереди)
Цель: следить за состоянием работы приложений и сервисов и выявлять проблемы, которые влияют на бизнес-логику
Бизнес-мониторинг (уровень продукта)
Что мониторится:
🔧 Ключевые бизнес-метрики (количество продаж, регистраций, транзакций и др.)
🔧 Пользовательский опыт (метрики конверсии, UX-показатели и др.)
Цель: обеспечить, чтобы бизнес-задачи выполнялись корректно, и понимать влияние технических сбоев на бизнес
Продолжение здесь
#полезныематериалы #SRE @downtime_bar
“Мониторинг и алертинг являются ключевыми элементами обеспечения надежности IT-систем!”. Такой яркий заголовок часто можно встретить в начале любой статьи. Но почему это действительно так важно для любой системы и любого бизнеса?
На самом деле мониторинг это одна из первых линий защиты системы от отказов и залог ее стабильной работы (и особенно высоконагруженной). Именно грамотно настроенный мониторинг позволяет выявить аномалии и потенциальные сбои до того, как они станут критичными (а бизнес придет надавать по шапке) и в некоторых случаях, позволяет отследить девиации и предотвратить инцидент (да-да, практически как в особом мнении и мы не про концовку!).
Не менее важный игрок в этой гонке за девятками – быстрое оповещение (алертинг) об инцидентах, который помогает оперативно реагировать и минимизировать негативное воздействие на пользователей.
Полезная привычка собирать данные о метриках системы и анализировать их позволит понимать, как эта самая система работает в реальных условиях, и своевременно выявлять узкие места. Например, анализ трендов с помощью данных мониторинга, помогает предсказать возможные проблемы, такие как нехватка ресурсов или деградация производительности.
Мониторинг и алертинг выступают надежными товарищами в планировании и соблюдении бюджета ошибок. Получается, что мониторинг и алертинг действительно являются must have-ом для любой компании. Звучит круто, но как это выглядит на практике?
Нужно понимать, что мониторинг не так прост, как кажется. У мониторинга есть разные уровни, каждый из которых вносит свой вклад в создание общей картины системы.
Уровни мониторинга:
Инфраструктурный мониторинг (базовый уровень)
Что мониторится:
Цель: убедиться, что все базовые компоненты системы работают корректно
Сервисный мониторинг (средний уровень)
Что мониторится:
Цель: следить за состоянием работы приложений и сервисов и выявлять проблемы, которые влияют на бизнес-логику
Бизнес-мониторинг (уровень продукта)
Что мониторится:
Цель: обеспечить, чтобы бизнес-задачи выполнялись корректно, и понимать влияние технических сбоев на бизнес
Продолжение здесь
#полезныематериалы #SRE @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤3😁1🤗1
Объявляется Call For Papers по SRE или если по нашинскому - ждем офигительных историй про доступность и отказоустойчивость на конференции, которая состоится в Москве 14-го мая (это будет среда). Где - пока не известно. В каком формате еще не понятно. Но доклады уже принимаются!
О чем хотим послушать? Практический опыт работы с нагруженными, сложными, странными системами и задачами, нетривиальными с какой-то из сторон: инженерия, команды, процессы. Со слайдами, прогонами и прочими орг моментами поможем. Главное - чтобы был опыт, которым готовы поделиться.
Балшит бинго фильтры включены. Писать @vfwork или @dagureevaa
Что еще почитать?
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#события @downtime_bar
О чем хотим послушать? Практический опыт работы с нагруженными, сложными, странными системами и задачами, нетривиальными с какой-то из сторон: инженерия, команды, процессы. Со слайдами, прогонами и прочими орг моментами поможем. Главное - чтобы был опыт, которым готовы поделиться.
Балшит бинго фильтры включены. Писать @vfwork или @dagureevaa
Что еще почитать?
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#события @downtime_bar
🥰4👍3🗿1
Почему мониторинг и алертинг — это основа надежной системы. Часть 2.
Начало здесь
Типы алертинга:
🔧 Реактивный: срабатывает, когда произошел сбой (например, сервер недоступен)
🔧 Прогнозирующий: уведомляет о ситуации, которая может перерасти в проблему (например, заполнение диска на 80%)
🔧 Функциональный: информирует о нарушениях в работе бизнес-функций (например, низкий уровень продаж за час)
🔧 По состоянию (State-based): выявление отклонений от заданных пороговых значений (например, загрузка CPU > 90%)
🔧 По событиям (Event-based): срабатывает при определенном событии, независимо от его продолжительности.
🔧 По аномалиям (Anomaly-based): анализирует отклонения от привычного поведения системы. (резкое увеличение времени ответа базы данных
🔧 Комбинированный: учитывает несколько условий. (алерт при одновременном увеличении CPU > 80% и пропускной способности сети > 90%)
Настройка мониторинга – это тонкий процесс. Для начала нужно определить приоритеты мониторинга, фокусируясь на критически важных компонентах системы.
Настройка алертов должна быть для разных уровней - критических, значительных и низкоприоритетных событий. Важный поинт – при настройке пороговых значений не стоит ставить слишком низкие пороги, если только вы не хотите получить шторм алертов, которые вы будете, как истинный чилл-гай, игнорировать.
Для настройки метрик очень поможет использование исторических данных, чтобы понимать, что нормально для системы в данном конкретном случае и не забываем, что норма может (и будет) меняться и по историческим данным мы можем делать прогнозирование роста и актуализацию значений.
Использование интеграций с системами управления инцидентами (например, OpsGenie, PagerDuty) упростит процесс эскалации. Сделать автоисправление там, где это возможно - сильно экономит время. Если не получилось починить автоматически, то чтобы минимизировать время простоя есть золотое правило: сначала поднимаем, потом разбираемся и исправляем.
Тестирование, тестирование и еще раз тестирование на регулярной основе с использованием мониторинга и побольше. Тестирование также поможет в проверке алертов и их релевантности. И не забываем про своевременное обновление мониторинга при изменениях в системе.
Самое важное - держать команды в курсе:
обучать сотрудников правильной интерпретации метрик и алертов, а также проводить обзоры инцидентов и доносить их итоги до команд для предотвращения повторных сбоев.
Эффективный мониторинг и алертинг обеспечивают оперативное устранение проблем, стратегическое планирование для предотвращения сбоев в будущем, повышение эффективности работы систем, и играют важную роль в защите репутации бизнеса предотвращая или уменьшая время инцидентов. Даже бесплатные решения для мониторинга позволяют не только улучшить производительность, но и снизить затраты на устранение последствий аварий. Не пренебрегайте! C мониторингом жизнь спокойнее и приятнее, чем без)
Что еще почитать?
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#полезныематериалы @downtime_bar
Начало здесь
Типы алертинга:
Настройка мониторинга – это тонкий процесс. Для начала нужно определить приоритеты мониторинга, фокусируясь на критически важных компонентах системы.
Настройка алертов должна быть для разных уровней - критических, значительных и низкоприоритетных событий. Важный поинт – при настройке пороговых значений не стоит ставить слишком низкие пороги, если только вы не хотите получить шторм алертов, которые вы будете, как истинный чилл-гай, игнорировать.
Для настройки метрик очень поможет использование исторических данных, чтобы понимать, что нормально для системы в данном конкретном случае и не забываем, что норма может (и будет) меняться и по историческим данным мы можем делать прогнозирование роста и актуализацию значений.
Использование интеграций с системами управления инцидентами (например, OpsGenie, PagerDuty) упростит процесс эскалации. Сделать автоисправление там, где это возможно - сильно экономит время. Если не получилось починить автоматически, то чтобы минимизировать время простоя есть золотое правило: сначала поднимаем, потом разбираемся и исправляем.
Тестирование, тестирование и еще раз тестирование на регулярной основе с использованием мониторинга и побольше. Тестирование также поможет в проверке алертов и их релевантности. И не забываем про своевременное обновление мониторинга при изменениях в системе.
Самое важное - держать команды в курсе:
обучать сотрудников правильной интерпретации метрик и алертов, а также проводить обзоры инцидентов и доносить их итоги до команд для предотвращения повторных сбоев.
Эффективный мониторинг и алертинг обеспечивают оперативное устранение проблем, стратегическое планирование для предотвращения сбоев в будущем, повышение эффективности работы систем, и играют важную роль в защите репутации бизнеса предотвращая или уменьшая время инцидентов. Даже бесплатные решения для мониторинга позволяют не только улучшить производительность, но и снизить затраты на устранение последствий аварий. Не пренебрегайте! C мониторингом жизнь спокойнее и приятнее, чем без)
Что еще почитать?
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#полезныематериалы @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4❤2👌2
Внезапно догнали вопросы инженерной и производственной культуры.
Бывает так, что компании рушатся и погребают под собой надежды сотрудников на интересные задачи, рост, развитие и стабильность. Особенно это становится актуально в наше время когда общемировой кризис в IT начинает давать о себе знать и ломает карьерные планы.
Многим вынужденным менять работу, особенно вкладывающим все свои силы и время в достижение поставленных руководством целей становится тяжело в моральном смысле. Иногда такие люди продолжают следить за новостями своих "бывших", снова и снова возвращаясь мыслями на старую работу и заново переживая боль расставания. Хочу поделиться опытом своей работы в найме в различных компаниях и различных проектах.
Когда Вы нанимаетесь на работу, Вы получаете от работодателя деньги и некоторые плюшки. Это все что Вам обязан дать работодатель.
Все остальное: крутость проектов, светлота будущего, интересность задач и свежесть технологий это всегда (всегда) неожиданный и приятный бонус, который если повезет Вы получите. А вот получите Вы его или нет иногда даже от работодателя не зависит.
Поэтому если Вы отдали больше сил чем было - время принять ситуацию, зафиксировать полученный опыт, деньги и нервные расстройства, подлечить последние и затем уже на свежую здравую голову принимать решения куда и как идти дальше.
У части компаний есть чаты бывших сотрудников, где все держится только на том, что люди когда-то работали вместе и раз за разом кто-нибудь приносит новости одна другой заковыристее (нет бы нюдсы постить и в баню вместе ходить!), что провоцирует очередной выплеск эмоций от "как хорошо было" до "что б они там все сдохли!". Чем больше Вы читаете или участвуете в таких дискуссиях, тем дольше Вы находитесь в старой обстановке и тем сложнее оторваться от прошедшей ситуации и пойти дальше.
Поэтому моя рекомендация - каждый раз когда хочется написать в такой чат следует помнить: компания без вас это уже другая компания, к вам отношения не имеющая. Поезд, хорошо это или плохо, уже пошел дальше без Вас и догнать его не получится. Нужно фокусироваться на своих задачах и в след ему не смотреть.
Важно помнить, что качество Ваших дальнейших решений будет строго пропорционально свежести и здравости лично Вашей головы. Поэтому отдышаться, отоспаться и дать себе время прийти в себя - самое лучше.
Еще про инженерную культуру
- Как на собесе понять, что в эту компанию тебе не надо
- Зачем нужна инженерная культура
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Что еще почитать?
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Оптимизация и стоимость в сегодняшнем IT
- Эффективность и хайп в IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#производственная_культура @downtime_bar
Бывает так, что компании рушатся и погребают под собой надежды сотрудников на интересные задачи, рост, развитие и стабильность. Особенно это становится актуально в наше время когда общемировой кризис в IT начинает давать о себе знать и ломает карьерные планы.
Многим вынужденным менять работу, особенно вкладывающим все свои силы и время в достижение поставленных руководством целей становится тяжело в моральном смысле. Иногда такие люди продолжают следить за новостями своих "бывших", снова и снова возвращаясь мыслями на старую работу и заново переживая боль расставания. Хочу поделиться опытом своей работы в найме в различных компаниях и различных проектах.
Когда Вы нанимаетесь на работу, Вы получаете от работодателя деньги и некоторые плюшки. Это все что Вам обязан дать работодатель.
Все остальное: крутость проектов, светлота будущего, интересность задач и свежесть технологий это всегда (всегда) неожиданный и приятный бонус, который если повезет Вы получите. А вот получите Вы его или нет иногда даже от работодателя не зависит.
Поэтому если Вы отдали больше сил чем было - время принять ситуацию, зафиксировать полученный опыт, деньги и нервные расстройства, подлечить последние и затем уже на свежую здравую голову принимать решения куда и как идти дальше.
У части компаний есть чаты бывших сотрудников, где все держится только на том, что люди когда-то работали вместе и раз за разом кто-нибудь приносит новости одна другой заковыристее (нет бы нюдсы постить и в баню вместе ходить!), что провоцирует очередной выплеск эмоций от "как хорошо было" до "что б они там все сдохли!". Чем больше Вы читаете или участвуете в таких дискуссиях, тем дольше Вы находитесь в старой обстановке и тем сложнее оторваться от прошедшей ситуации и пойти дальше.
Поэтому моя рекомендация - каждый раз когда хочется написать в такой чат следует помнить: компания без вас это уже другая компания, к вам отношения не имеющая. Поезд, хорошо это или плохо, уже пошел дальше без Вас и догнать его не получится. Нужно фокусироваться на своих задачах и в след ему не смотреть.
Важно помнить, что качество Ваших дальнейших решений будет строго пропорционально свежести и здравости лично Вашей головы. Поэтому отдышаться, отоспаться и дать себе время прийти в себя - самое лучше.
Еще про инженерную культуру
- Как на собесе понять, что в эту компанию тебе не надо
- Зачем нужна инженерная культура
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Что еще почитать?
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Оптимизация и стоимость в сегодняшнем IT
- Эффективность и хайп в IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#производственная_культура @downtime_bar
👍5🔥3🫡2
SLO, SLI и SLA – Разница между ними, примеры использования.
✍️ SLI (Service Level Indicator) — индикатор уровня сервиса.
Что это? SLI — это конкретная метрика, которая измеряет работу сервиса в реальном времени. Это основа для оценки выполнения SLO. Метрики бывают разных уровней - инфраструктурные, сервисные и бизнесовые, про это мы подробнее писали в посте про мониторинг.
Пример:
Метрика доступности сервиса: (Время работы сервиса / Общее время) × 100
(Время работы сервиса / Общее время)×100.
Среднее время ответа API: (Сумма времени ответов) / (Количество запросов)
(Сумма времени ответов) / (Количество запросов).
Где используется? SLI используется для сбора данных о текущей работе сервиса. Эти данные позволяют оценить, соответствует ли работа системы установленным целям или SLO.
✍️ SLO (Service Level Objective) — целевой уровень сервиса (метрики)
Что это? SLO — это конкретная цель или уровень качества, который сервис должен поддерживать. Это числовое значение, выражающее ожидания от работы системы или услуги, обычно заданное в процентах.
Пример:
Веб-приложение должно быть доступно для пользователей 99.95% времени.
Время ответа API должно быть меньше 300 миллисекунд в 95% запросов.
Где используется? SLO помогает управлять приоритетами разработки и эксплуатации, выдерживая баланс между выкаткой новых фичей и сохранением стабильности системы на необходимом заданном уровне. Например, если метрика (SLI) не достигает целевого значения (SLO), это может сигнализировать о необходимости анализа процессов и причин такого отклонения.
В примере выше, момент, когда метрика доступности системы уходит ниже значения 99.95%, является поводом найти причины отказов и пересмотреть некоторые процессы, становившиеся причинами падений. SLO также является базой для расчета и выполнения SLA.
✍️ SLA (Service Level Agreement) — формальное соглашение об уровне сервиса
Что это? SLA — это формальное соглашение между поставщиком услуги и клиентом, в котором прописаны ожидаемые уровни качества и обязательства обеих сторон. SLA часто включает штрафные санкции за невыполнение условий.
Пример:
Поставщик облачного хранилища гарантирует 99.9% доступности. Интернет-провайдер обязуется устранять сбои в течение 4 часов с момента заявки. Если доступность падает ниже 99.9%, клиенту возвращается часть оплаты.
Где используется? SLA используется как юридически или формально обязательное соглашение между сторонами. Оно прописывает ожидания между клиентами и поставщиками.
Взаимосвязь:
SLI измеряет фактическую производительность (например: доступность).
SLO задаёт целевое значение метрики (например, 99.95% доступности).
SLA устанавливает формальные обязательства на основе SLO (например, штрафы за доступность ниже 99.95%).
Когда использовать?
SLI: Когда вам нужно определить ключевые показатели для отслеживания состояния сервиса.
SLO: Чтобы установить цели для внутреннего контроля и качества.
SLA: Для официальных договорённостей и документов.
Эти понятия помогают управлять качеством сервисов и минимизировать риски, как для поставщиков, так и для клиентов. Более полно про SLA, SLO и SLI можно почитать в канале по тегу #SRE и в книгах.
Куда еще заглянуть?
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#полезныематериалы #SRE @downtime_bar
Что это? SLI — это конкретная метрика, которая измеряет работу сервиса в реальном времени. Это основа для оценки выполнения SLO. Метрики бывают разных уровней - инфраструктурные, сервисные и бизнесовые, про это мы подробнее писали в посте про мониторинг.
Пример:
Метрика доступности сервиса: (Время работы сервиса / Общее время) × 100
(Время работы сервиса / Общее время)×100.
Среднее время ответа API: (Сумма времени ответов) / (Количество запросов)
(Сумма времени ответов) / (Количество запросов).
Где используется? SLI используется для сбора данных о текущей работе сервиса. Эти данные позволяют оценить, соответствует ли работа системы установленным целям или SLO.
Что это? SLO — это конкретная цель или уровень качества, который сервис должен поддерживать. Это числовое значение, выражающее ожидания от работы системы или услуги, обычно заданное в процентах.
Пример:
Веб-приложение должно быть доступно для пользователей 99.95% времени.
Время ответа API должно быть меньше 300 миллисекунд в 95% запросов.
Где используется? SLO помогает управлять приоритетами разработки и эксплуатации, выдерживая баланс между выкаткой новых фичей и сохранением стабильности системы на необходимом заданном уровне. Например, если метрика (SLI) не достигает целевого значения (SLO), это может сигнализировать о необходимости анализа процессов и причин такого отклонения.
В примере выше, момент, когда метрика доступности системы уходит ниже значения 99.95%, является поводом найти причины отказов и пересмотреть некоторые процессы, становившиеся причинами падений. SLO также является базой для расчета и выполнения SLA.
Что это? SLA — это формальное соглашение между поставщиком услуги и клиентом, в котором прописаны ожидаемые уровни качества и обязательства обеих сторон. SLA часто включает штрафные санкции за невыполнение условий.
Пример:
Поставщик облачного хранилища гарантирует 99.9% доступности. Интернет-провайдер обязуется устранять сбои в течение 4 часов с момента заявки. Если доступность падает ниже 99.9%, клиенту возвращается часть оплаты.
Где используется? SLA используется как юридически или формально обязательное соглашение между сторонами. Оно прописывает ожидания между клиентами и поставщиками.
Взаимосвязь:
SLI измеряет фактическую производительность (например: доступность).
SLO задаёт целевое значение метрики (например, 99.95% доступности).
SLA устанавливает формальные обязательства на основе SLO (например, штрафы за доступность ниже 99.95%).
Когда использовать?
SLI: Когда вам нужно определить ключевые показатели для отслеживания состояния сервиса.
SLO: Чтобы установить цели для внутреннего контроля и качества.
SLA: Для официальных договорённостей и документов.
Эти понятия помогают управлять качеством сервисов и минимизировать риски, как для поставщиков, так и для клиентов. Более полно про SLA, SLO и SLI можно почитать в канале по тегу #SRE и в книгах.
Куда еще заглянуть?
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#полезныематериалы #SRE @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5❤2⚡1😱1 1
Маленький шаг для человечества, большой шаг для человека: @dagureevaa собрала маленькую историю наших уютных встреч с вами и теперь мы готовы поделиться радостью со всеми!
Теперь у нас есть отдельная страничка на сайте:
http://fournines.ru/about
В ближайших планах еще несколько встреч:
- конференция 14 мая в Москве на которую мы принимаем доклады.
- offline встреча по SRE, которую мы еще не объявили, но готовим и скоро анонсируем.
- online встречи и даже (даже!) квиз!
Напишите темы, о которых Вам бы хотелось узнать больше или просто поговорить за чашечкой чая.
А еще у Даши недавно был День Рождения, накидайте ей сердечек пожалуйста!
#события @downtime_bar
Теперь у нас есть отдельная страничка на сайте:
http://fournines.ru/about
В ближайших планах еще несколько встреч:
- конференция 14 мая в Москве на которую мы принимаем доклады.
- offline встреча по SRE, которую мы еще не объявили, но готовим и скоро анонсируем.
- online встречи и даже (даже!) квиз!
Напишите темы, о которых Вам бы хотелось узнать больше или просто поговорить за чашечкой чая.
А еще у Даши недавно был День Рождения, накидайте ей сердечек пожалуйста!
#события @downtime_bar
fournines.ru
О нас
1❤17❤🔥3🔥1👏1
Вы тут сидите и не знаете, а @dagureevaa написала статью про инц. менеджмент и опубликовала на хабре
#SRE @downtime_bar
#SRE @downtime_bar
Хабр
Руководство по проведению постмортемов. Как правильно разбирать инциденты для улучшения стабильности в будущем
Согласно определению postmortem – это процедура, посмертное вскрытие и исследование тела, обычно с целью установить причину смерти. Не очень приятное описание, но очень полезная практика, благодаря...
1❤8😱3👌1
По результатам интенсива по MySQL прилетают вопросы. По возможности будем на них отвечать.
Первый пошел: Хочу двигать свою профессиональную карьеру в сторону дба. Куда двигаться, с чего начать? Где образовываться?
Как и во всех остальных направлениях все просто: чем больше Вы с технологией работаете, в чем больших ситуациях ее работу наблюдали и чем больше разнообразных проблем решали, тем лучше Вы эту технологию будете знать.
Для хорошего старта нужен проект на начальной стадии, с которым Вы будете расти как специалист вместе со сложностью задач. Идеально, если рядом с Вами будет кто-то кто знает технологию лучше Вас и готов делиться знаниями. Такое не всегда бывает, поэтому на помощь приходят статьи, книги, вебинары и конференции.
Из книг и материалов могу порекомендовать:
1. MySQL. Сборник рецептов. 4-е издание
2. MySQL по максимуму. 4-е издание
3. Лекции по PostgreSQL DBA1 и DBA2 в независимости от того какую БД вы собираетесь использовать
Самое главное что нужно помнить - ни одна теория не сделает Вас специалистом без практики, а практика показывает, что само по себе администрирование баз данных выходит далеко за пределы этих самых данных баз.
Если раньше достаточно было развернуть кластер и сконфигурировать ноды, то сейчас необходимо уметь обеспечить корректную работу с базами со стороны приложений, балансировать нагрузку и общаться с командами разработки и эксплуатации для обучения последних тонкостям работы с нагруженными БД. Тоесть и в программирование чуть-чуть уметь и с точки зрения эксплуатации представлять как будет работать база например в кубере. Или на виртуалке. Или на ржавой железке. И как это все протестировать, что бы понять как оно будет до развертывания в проде.
Идеально погружаться с различную проблематику связанную с базами данных, побывав в разных проектах и дотащив их до высоких нагрузок.
Ну и еще можно приходить к нам на встречи и вебинары, где мы делимся практическим опытом и рассказываем о граблях на которые наступали мы, что бы Ваш путь к быстрому проду был чуть-чуть проще и приятнее.
P.S. пока верстался этот текст пришла информация о том, что локация и залы конференции LinkMeetUp в Москве, где мы делаем SRE трек - утверждены. И про базы там тоже будет, так что бронируйте время, увидимся offline, подробности напишем в отдельном посте.
Что еще почитать?
- Базовая настройка MySQL
- Настройка транзакционного лога InnoDB в #MySQL
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#MySQL @downtime_bar
Первый пошел: Хочу двигать свою профессиональную карьеру в сторону дба. Куда двигаться, с чего начать? Где образовываться?
Как и во всех остальных направлениях все просто: чем больше Вы с технологией работаете, в чем больших ситуациях ее работу наблюдали и чем больше разнообразных проблем решали, тем лучше Вы эту технологию будете знать.
Для хорошего старта нужен проект на начальной стадии, с которым Вы будете расти как специалист вместе со сложностью задач. Идеально, если рядом с Вами будет кто-то кто знает технологию лучше Вас и готов делиться знаниями. Такое не всегда бывает, поэтому на помощь приходят статьи, книги, вебинары и конференции.
Из книг и материалов могу порекомендовать:
1. MySQL. Сборник рецептов. 4-е издание
2. MySQL по максимуму. 4-е издание
3. Лекции по PostgreSQL DBA1 и DBA2 в независимости от того какую БД вы собираетесь использовать
Самое главное что нужно помнить - ни одна теория не сделает Вас специалистом без практики, а практика показывает, что само по себе администрирование баз данных выходит далеко за пределы этих самых данных баз.
Если раньше достаточно было развернуть кластер и сконфигурировать ноды, то сейчас необходимо уметь обеспечить корректную работу с базами со стороны приложений, балансировать нагрузку и общаться с командами разработки и эксплуатации для обучения последних тонкостям работы с нагруженными БД. Тоесть и в программирование чуть-чуть уметь и с точки зрения эксплуатации представлять как будет работать база например в кубере. Или на виртуалке. Или на ржавой железке. И как это все протестировать, что бы понять как оно будет до развертывания в проде.
Идеально погружаться с различную проблематику связанную с базами данных, побывав в разных проектах и дотащив их до высоких нагрузок.
Ну и еще можно приходить к нам на встречи и вебинары, где мы делимся практическим опытом и рассказываем о граблях на которые наступали мы, что бы Ваш путь к быстрому проду был чуть-чуть проще и приятнее.
P.S. пока верстался этот текст пришла информация о том, что локация и залы конференции LinkMeetUp в Москве, где мы делаем SRE трек - утверждены. И про базы там тоже будет, так что бронируйте время, увидимся offline, подробности напишем в отдельном посте.
Что еще почитать?
- Базовая настройка MySQL
- Настройка транзакционного лога InnoDB в #MySQL
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#MySQL @downtime_bar
🔥9❤1😱1🤗1
Коллеги, прошу обратить внимание, что фраза "ну было и было" не является корректным выводом в расследовании вчерашнего даунтайма.
#memes @downtime_bar
#memes @downtime_bar
🤣11😁4
Сделали для вас новую подборку литературы по мотивам последних постов – ниже вы найдете полезные и интересные книги на тему мониторинга и инцидент-менеджмента. А чтобы вам было еще приятнее, собрали все эти книги в PDF формате в комментариях!
Мониторинг:
👀 The Art of Monitoring / James Turnbull
Отличная книга для тех, кто хочет построить комплексную систему мониторинга с использованием современных инструментов, таких как Grafana, Prometheus и ELK
👀 Monitoring Distributed Systems / Cindy Sridharan
Краткое, но ёмкое руководство по мониторингу распределённых систем. Фокус на подходах к проектированию мониторинга, а не только на инструментах
👀 Observability Engineering / Charity Majors, Liz Fong-Jones, George Miranda
Одна из самых современных книг по теме. Рассматривает принципы построения систем мониторинга для сложных распределённых приложений
Инцидент-менеджмент:
🔥 Seeking SRE: Conversations About Running Production Systems at Scale / David N. Blank-Edelman
Сборник эссе и интервью с инженерами SRE со всего мира. Затрагиваются темы управления инцидентами, культурных аспектов и организационных практик
🔥 Incident Management for Operations / Rob Schnepp, Ron Vidal, Chris Hawley
Руководство по методологии управления инцидентами. Подходит как для ИТ-команд, так и для кризисного менеджмента в более широком смысле
🔥 The Practice of Cloud System Administration / Thomas A. Limoncelli, Strata R. Chalup, Christina J. Hogan
Хотя книга охватывает множество аспектов системного администрирования, в ней есть отличные главы, посвящённые управлению инцидентами и операционным процедурам
🔥 Incident Response & Computer Forensics / Jason Luttgens, Matthew Pepe, Kevin Mandia
Книга более ориентирована на безопасность, но многие принципы управления инцидентами применимы и к ИТ-инфраструктуре
Что еще почитать?
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
#полезныематериалы #книги @downtime_bar
Мониторинг:
Отличная книга для тех, кто хочет построить комплексную систему мониторинга с использованием современных инструментов, таких как Grafana, Prometheus и ELK
Краткое, но ёмкое руководство по мониторингу распределённых систем. Фокус на подходах к проектированию мониторинга, а не только на инструментах
Одна из самых современных книг по теме. Рассматривает принципы построения систем мониторинга для сложных распределённых приложений
Инцидент-менеджмент:
Сборник эссе и интервью с инженерами SRE со всего мира. Затрагиваются темы управления инцидентами, культурных аспектов и организационных практик
Руководство по методологии управления инцидентами. Подходит как для ИТ-команд, так и для кризисного менеджмента в более широком смысле
Хотя книга охватывает множество аспектов системного администрирования, в ней есть отличные главы, посвящённые управлению инцидентами и операционным процедурам
Книга более ориентирована на безопасность, но многие принципы управления инцидентами применимы и к ИТ-инфраструктуре
Что еще почитать?
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
#полезныематериалы #книги @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥6❤4🤗1
Forwarded from Ажаль | Емец Станислав (Stanislav V. Emets)
Вот так сейчас выглядит ноутбук на Эльбрус 2с3 от компании Промобит.
🔥4
Forwarded from linkmeup
Вы удивитесь, но в команду @Night_Snake опять требуются архитекторы. Куда он дел старых - не признаётся, только загадочно улыбается (на самом деле всё просто - работы становится всё больше, и команда активно растёт).
Ищет двух архитекторов. Одного с уклоном в серверную часть, второго - в сети.
Описание тут. Вопросы можно задавать в личку. Про вилки-ложки тоже в личку.
Чем предстоит заниматься?
- рисовать HLD/LLD
- общаться с заказчиками (продуктовыми командами)
- составлять инструкции для ДЦ-инженеров
- составлять спеки для закупщиков
- вести документацию
Что спросят на собеседовании?
- опыт проектирования, составления дизайн-документов (HLD/LLD)
- знания "железа": серверы/сетевое/схд и т.д. Что для каких задач выбрать, почему да, почему нет
- опыт проектирование сетей в дата-центрах - выбор архитектуры, подбор оборудования
- опыт работы с дата-центрами, операторами связи, сервис-провайдерами - составление ТЗ, опросники, чеклисты
Большим бонусом будет умение в питон, опыт и желание заниматься автоматизацией.
Удалёнка или офис/гибрид в Москве (м. Авиамоторная).
Можно откликаться на hh или присылать резюме @Night_Snake напрямую.
Ищет двух архитекторов. Одного с уклоном в серверную часть, второго - в сети.
Описание тут. Вопросы можно задавать в личку. Про вилки-ложки тоже в личку.
Чем предстоит заниматься?
- рисовать HLD/LLD
- общаться с заказчиками (продуктовыми командами)
- составлять инструкции для ДЦ-инженеров
- составлять спеки для закупщиков
- вести документацию
Что спросят на собеседовании?
- опыт проектирования, составления дизайн-документов (HLD/LLD)
- знания "железа": серверы/сетевое/схд и т.д. Что для каких задач выбрать, почему да, почему нет
- опыт проектирование сетей в дата-центрах - выбор архитектуры, подбор оборудования
- опыт работы с дата-центрами, операторами связи, сервис-провайдерами - составление ТЗ, опросники, чеклисты
Большим бонусом будет умение в питон, опыт и желание заниматься автоматизацией.
Удалёнка или офис/гибрид в Москве (м. Авиамоторная).
Можно откликаться на hh или присылать резюме @Night_Snake напрямую.
hh.ru
Вакансия Системный архитектор в Москве, работа в компании EdgeЦентр (вакансия в архиве c 25 февраля 2025)
Зарплата: не указана. Москва. Требуемый опыт: 3–6 лет. Полная. Дата публикации: 25.02.2025.
🥰4❤1👍1
А вот и Синицын ищет в свой озоновский локальный ад с кафками главного истопника техлида.
#вакансии @downtime_bar
#вакансии @downtime_bar
Telegram
Синицын, бл🤬
Друзья, я опять с вакансией
Мне нужен руководитель команды Operations. Не, даже не так. Мне нужен охереть какой крутой лид в команду опсов.
Я отдаю себе отчет, что человека, которого я ищу, на свободном рынке просто нет, такие люди не выходят в поиск, они…
Мне нужен руководитель команды Operations. Не, даже не так. Мне нужен охереть какой крутой лид в команду опсов.
Я отдаю себе отчет, что человека, которого я ищу, на свободном рынке просто нет, такие люди не выходят в поиск, они…
1😱5❤🔥2❤1🔥1
https://habr.com/ru/articles/881952/
#полезныематериалы #сказки @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
Хабр
Движение данных, уровни сетей и веб-серверы на примере «Алисы в Стране чудес»
“Я не сумасшедший, просто моя реальность отличается от вашей!” - “Алиса в Стране Чудес” Льюис Кэрролл Глава 1. Движение данных в сети Передача данных по сети — это процесс, в котором информация...
2❤4🔥2😍1🏆1
Всем привет!
Вот только что у нас вместе со слермом прошло открытие серии вебинаров про DevOps о том как из junior стать middle и что такое вообще middle. Получилось больше не про DevOps, а про эксплуатацию в целом, но вопросов было много.
Поговорили о том как должен выглядеть хороший джун и миддл - и чем один отличается от другого, обсудили эйджизм в сторону джунов, потравили анекдоты, поделились болью эксплуатации (да-да шутки про пятничный деплой) и наконец-то узнали сколько стоит миллион зимбабвийских долларов (спойлер:292 076,46 ₽ ).
Как это было: https://www.youtube.com/watch?v=rljZVNlTBqA
Спасибо всем кто зашел на огонек, получилось лампово. Если у кого-то остались вопросы или они вдруг появились - пишите, на все ответим!
Что еще почитать?
Про инженерную культуру (говорили на вебинаре)
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#события @downtime_bar
Вот только что у нас вместе со слермом прошло открытие серии вебинаров про DevOps о том как из junior стать middle и что такое вообще middle. Получилось больше не про DevOps, а про эксплуатацию в целом, но вопросов было много.
Поговорили о том как должен выглядеть хороший джун и миддл - и чем один отличается от другого, обсудили эйджизм в сторону джунов, потравили анекдоты, поделились болью эксплуатации (да-да шутки про пятничный деплой) и наконец-то узнали сколько стоит миллион зимбабвийских долларов (спойлер:
Как это было: https://www.youtube.com/watch?v=rljZVNlTBqA
Спасибо всем кто зашел на огонек, получилось лампово. Если у кого-то остались вопросы или они вдруг появились - пишите, на все ответим!
Что еще почитать?
Про инженерную культуру (говорили на вебинаре)
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?
Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE
#события @downtime_bar
❤5🔥3😁1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги, компания FourNines.ru активно развивается день ото дня и вводит новые, но, как нам кажется, очень востребованные услуги в сфере информационных технологий на B2B маркете!
С сегодняшнего дня мы предоставляем:
- Расклады на инцидент
- Расстановки на масштабирование
- Тета хилинг для скрама
- Аффирмации перед релизами
- Хрустальные шары (два)
- Марафоны желаний с вашим проджект менеджером
Отдельно предоставляется услуга саунд хиллинга по результатам инцидента. Услуга доступна online, для проведения достаточно гарнитуры и зума. В экстренных случаях используем яндекс телемост.
Все услуги проводятся коучами с мировыми именами, экспертность которых доказана сотнями инцидентов с их непосредственным участием. Закажите услугу в FourNines.ru сейчас и получите подготовленный запрос ко вселенной в подарок!
P.S. Не знаю кто из бывших коллег сделал эту гифку, но я поржал, спасибо!!
#запрос#во#вселенную #третийглаз #пятоеколесо #полезныематериалы @downtime_bar
С сегодняшнего дня мы предоставляем:
- Расклады на инцидент
- Расстановки на масштабирование
- Тета хилинг для скрама
- Аффирмации перед релизами
- Хрустальные шары (два)
- Марафоны желаний с вашим проджект менеджером
Отдельно предоставляется услуга саунд хиллинга по результатам инцидента. Услуга доступна online, для проведения достаточно гарнитуры и зума. В экстренных случаях используем яндекс телемост.
Все услуги проводятся коучами с мировыми именами, экспертность которых доказана сотнями инцидентов с их непосредственным участием. Закажите услугу в FourNines.ru сейчас и получите подготовленный запрос ко вселенной в подарок!
P.S. Не знаю кто из бывших коллег сделал эту гифку, но я поржал, спасибо!!
#запрос#во#вселенную #третийглаз #пятоеколесо #полезныематериалы @downtime_bar
2🤣9🔥2🆒2❤1❤🔥1
Опрос (анонимно, конфиденциально): Как у вас дела с бекапами?
Anonymous Poll
7%
Нет бекапов
37%
Где-то были
23%
Бекапы делаем, регулярно проводим тестовые восстановления
10%
Есть бекапы, проверки, есть DRP (Disaster Recovery Plan)
23%
Я банан!
План восстановления при катастрофе: DRP. Часть 1
🔥 Что такое DRP?
Disaster Recovery Plan (DRP) – это комплексная стратегия и набор технических решений для восстановления IT-инфраструктуры и данных после катастрофы, аварии или кибератаки. DRP позволяет минимизировать время простоя бизнеса, сократить финансовые потери и обеспечить бесперебойную работу критически важных систем.
🔥 Цели DRP
С момента как общество шагнуло из постиндустриальной в информационную эру, видоизменилось все сферы жизни общества – в том числе и экономика. Новые экономические условия заставили бизнес подстраиваться под запросы времени. Порог входа на рынок в индустриальном обществе был достаточно высоким – необходимо было иметь базовые средства на открытие своего магазина, рекламу, производство, материалы и сопутствующие расходы.
С появлением онлайн торговли стоимость выхода на рынок снизилась, появилась возможность создать свое маленькое онлайн-пространство в виде сайта и получить прибыль и гордый статус предпринимателя. Увеличивающаяся востребованность интернета заставила бизнес взглянуть в сторону онлайн-торговли. При этом высокая доступность выхода на рынок повысила конкуренцию среди продавцов и увеличила количество предложений для покупателей. Чтобы привлечь внимание покупателя, бизнес был вынужден придумывать все новые формы рекламы, повышать доступность своих сервисов, делать процесс покупок все более привлекательным и комфортным.
Сейчас покупатель находится в самом привилегированном положении за всю историю – все сервисы: магазины, банки, сайты, приложения, доставки, такси, любой контент доступны 24 часа в сутки 7 дней в неделю. Бизнес получил до этого невообразимую возможность продавать вне рамок районов, городов, регионов и государств. География, объемы и интенсивность продаж выросла в разы.
Бизнес разных уровней расцвел в онлайн-пространстве, но как мы знаем, с великой силой приходит великая ответственность. Ведь теперь, когда час недоступности может стоить миллионы, груз ответственности становится в миллион раз тяжелее.
Здесь в игру вступает проактивный подход. Отказ – это просто вопрос времени. Любая система, даже (особенно) если она очень дорогая и кажется вам невероятно надежной, рано или поздно упадет. Чем больше компонентов, чем сложнее ваша система – тем выше риск отказа одной или даже нескольких ее частей.
Если отказ неизбежен, то возникает резонный вопрос: что можно сделать, чтобы снизить его эффект? Один из вариантов решения этой проблемы – это Disaster Recovery Plan (DRP).
Главной целью DRP является минимизация простоя бизнеса в случае краха системы при форс-мажоре. Для бизнеса отказ системы или ее компонентов, который влияет на функциональность сервиса – это всегда потерянная прибыль. DRP – это про готовность и умение работать с рисками.
DRP помогает нам обеспечить бесперебойность работы критически важных компонентов и сократить финансовые потери из-за даунтайма.
Второй целью создания DRP является сохранность данных. В современных реалиях мало успеть быстро подняться, нужно сохранить информацию при аварии или быстро восстановить актуальные данные. В противном случае мы рискуем продолжить терять деньги и авторитет в глазах пользователей.
К сожалению, информационное пространство не отличается безопасностью. В интернете полно причин бояться за здоровье своей системы начиная от кибератак и заканчивая вирусами. Наличие DRP помогает спать чуть более крепко, зная, что в случае нападения какой-либо жути, у нас есть план Б.
🔥 Основные принципы DRP
⚪️ Минимизация времени простоя – оперативное восстановление систем
⚪️ Приоритет критических сервисов – сначала восстанавливаются ключевые системы
⚪️ Гибкость – адаптация плана к разным типам угроз
⚪️ Автоматизация – использование скриптов и резервных систем
⚪️ Регулярное тестирование – постоянная проверка работоспособности плана
⚪️ Соответствие нормативным требованиям – выполнение требований законодательства
Продолжение: часть 2
#полезныематериалы #DRP @downtime_bar
Disaster Recovery Plan (DRP) – это комплексная стратегия и набор технических решений для восстановления IT-инфраструктуры и данных после катастрофы, аварии или кибератаки. DRP позволяет минимизировать время простоя бизнеса, сократить финансовые потери и обеспечить бесперебойную работу критически важных систем.
С момента как общество шагнуло из постиндустриальной в информационную эру, видоизменилось все сферы жизни общества – в том числе и экономика. Новые экономические условия заставили бизнес подстраиваться под запросы времени. Порог входа на рынок в индустриальном обществе был достаточно высоким – необходимо было иметь базовые средства на открытие своего магазина, рекламу, производство, материалы и сопутствующие расходы.
С появлением онлайн торговли стоимость выхода на рынок снизилась, появилась возможность создать свое маленькое онлайн-пространство в виде сайта и получить прибыль и гордый статус предпринимателя. Увеличивающаяся востребованность интернета заставила бизнес взглянуть в сторону онлайн-торговли. При этом высокая доступность выхода на рынок повысила конкуренцию среди продавцов и увеличила количество предложений для покупателей. Чтобы привлечь внимание покупателя, бизнес был вынужден придумывать все новые формы рекламы, повышать доступность своих сервисов, делать процесс покупок все более привлекательным и комфортным.
Сейчас покупатель находится в самом привилегированном положении за всю историю – все сервисы: магазины, банки, сайты, приложения, доставки, такси, любой контент доступны 24 часа в сутки 7 дней в неделю. Бизнес получил до этого невообразимую возможность продавать вне рамок районов, городов, регионов и государств. География, объемы и интенсивность продаж выросла в разы.
Бизнес разных уровней расцвел в онлайн-пространстве, но как мы знаем, с великой силой приходит великая ответственность. Ведь теперь, когда час недоступности может стоить миллионы, груз ответственности становится в миллион раз тяжелее.
Здесь в игру вступает проактивный подход. Отказ – это просто вопрос времени. Любая система, даже (особенно) если она очень дорогая и кажется вам невероятно надежной, рано или поздно упадет. Чем больше компонентов, чем сложнее ваша система – тем выше риск отказа одной или даже нескольких ее частей.
Если отказ неизбежен, то возникает резонный вопрос: что можно сделать, чтобы снизить его эффект? Один из вариантов решения этой проблемы – это Disaster Recovery Plan (DRP).
Главной целью DRP является минимизация простоя бизнеса в случае краха системы при форс-мажоре. Для бизнеса отказ системы или ее компонентов, который влияет на функциональность сервиса – это всегда потерянная прибыль. DRP – это про готовность и умение работать с рисками.
DRP помогает нам обеспечить бесперебойность работы критически важных компонентов и сократить финансовые потери из-за даунтайма.
Второй целью создания DRP является сохранность данных. В современных реалиях мало успеть быстро подняться, нужно сохранить информацию при аварии или быстро восстановить актуальные данные. В противном случае мы рискуем продолжить терять деньги и авторитет в глазах пользователей.
К сожалению, информационное пространство не отличается безопасностью. В интернете полно причин бояться за здоровье своей системы начиная от кибератак и заканчивая вирусами. Наличие DRP помогает спать чуть более крепко, зная, что в случае нападения какой-либо жути, у нас есть план Б.
Продолжение: часть 2
#полезныематериалы #DRP @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥6👍4❤🔥2💋1🤝1