Downtime Bar&Grill
863 subscribers
202 photos
5 videos
4 files
160 links
SRE, DevOps, базы данных, надежность, стабильность и SLA.

Уронил прод? Добро пожаловать! Обсуждаем решения, прожариваем идеи.

Посты по тегам #SRE #DevOps #MySQL и #полезныематериалы
Download Telegram
Downtime Bar&Grill
Котаны, все по плану, вебинар по блокировкам завтра в 20:00 по Москве, сделали его открытым. Там сейчас зарегано 3 (три) человека. И если завтра на бесплатный вебинар придет меньше людей, чем на платный интенсив, сами понимаете, это будет наше последнее…
Спасибо всем кто заглянул на огонек вебинара! Тайминг конечно же опять поехал и получилось полтора часа вместо часа, но вроде все по делу. Пришли в этот раз конечно не 60 человек как на интенсив, но 30 человек вечером в рабочий день тоже серьезно, спасибо что нашли время, надеюсь было полезно!

Посмотрели как работают длинные транзакции (спойлер: не очень), как работают блокировки и как получить информацию о дедлоках. Видео как смонтируем выложим, но по времени быстро не ожидайте.

По обратной связи пишите пожалуйста @dagureevaa

Что почитать если только зашел?
1. Что такое SRE
2. Антипаттерны в DevOps и SRE
3. Мониторинг и алертинг
4. Тренды современного IT
5. Что такое Chaos Engineering?
6. Культура взаимодействия между DevOps и SRE
7. Почему падает прод

#события #MySQL #РецептыMysql @downtine_bar
❤‍🔥6🔥6💘3👍1
Почему мониторинг и алертинг — это основа надежной системы. Часть 1.
 
“Мониторинг и алертинг являются ключевыми элементами обеспечения надежности IT-систем!”. Такой яркий заголовок часто можно встретить в начале любой статьи. Но почему это действительно так важно для любой системы и любого бизнеса?

На самом деле мониторинг это одна из первых линий защиты системы от отказов и залог ее стабильной работы (и особенно высоконагруженной). Именно грамотно настроенный мониторинг позволяет выявить аномалии и потенциальные сбои до того, как они станут критичными (а бизнес придет надавать по шапке) и в некоторых случаях, позволяет отследить девиации и предотвратить инцидент (да-да, практически как в особом мнении и мы не про концовку!).

Не менее важный игрок в этой гонке за девятками – быстрое оповещение (алертинг) об инцидентах, который помогает оперативно реагировать и минимизировать негативное воздействие на пользователей.

Полезная привычка собирать данные о метриках системы и анализировать их позволит понимать, как эта самая система работает в реальных условиях, и своевременно выявлять узкие места. Например, анализ трендов с помощью данных мониторинга, помогает предсказать возможные проблемы, такие как нехватка ресурсов или деградация производительности.

Мониторинг и алертинг выступают надежными товарищами в планировании и соблюдении бюджета ошибок. Получается, что мониторинг и алертинг действительно являются must have-ом для любой компании. Звучит круто, но как это выглядит на практике?

Нужно понимать, что мониторинг не так прост, как кажется. У мониторинга есть разные уровни, каждый из которых вносит свой вклад в создание общей картины системы.

Уровни мониторинга:

Инфраструктурный мониторинг (базовый уровень)

Что мониторится:

🔧Серверы (CPU, RAM, диск)
🔧Сети (пропускная способность, потери пакетов, задержки)
🔧Базы данных (доступность, время выполнения запросов, место на диске)
🔧Аппаратные компоненты (температура процессоров, состояние жестких дисков)

Цель: убедиться, что все базовые компоненты системы работают корректно


Сервисный мониторинг (средний уровень)

Что мониторится:

🔧Внутренние метрики сервисов и приложений
🔧Логи (ошибки, исключения)
🔧Производительность (время отклика API, успешные/ошибочные запросы)
🔧Подсистемы приложения (кэш, очереди)

Цель: следить за состоянием работы приложений и сервисов и выявлять проблемы, которые влияют на бизнес-логику


Бизнес-мониторинг (уровень продукта)

Что мониторится:

🔧Ключевые бизнес-метрики (количество продаж, регистраций, транзакций и др.)
🔧Пользовательский опыт (метрики конверсии, UX-показатели и др.)

Цель: обеспечить, чтобы бизнес-задачи выполнялись корректно, и понимать влияние технических сбоев на бизнес

Продолжение здесь

#полезныематериалы #SRE @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53😁1🤗1
Объявляется Call For Papers по SRE или если по нашинскому - ждем офигительных историй про доступность и отказоустойчивость на конференции, которая состоится в Москве 14-го мая (это будет среда). Где - пока не известно. В каком формате еще не понятно. Но доклады уже принимаются!

О чем хотим послушать? Практический опыт работы с нагруженными, сложными, странными системами и задачами, нетривиальными с какой-то из сторон: инженерия, команды, процессы. Со слайдами, прогонами и прочими орг моментами поможем. Главное - чтобы был опыт, которым готовы поделиться.

Балшит бинго фильтры включены. Писать @vfwork или @dagureevaa

Что еще почитать?
Про инженерную культуру
-
Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании

Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE


#события @downtime_bar
🥰4👍3🗿1
Почему мониторинг и алертинг — это основа надежной системы. Часть 2.

Начало здесь

Типы алертинга:
🔧Реактивный: срабатывает, когда произошел сбой (например, сервер недоступен)

🔧Прогнозирующий: уведомляет о ситуации, которая может перерасти в проблему (например, заполнение диска на 80%)

🔧Функциональный: информирует о нарушениях в работе бизнес-функций (например, низкий уровень продаж за час)

🔧По состоянию (State-based): выявление отклонений от заданных пороговых значений (например, загрузка CPU > 90%)

🔧По событиям (Event-based): срабатывает при определенном событии, независимо от его продолжительности.

🔧По аномалиям (Anomaly-based): анализирует отклонения от привычного поведения системы. (резкое увеличение времени ответа базы данных

🔧Комбинированный: учитывает несколько условий. (алерт при одновременном увеличении CPU > 80% и пропускной способности сети > 90%)

Настройка мониторинга – это тонкий процесс. Для начала нужно определить приоритеты мониторинга, фокусируясь на критически важных компонентах системы.

Настройка алертов должна быть для разных уровней - критических, значительных и низкоприоритетных событий. Важный поинт – при настройке пороговых значений не стоит ставить слишком низкие пороги, если только вы не хотите получить шторм алертов, которые вы будете, как истинный чилл-гай, игнорировать.

Для настройки метрик очень поможет использование исторических данных, чтобы понимать, что нормально для системы в данном конкретном случае и не забываем, что норма может (и будет) меняться и по историческим данным мы можем делать прогнозирование роста и актуализацию значений.

Использование интеграций с системами управления инцидентами (например, OpsGenie, PagerDuty) упростит процесс эскалации. Сделать автоисправление там, где это возможно - сильно экономит время. Если не получилось починить автоматически, то чтобы минимизировать время простоя есть золотое правило: сначала поднимаем, потом разбираемся и исправляем.

Тестирование, тестирование и еще раз тестирование на регулярной основе с использованием мониторинга и побольше. Тестирование также поможет в проверке алертов и их релевантности. И не забываем про своевременное обновление мониторинга при изменениях в системе.

Самое важное - держать команды в курсе:
обучать сотрудников правильной интерпретации метрик и алертов, а также проводить обзоры инцидентов и доносить их итоги до команд для предотвращения повторных сбоев.

Эффективный мониторинг и алертинг обеспечивают оперативное устранение проблем, стратегическое планирование для предотвращения сбоев в будущем, повышение эффективности работы систем, и играют важную роль в защите репутации бизнеса предотвращая или уменьшая время инцидентов. Даже бесплатные решения для мониторинга позволяют не только улучшить производительность, но и снизить затраты на устранение последствий аварий. Не пренебрегайте! C мониторингом жизнь спокойнее и приятнее, чем без)

Что еще почитать?
Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании

Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Мониторинг и алертинг
- Тренды современного IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

#полезныематериалы @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42👌2
Внезапно догнали вопросы инженерной и производственной культуры.

Бывает так, что компании рушатся и погребают под собой надежды сотрудников на интересные задачи, рост, развитие и стабильность. Особенно это становится актуально в наше время когда общемировой кризис в IT начинает давать о себе знать и ломает карьерные планы.

Многим вынужденным менять работу, особенно вкладывающим все свои силы и время в достижение поставленных руководством целей становится тяжело в моральном смысле. Иногда такие люди продолжают следить за новостями своих "бывших", снова и снова возвращаясь мыслями на старую работу и заново переживая боль расставания. Хочу поделиться опытом своей работы в найме в различных компаниях и различных проектах.

Когда Вы нанимаетесь на работу, Вы получаете от работодателя деньги и некоторые плюшки. Это все что Вам обязан дать работодатель.

Все остальное: крутость проектов, светлота будущего, интересность задач и свежесть технологий это всегда (всегда) неожиданный и приятный бонус, который если повезет Вы получите. А вот получите Вы его или нет иногда даже от работодателя не зависит.

Поэтому если Вы отдали больше сил чем было - время принять ситуацию, зафиксировать полученный опыт, деньги и нервные расстройства, подлечить последние и затем уже на свежую здравую голову принимать решения куда и как идти дальше.

У части компаний есть чаты бывших сотрудников, где все держится только на том, что люди когда-то работали вместе и раз за разом кто-нибудь приносит новости одна другой заковыристее (нет бы нюдсы постить и в баню вместе ходить!), что провоцирует очередной выплеск эмоций от "как хорошо было" до "что б они там все сдохли!". Чем больше Вы читаете или участвуете в таких дискуссиях, тем дольше Вы находитесь в старой обстановке и тем сложнее оторваться от прошедшей ситуации и пойти дальше.

Поэтому моя рекомендация - каждый раз когда хочется написать в такой чат следует помнить: компания без вас это уже другая компания, к вам отношения не имеющая. Поезд, хорошо это или плохо, уже пошел дальше без Вас и догнать его не получится. Нужно фокусироваться на своих задачах и в след ему не смотреть.

Важно помнить, что качество Ваших дальнейших решений будет строго пропорционально свежести и здравости лично Вашей головы. Поэтому отдышаться, отоспаться и дать себе время прийти в себя - самое лучше.

Еще про инженерную культуру
- Как на собесе понять, что в эту компанию тебе не надо
- Зачем нужна инженерная культура
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании

Что еще почитать?
Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- Оптимизация и стоимость в сегодняшнем IT
- Эффективность и хайп в IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

#производственная_культура @downtime_bar
👍5🔥3🫡2
SLO, SLI и SLA – Разница между ними, примеры использования.
 
✍️ SLI (Service Level Indicator) — индикатор уровня сервиса.

Что это? SLI — это конкретная метрика, которая измеряет работу сервиса в реальном времени. Это основа для оценки выполнения SLO. Метрики бывают разных уровней - инфраструктурные, сервисные и бизнесовые, про это мы подробнее писали в посте про мониторинг.

Пример:
Метрика доступности сервиса: (Время работы сервиса / Общее время) × 100
(Время работы сервиса / Общее время)×100.
Среднее время ответа API: (Сумма времени ответов) / (Количество запросов)
(Сумма времени ответов) / (Количество запросов).

Где используется? SLI используется для сбора данных о текущей работе сервиса. Эти данные позволяют оценить, соответствует ли работа системы установленным целям или SLO.
 

✍️ SLO (Service Level Objective) — целевой уровень сервиса (метрики)

Что это? SLO — это конкретная цель или уровень качества, который сервис должен поддерживать. Это числовое значение, выражающее ожидания от работы системы или услуги, обычно заданное в процентах.

Пример:
Веб-приложение должно быть доступно для пользователей 99.95% времени.
Время ответа API должно быть меньше 300 миллисекунд в 95% запросов.

Где используется? SLO помогает управлять приоритетами разработки и эксплуатации, выдерживая баланс между выкаткой новых фичей и сохранением стабильности системы на необходимом заданном уровне. Например, если метрика (SLI) не достигает целевого значения (SLO), это может сигнализировать о необходимости анализа процессов и причин такого отклонения.

В примере выше, момент, когда метрика доступности системы уходит ниже значения 99.95%, является поводом найти причины отказов и пересмотреть некоторые процессы, становившиеся причинами падений. SLO также является базой для расчета и выполнения SLA.

 
✍️ SLA (Service Level Agreement) — формальное соглашение об уровне сервиса

Что это? SLA — это формальное соглашение между поставщиком услуги и клиентом, в котором прописаны ожидаемые уровни качества и обязательства обеих сторон. SLA часто включает штрафные санкции за невыполнение условий.

Пример:
Поставщик облачного хранилища гарантирует 99.9% доступности. Интернет-провайдер обязуется устранять сбои в течение 4 часов с момента заявки. Если доступность падает ниже 99.9%, клиенту возвращается часть оплаты.

Где используется? SLA используется как юридически или формально обязательное соглашение между сторонами. Оно прописывает ожидания между клиентами и поставщиками.
 
Взаимосвязь:
SLI измеряет фактическую производительность (например: доступность).
SLO задаёт целевое значение метрики (например, 99.95% доступности).
SLA устанавливает формальные обязательства на основе SLO (например, штрафы за доступность ниже 99.95%).
 
Когда использовать?
SLI: Когда вам нужно определить ключевые показатели для отслеживания состояния сервиса.
SLO: Чтобы установить цели для внутреннего контроля и качества.
SLA: Для официальных договорённостей и документов.

Эти понятия помогают управлять качеством сервисов и минимизировать риски, как для поставщиков, так и для клиентов. Более полно про SLA, SLO и SLI можно почитать в канале по тегу #SRE и в книгах.

Куда еще заглянуть?
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

#полезныематериалы #SRE @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥521😱11
Маленький шаг для человечества, большой шаг для человека: @dagureevaa собрала маленькую историю наших уютных встреч с вами и теперь мы готовы поделиться радостью со всеми!
Теперь у нас есть отдельная страничка на сайте:
http://fournines.ru/about

В ближайших планах еще несколько встреч:
- конференция 14 мая в Москве на которую мы принимаем доклады.
- offline встреча по SRE, которую мы еще не объявили, но готовим и скоро анонсируем.
- online встречи и даже (даже!) квиз!

Напишите темы, о которых Вам бы хотелось узнать больше или просто поговорить за чашечкой чая.

А еще у Даши недавно был День Рождения, накидайте ей сердечек пожалуйста!

#события @downtime_bar
117❤‍🔥3🔥1👏1
По результатам интенсива по MySQL прилетают вопросы. По возможности будем на них отвечать.

Первый пошел: Хочу двигать свою профессиональную карьеру в сторону дба. Куда двигаться, с чего начать? Где образовываться?

Как и во всех остальных направлениях все просто: чем больше Вы с технологией работаете, в чем больших ситуациях ее работу наблюдали и чем больше разнообразных проблем решали, тем лучше Вы эту технологию будете знать.

Для хорошего старта нужен проект на начальной стадии, с которым Вы будете расти как специалист вместе со сложностью задач. Идеально, если рядом с Вами будет кто-то кто знает технологию лучше Вас и готов делиться знаниями. Такое не всегда бывает, поэтому на помощь приходят статьи, книги, вебинары и конференции.

Из книг и материалов могу порекомендовать:
1. MySQL. Сборник рецептов. 4-е издание

2. MySQL по максимуму. 4-е издание

3. Лекции по PostgreSQL DBA1 и DBA2 в независимости от того какую БД вы собираетесь использовать

Самое главное что нужно помнить - ни одна теория не сделает Вас специалистом без практики, а практика показывает, что само по себе администрирование баз данных выходит далеко за пределы этих самых данных баз.

Если раньше достаточно было развернуть кластер и сконфигурировать ноды, то сейчас необходимо уметь обеспечить корректную работу с базами со стороны приложений, балансировать нагрузку и общаться с командами разработки и эксплуатации для обучения последних тонкостям работы с нагруженными БД. Тоесть и в программирование чуть-чуть уметь и с точки зрения эксплуатации представлять как будет работать база например в кубере. Или на виртуалке. Или на ржавой железке. И как это все протестировать, что бы понять как оно будет до развертывания в проде.

Идеально погружаться с различную проблематику связанную с базами данных, побывав в разных проектах и дотащив их до высоких нагрузок.

Ну и еще можно приходить к нам на встречи и вебинары, где мы делимся практическим опытом и рассказываем о граблях на которые наступали мы, что бы Ваш путь к быстрому проду был чуть-чуть проще и приятнее.

P.S. пока верстался этот текст пришла информация о том, что локация и залы конференции LinkMeetUp в Москве, где мы делаем SRE трек - утверждены. И про базы там тоже будет, так что бронируйте время, увидимся offline, подробности напишем в отдельном посте.

Что еще почитать?
- Базовая настройка MySQL
- Настройка транзакционного лога InnoDB в #MySQL

Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

#MySQL @downtime_bar
🔥91😱1🤗1
Коллеги, прошу обратить внимание, что фраза "ну было и было" не является корректным выводом в расследовании вчерашнего даунтайма.

#memes @downtime_bar
🤣11😁4
Сделали для вас новую подборку литературы по мотивам последних постов – ниже вы найдете полезные и интересные книги на тему мониторинга и инцидент-менеджмента. А чтобы вам было еще приятнее, собрали все эти книги в PDF формате в комментариях!

Мониторинг:

👀 The Art of Monitoring / James Turnbull
Отличная книга для тех, кто хочет построить комплексную систему мониторинга с использованием современных инструментов, таких как Grafana, Prometheus и ELK

👀 Monitoring Distributed Systems / Cindy Sridharan
Краткое, но ёмкое руководство по мониторингу распределённых систем. Фокус на подходах к проектированию мониторинга, а не только на инструментах

👀 Observability Engineering / Charity Majors, Liz Fong-Jones, George Miranda
Одна из самых современных книг по теме. Рассматривает принципы построения систем мониторинга для сложных распределённых приложений


Инцидент-менеджмент:

🔥 Seeking SRE: Conversations About Running Production Systems at Scale / David N. Blank-Edelman
Сборник эссе и интервью с инженерами SRE со всего мира. Затрагиваются темы управления инцидентами, культурных аспектов и организационных практик

🔥 Incident Management for Operations / Rob Schnepp, Ron Vidal, Chris Hawley
Руководство по методологии управления инцидентами. Подходит как для ИТ-команд, так и для кризисного менеджмента в более широком смысле

🔥 The Practice of Cloud System Administration / Thomas A. Limoncelli, Strata R. Chalup, Christina J. Hogan
Хотя книга охватывает множество аспектов системного администрирования, в ней есть отличные главы, посвящённые управлению инцидентами и операционным процедурам

🔥 Incident Response & Computer Forensics / Jason Luttgens, Matthew Pepe, Kevin Mandia
Книга более ориентирована на безопасность, но многие принципы управления инцидентами применимы и к ИТ-инфраструктуре

Что еще почитать?

Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

Про инженерную культуру
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании

#полезныематериалы #книги @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥64🤗1
Forwarded from Ажаль | Емец Станислав (Stanislav V. Emets)
Вот так сейчас выглядит ноутбук на Эльбрус 2с3 от компании Промобит.
🔥4
Forwarded from linkmeup
Вы удивитесь, но в команду @Night_Snake опять требуются архитекторы. Куда он дел старых - не признаётся, только загадочно улыбается (на самом деле всё просто - работы становится всё больше, и команда активно растёт).

Ищет двух архитекторов. Одного с уклоном в серверную часть, второго - в сети.
Описание тут. Вопросы можно задавать в личку. Про вилки-ложки тоже в личку.

Чем предстоит заниматься?

- рисовать HLD/LLD
- общаться с заказчиками (продуктовыми командами)
- составлять инструкции для ДЦ-инженеров
- составлять спеки для закупщиков
- вести документацию


Что спросят на собеседовании?
- опыт проектирования, составления дизайн-документов (HLD/LLD)
- знания "железа": серверы/сетевое/схд и т.д. Что для каких задач выбрать, почему да, почему нет
- опыт проектирование сетей в дата-центрах - выбор архитектуры, подбор оборудования
- опыт работы с дата-центрами, операторами связи, сервис-провайдерами - составление ТЗ, опросники, чеклисты

Большим бонусом будет умение в питон, опыт и желание заниматься автоматизацией.


Удалёнка или офис/гибрид в Москве (м. Авиамоторная).
Можно откликаться на hh или присылать резюме @Night_Snake напрямую.
🥰41👍1
Всем привет!

Вот только что у нас вместе со слермом прошло открытие серии вебинаров про DevOps о том как из junior стать middle и что такое вообще middle. Получилось больше не про DevOps, а про эксплуатацию в целом, но вопросов было много.

Поговорили о том как должен выглядеть хороший джун и миддл - и чем один отличается от другого, обсудили эйджизм в сторону джунов, потравили анекдоты, поделились болью эксплуатации (да-да шутки про пятничный деплой) и наконец-то узнали сколько стоит миллион зимбабвийских долларов (спойлер: 292 076,46 ₽).

Как это было: https://www.youtube.com/watch?v=rljZVNlTBqA

Спасибо всем кто зашел на огонек, получилось лампово. Если у кого-то остались вопросы или они вдруг появились - пишите, на все ответим!

Что еще почитать?

Про инженерную культуру (говорили на вебинаре)
- Зачем нужна инженерная культура
- Как на собесе понять, что в эту компанию тебе не надо
- Индикаторы упадка компании
- Можно ли в одиночку поменять культуру в компании

Про SRE и отказоустойчивость
- Почему падает прод?
- Что такое SRE?
- IT: эффективность и хайп
- Оптимизация и стоимость в сегодняшнем IT
- Что такое Chaos Engineering?

Как делать и как не делать
- Мониторинг и алертинг
- Антипаттерны в DevOps и SRE
- Культура взаимодействия между DevOps и SRE

#события @downtime_bar
5🔥3😁1👌1
This media is not supported in your browser
VIEW IN TELEGRAM
Коллеги, компания FourNines.ru активно развивается день ото дня и вводит новые, но, как нам кажется, очень востребованные услуги в сфере информационных технологий на B2B маркете!

С сегодняшнего дня мы предоставляем:
- Расклады на инцидент
- Расстановки на масштабирование
- Тета хилинг для скрама
- Аффирмации перед релизами
- Хрустальные шары (два)
- Марафоны желаний с вашим проджект менеджером

Отдельно предоставляется услуга саунд хиллинга по результатам инцидента. Услуга доступна online, для проведения достаточно гарнитуры и зума. В экстренных случаях используем яндекс телемост.

Все услуги проводятся коучами с мировыми именами, экспертность которых доказана сотнями инцидентов с их непосредственным участием. Закажите услугу в FourNines.ru сейчас и получите подготовленный запрос ко вселенной в подарок!

P.S. Не знаю кто из бывших коллег сделал эту гифку, но я поржал, спасибо!!

#запрос#во#вселенную #третийглаз #пятоеколесо #полезныематериалы @downtime_bar
2🤣9🔥2🆒21❤‍🔥1
Нас триста!
🔥13❤‍🔥1🥰1👏1🤡1
План восстановления при катастрофе: DRP. Часть 1

🔥Что такое DRP?

Disaster Recovery Plan (DRP) – это комплексная стратегия и набор технических решений для восстановления IT-инфраструктуры и данных после катастрофы, аварии или кибератаки. DRP позволяет минимизировать время простоя бизнеса, сократить финансовые потери и обеспечить бесперебойную работу критически важных систем.

🔥Цели DRP

С момента как общество шагнуло из постиндустриальной в информационную эру, видоизменилось все сферы жизни общества – в том числе и экономика. Новые экономические условия заставили бизнес подстраиваться под запросы времени. Порог входа на рынок в индустриальном обществе был достаточно высоким – необходимо было иметь базовые средства на открытие своего магазина, рекламу, производство, материалы и сопутствующие расходы.

С появлением онлайн торговли стоимость выхода на рынок снизилась, появилась возможность создать свое маленькое онлайн-пространство в виде сайта и получить прибыль и гордый статус предпринимателя. Увеличивающаяся востребованность интернета заставила бизнес взглянуть в сторону онлайн-торговли. При этом высокая доступность выхода на рынок повысила конкуренцию среди продавцов и увеличила количество предложений для покупателей. Чтобы привлечь внимание покупателя, бизнес был вынужден придумывать все новые формы рекламы, повышать доступность своих сервисов, делать процесс покупок все более привлекательным и комфортным.

Сейчас покупатель находится в самом привилегированном положении за всю историю – все сервисы: магазины, банки, сайты, приложения, доставки, такси, любой контент доступны 24 часа в сутки 7 дней в неделю. Бизнес получил до этого невообразимую возможность продавать вне рамок районов, городов, регионов и государств. География, объемы и интенсивность продаж выросла в разы.

Бизнес разных уровней расцвел в онлайн-пространстве, но как мы знаем, с великой силой приходит великая ответственность. Ведь теперь, когда час недоступности может стоить миллионы, груз ответственности становится в миллион раз тяжелее.

Здесь в игру вступает проактивный подход. Отказ – это просто вопрос времени. Любая система, даже (особенно) если она очень дорогая и кажется вам невероятно надежной, рано или поздно упадет. Чем больше компонентов, чем сложнее ваша система – тем выше риск отказа одной или даже нескольких ее частей.
Если отказ неизбежен, то возникает резонный вопрос: что можно сделать, чтобы снизить его эффект? Один из вариантов решения этой проблемы – это Disaster Recovery Plan (DRP).

Главной целью DRP является минимизация простоя бизнеса в случае краха системы при форс-мажоре. Для бизнеса отказ системы или ее компонентов, который влияет на функциональность сервиса – это всегда потерянная прибыль. DRP – это про готовность и умение работать с рисками.

DRP помогает нам обеспечить бесперебойность работы критически важных компонентов и сократить финансовые потери из-за даунтайма.

Второй целью создания DRP является сохранность данных. В современных реалиях мало успеть быстро подняться, нужно сохранить информацию при аварии или быстро восстановить актуальные данные. В противном случае мы рискуем продолжить терять деньги и авторитет в глазах пользователей.

К сожалению, информационное пространство не отличается безопасностью. В интернете полно причин бояться за здоровье своей системы начиная от кибератак и заканчивая вирусами. Наличие DRP помогает спать чуть более крепко, зная, что в случае нападения какой-либо жути, у нас есть план Б.

🔥Основные принципы DRP

⚪️Минимизация времени простоя – оперативное восстановление систем
⚪️Приоритет критических сервисов – сначала восстанавливаются ключевые системы
⚪️Гибкость – адаптация плана к разным типам угроз
⚪️Автоматизация – использование скриптов и резервных систем
⚪️Регулярное тестирование – постоянная проверка работоспособности плана
⚪️Соответствие нормативным требованиям – выполнение требований законодательства

Продолжение: часть 2

#полезныематериалы #DRP @downtime_bar
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥6👍4❤‍🔥2💋1🤝1