Timeweb Cloud Alerts
15.5K subscribers
1 photo
17 links
Краткие оповещения о работе сервисов Клауда в реалтайме ⚡️

Новости: @timewebru
Комьюнити: @twcloud_chat
Медиа: @twc_media
Ченжлог: @twc_changelog
Download Telegram
Timeweb Cloud Alerts
🛑 Возникли технические неполадки во время проведения работ с базой данных. В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
Работа сервисов, созданных до начала инцидента, полностью восстановлена.

Было задето: 3927 аккаунтов
Даунтайм: с 20:05 по 22:45 мск

Сейчас мы фокусируемся на том, чтобы вернуть возможность создания новых ресурсов и поправить отображение баланса.

Инженеры продолжают работу до полного устранения неполадок. Разбор инцидента будет отдельно.
😱3622🎉7🔥5🙏5😢4👏1
Timeweb Cloud Alerts
🛑 Возникли технические неполадки во время проведения работ с базой данных. В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
Вернули корректное отображение баланса в панели управления.

Создание новых сервисов и изменение конфигурации текущих работают в штатном режиме.
🔥32👏12😢7👍6🎉62🙏2
Timeweb Cloud Alerts
Вернули корректное отображение баланса в панели управления. Создание новых сервисов и изменение конфигурации текущих работают в штатном режиме.
Разбор инцидента с балансами и блокировкой аккаунтов 4 мая

Что произошло
4 мая во время плановых работ с базой данных возникла техническая ошибка. В 19:45 мск была запущена миграция, которая из-за асинхронного выполнения в продакшн-среде привела к некорректному отображению балансов.

Последствия
В 20:00 система биллинга зафиксировала «нулевые балансы» и автоматически инициировала блокировку аккаунтов за неуплату. Автоматика приостановила процесс на отметке ~4500 аккаунтов.

Статус
К 5 мая в 00:36 мск все аккаунты разблокированы, корректность балансов восстановлена.

Всем затронутым пользователям будет начислена индивидуальная компенсация в ближайшее время.

Что меняем
Биллинг переводится в режим техосблуживания на время плановых и аварийных работ — отменяются любые блокирующие действия с аккаунтами. Также изменили пороговые значения для ложных блокировок и добавили временной лаг между решением и фактической блокировкой.
🔥103👍50🙏219🎉7😱6😢5❤‍🔥3👌3👏2
🛑Проблема с сетевой доступностью
Зоны: ams-1
Тип: ❗️ Major

Зафиксирована недоступность части сервисов в зоне ams-1. Инженеры изучают масштаб затронутых компонентов и работают над восстановлением.

Следующий апдейт — через 30 минут.
😱134😢73🔥12🙏95👏4🎉4👍2
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Подтверждённая причина — проблемы с электропитанием в дата-центре. Для дальнейших действий по восстановлению необходима диагностика оборудования на месте: инженер уже выехал на площадку, ожидаемое прибытие — в течение часа.

Следующий апдейт — в течение 2 часов.
😢247😱70🙏3011🎉5👏4👌4❤‍🔥3🔥3
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

После прибытия инженера на площадку и проведённой диагностики электропитания работы по восстановлению были запущены. На текущий момент фиксируем положительную динамику — доступность сервисов в зоне ams-1 начала восстанавливаться.

Продолжаем контролировать ситуацию на месте. Следующий апдейт — через час.
👍79😱31😢29🔥21🎉1210🙏8❤‍🔥1👌1
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

На текущий момент восстановлено около 85% виртуальных машин в зоне ams-1. По оставшимся нодам ведётся индивидуальный разбор: инженеры диагностируют причины, по которым они не вернулись в работу автоматически после восстановления электропитания, и поэтапно вводят их в строй.

Следующий апдейт — через час.
🔥53😢25👍218🙏8🎉4😱3
Инцидент закрыт
Зоны: ams-1
Тип: ❗️ Major

Все оставшиеся VDS дозапущены в ручном режиме — количество запущенных виртуальных машин вернулось к доаварийным значениям. Сервисы в зоне ams-1 работают штатно, инфраструктура стабилизирована.

Подробный постмортем с разбором причин опубликуем отдельно.
103👍34😢18🔥17🎉15👏1
Сегодня c 15:00 до 18:00 мск на стороне дата-центра Qupra в Нидерландах проводятся аварийные работы — специалисты площадки апгрейдят систему охлаждения машинных залов.

Это реакция на инцидент 23 мая, тогда из-за жаркой погоды в Амстердаме произошла авария по электропитанию — система кондиционирования не справилась, и был обесточен машинный зал, поэтому наша инфраструктура в это время была недоступна.

Работы проводят инженеры дата-центра. На это время по их запросу мы снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная недоступность отдельных сервисов.

Держим связь с площадкой и следим за ситуацией. Сообщим, как появится новая информация.
😢78👌48👍16😱118🙏7🎉5👏3🔥1
🛑 Сетевая недоступность в Нидерландах
Зоны: ams-1
Тип: ❗️ Major

Сегодня в дата-центре Qupra в Нидерландах повторно зафиксирован инцидент с электропитанием — второй за последнюю неделю после сбоя 23 мая. Часть оборудования в зоне ams-1 в моменте недоступна.

Восстановление электропитания находится в зоне ответственности площадки. Наши инженеры на постоянной связи с командой дата-центра, отслеживают ход работ и готовы немедленно приступить к запуску инфраструктуры сразу после подачи питания.

Сообщим, как появится новая информация.
👏77😱53😢42🔥53👍3🎉2
Timeweb Cloud Alerts
🛑 Сетевая недоступность в Нидерландах Зоны: ams-1 Тип: ❗️ Major Сегодня в дата-центре Qupra в Нидерландах повторно зафиксирован инцидент с электропитанием — второй за последнюю неделю после сбоя 23 мая. Часть оборудования в зоне ams-1 в моменте недоступна.…
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Наблюдаются проблемы с системой охлаждения. Часть оборудования в зоне ams-1 в моменте недоступна, аффект на 7% нод в локации.

По запросу дата-центра снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная недоступность отдельных сервисов.

Следующий апдейт дадим через 1 час.
😢62👌10👏53🔥3😱2🎉2
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Возникла проблема с доступностью коммутаторов в нескольких стойках. В инциденте затронуты еще 34 ноды.

Ожидаем информацию от инженеров дата-центра по времени восстановления.

Следующий апдейт дадим через 1 час.
😱61😢39👏8🔥52👌2
Timeweb Cloud Alerts
⚠️ Обновление по инциденту Зоны: ams-1 Тип: ❗️ Major Возникла проблема с доступностью коммутаторов в нескольких стойках. В инциденте затронуты еще 34 ноды. Ожидаем информацию от инженеров дата-центра по времени восстановления. Следующий апдейт дадим…
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Инженеры дата-центра сейчас запускают систему охлаждения и параллельно подключают резервные контуры для снижения температуры в машинном зале. Более подробной информации от площадки пока нет.

Часть оборудования в зоне ams-1 по-прежнему недоступна. Со своей стороны держим связь с инженерами дата-центра и готовы запустить инфраструктуру сразу после стабилизации температуры в зале.

Следующее обновление — через час.
😢3513🙏12😱9👏7🔥3👌3👍2
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Температура в машинном зале дата-центра снижается, серверы постепенно запускаются.

Следующий апдейт в течение часа.
❤‍🔥3110👍9🔥5😢4😱1🎉1👌1
Timeweb Cloud Alerts
⚠️ Обновление по инциденту Зоны: ams-1 Тип: ❗️ Major Температура в машинном зале дата-центра снижается, серверы постепенно запускаются. Следующий апдейт в течение часа.
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Коммутаторы во всех стойках запущены в работу, большая часть серверов снова доступны. 19 нод не запустились автоматически после отключения, инженеры запускают их в ручном режиме.

Следующий апдейт будет по итогам запуска оставшихся нод.
👍24😢16🔥64😱1
🛑 Сетевая недоступность в Нидерландах
Зоны: ams-1
Тип: ❗️ Major

Фиксируем повторный инцидент на системе кондиционирования в дата-центре Qupra в Нидерландах.

По запросу дата-центра снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная недоступность отдельных сервисов.

Следующий апдейт через час.
😢162👏67😱47🎉13👍11❤‍🔥4🔥42👌2
Timeweb Cloud Alerts
🛑 Сетевая недоступность в Нидерландах Зоны: ams-1 Тип: ❗️ Major Фиксируем повторный инцидент на системе кондиционирования в дата-центре Qupra в Нидерландах. По запросу дата-центра снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная…
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Система охлаждение в машинном зале в эту минуту полностью выключилась. Инженеры дата-центра занимаются перезапуском чиллеров. Для предотвращения потери данных и выхода из строя оборудования принято решение временно обесточить все стойки.

Ориентировочное время восстановления охлаждения в дата-центре Qupra — около 1 часа, затем потребуется время на постепенный запуск стоек. Сроки могут увеличиться — будем держать в курсе.

Следующее обновление — через час или раньше, если изменится статус.
😢212😱77👏23🔥19🎉11👍6❤‍🔥32🙏1
Timeweb Cloud Alerts
⚠️ Обновление по инциденту Зоны: ams-1 Тип: ❗️ Major Система охлаждение в машинном зале в эту минуту полностью выключилась. Инженеры дата-центра занимаются перезапуском чиллеров. Для предотвращения потери данных и выхода из строя оборудования принято решение…
⚠️ Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major

Продолжаются восстановительные работы на системе кондиционирования в дата-центре Qupra. Привлечены дополнительные инженеры.

Следующее обновление — через час или раньше, если изменится статус.
😱89😢65👏18🔥8👍6🎉3🙏32