Timeweb Cloud Alerts
15.6K subscribers
1 photo
17 links
Краткие оповещения о работе сервисов Клауда в реалтайме ⚡️

Новости: @timewebru
Комьюнити: @twcloud_chat
Медиа: @twc_media
Ченжлог: @twc_changelog
Download Telegram
Timeweb Cloud Alerts
🛑 Наблюдаются трудности в работе панели управления. Инженеры восстанавливают работу. Ориентировочное время решения проблемы — 10 минут.
Работа панели управления восстановлена.

При выполнении плановых работ на служебных сервисах возникла непредвиденная ошибка.
👍206❤‍🔥5🎉1
🛑 Фиксируем волну DDoS на локации Нидерланды и Казахстан, но может влиять и на остальные локации. Возможны перебои в доступности сайта и отдельных сервисов.
😢140😱39🎉14🙏7❤‍🔥3🔥21👍1
🛑 Фиксируем волну DDoS.
Возможны перебои в доступности сайта и отдельных сервисов.
😱70😢49🎉103🔥2❤‍🔥1🙏1
Timeweb Cloud Alerts
🛑 Фиксируем волну DDoS. Возможны перебои в доступности сайта и отдельных сервисов.
Атака затрагивает локации Нидерланды и Казахстан.
Атакованные подсети заведены под защиту — из-за этого возможны временные просадки скорости и доступности сервисов.

Если сервисы недоступны — обращайтесь в поддержку.

Upd. Оптимизировали правила, доступность до сервисов должна восстановиться.
🎉34😱12👌10🔥3😢32👍1🙏1
Timeweb Cloud Alerts
🛑 Фиксируем волну DDoS. Возможны перебои в доступности сайта и отдельных сервисов.
Доступность большинства сетей восстановлена.

Атака полностью отражена в 22:21 мск.
44👍20😢9❤‍🔥8🔥5🎉1🙏1👌1
Timeweb Cloud Alerts
Соединение стабильно, проблемы не наблюдаются. Ожидаем результаты официального расследования подрядчика. Итоги опубликуем в этом канале.
Разбор сетевого инцидента 10 февраля во Франкфурте

В дата-центре партнера сработала пожарная сигнализация из-за возгорания на одном из узлов — это привело к аварийному отключению электропитания всего здания. Доступ к оборудованию был закрыт примерно на 2 часа: партнер проводил расследование на своей стороне.

После восстановления доступа часть инфраструктуры запустили сразу, но некоторые критичные компоненты из-за длительного обесточивания вышли из строя и потребовали замены. После замены оборудования все сервисы заработали в штатном режиме.

Партнер обозначил меры со своей стороны. Мы тоже делаем выводы и прорабатываем дополнительные сценарии на случай подобных ситуаций.
😱66👍4116🔥10👌4😢2🎉1
🛑 Недоступность части серверов в локации МСК

Во время плановых работ на одной стойке в дата-центре возникла аварийная ситуация. Часть серверов, расположенных в локации МСК, может работать с перебоями или быть недоступны с 14:55 мск.

Инженеры занимаются восстановлением работы серверов, ориентировочно потребуется до 30 минут.
😢54😱14❤‍🔥6🎉5🙏5👏4🔥21👌1
Timeweb Cloud Alerts
🛑 Недоступность части серверов в локации МСК Во время плановых работ на одной стойке в дата-центре возникла аварийная ситуация. Часть серверов, расположенных в локации МСК, может работать с перебоями или быть недоступны с 14:55 мск. Инженеры занимаются…
В процессе восстановления доступности нод не удалось примонтировать систему хранения.

Инженеры проводят перенос виртуальных машин на другие ноды для восстановления доступности. На работы потребуется дополнительное время, от 30 до 60 минут.
😢56🙏15😱10🔥4❤‍🔥3🎉3👏1
Timeweb Cloud Alerts
Начали процесс восстановления виртуальных серверов в порядке очереди. Миграция не потребовалась.
В процессе восстановления доступности серверов инженеры столкнулись с каскадом неполадок, восстановление происходит в ручном режиме, подключена вся команда инженеров.

Больше половины виртуальных машин с 17 затронутых нод уже запущены, работы на завершающей стадии.
😢54🙏19😱12👏65🔥3🎉3❤‍🔥1
Timeweb Cloud Alerts
Работа серверов восстановлена.
Отчет об инциденте в инфраструктуре Timeweb Cloud 24.03.2026

Таймлайн (время московское):

14:45 — обнаружение проблем с доступностью виртуальных машин на узлах kvmnvm-867, kvmnvm-886.
14:55 — начало аварийно-восстановительных работ (АВР). Зафиксирована проблема еще на 15 нодах, ноды выведены из регистрации и балансировки.
15:30 — диагностика подтвердила сетевой сбой, в результате которого гипервизор не запускался из-за блокировки части дисков виртуальных машин на сетевом хранилище.
16:00–20:25 — поэтапное ручное восстановление ВМ силами дежурных инженеров и команды cloud-инфраструктуры.
21:26 — массовое снятие локов для сегмента VDS.
22:05 — восстановление штатной работы сервисов. Инцидент закрыт.

Технический анализ:

Первопричиной стал флап сети, который вызвал каскадную проблему на уровне гипервизоров. Специфика работы протоколов доступа к СХД такова, что при таком сбое сетевая сессия может не закрыться корректно. В результате СХД продолжает считать, что данные используются «старым» гипервизором, и блокирует доступ для «нового». Автоматика в данном случае оказалась бессильна, так как требовалось подтверждение целостности данных перед форсированным снятием блокировки.


Работа над ошибками:

1. Сейчас мы работаем над инструментом, который позволит автоматизировано сбрасывать локи на СХД при подтверждении падения гипервизора.

2. Настроены дополнительные алерты на аномальное количество ошибок I/O на уровне гипервизоров для более раннего обнаружения подобных проблем.

3. В планах — изменение композиции архитектуры с учетом вскрывшихся технических ограничений, направленное на стабилизацию работы гипервизоров и автоматизацию аварийного восстановления клиентских нагрузок в сценариях отказа.
80👏40👍26😱7🔥5🙏5❤‍🔥4
🛑 Фиксируем периодические проблемы с доступностью по сети до части серверов

Инженеры подключены к диагностике неполадок. Влияет в том числе на отображение информации в панели управления.

Дадим апдейт после уточнения информации по проблеме.
😢97🙏13😱11🎉6👌5👏4❤‍🔥31👍1🔥1
Timeweb Cloud Alerts
🛑 Фиксируем периодические проблемы с доступностью по сети до части серверов Инженеры подключены к диагностике неполадок. Влияет в том числе на отображение информации в панели управления. Дадим апдейт после уточнения информации по проблеме.
Неполадки затронули сервисы в локации AMS. Временно аффект мог затронуть локацию SPB, а также работу AI-агентов.

Сейчас работа всех сервисов восстанавливается.
29😢20😱10👌5🎉4🙏4
Timeweb Cloud Alerts
🛑 Фиксируем периодические проблемы с доступностью по сети до части серверов Инженеры подключены к диагностике неполадок. Влияет в том числе на отображение информации в панели управления. Дадим апдейт после уточнения информации по проблеме.
Работа сервисов восстановлена, трафик вернулся в нормальным значениям.

Причиной стал программно-аппаратный сбой на маршрутизаторе, который привел к ошибке в работе сети. Сейчас сбой устранён.
🔥4815👍12😢8👏2😱2
⚠️ Временные задержки в работе дисковой подсистемы

В данный момент часть виртуальных машин в Москве может работать с повышенными задержками (latency).

Причина: выявлены программные несоответствия в работе подсистемы хранения.

В настоящий момент инженеры проводят оптимизацию работы СХД.
😢151😱47👏85👍5🎉5🙏3❤‍🔥1
⚙️ Апдейт по работам в Москве

Продолжаем поэтапный ввод исправлений для подсистемы хранения.

Обновлено 4 из 8 сегментов инфраструктуры. На модернизированных сегментах фиксируем стабилизацию нагрузки и возвращение latency к нормативным значениям.

Ожидаемое время завершения всех работ — в течение 2-2.5 часов.
😢144👌21😱19👏10👍65❤‍🔥1
Работа инфраструктуры в Москве полностью восстановлена

Мы завершили обновление программного обеспечения на всех узлах кластера хранения. Все системы работают в штатном режиме, показатели производительности и latency вернулись к целевым значениям.

В данный момент мы завершаем точечные настройки сетевых сессий. У части пользователей могут наблюдаться временные затруднения с подключением по SSH.

Наши специалисты уже занимаются этим вопросом, доступ будет восстановлен в ближайшее время.

Чуть позже будет детальный технический разбор.
😢166🎉34😱30👍13❤‍🔥5
Timeweb Cloud Alerts
⚠️ Временные задержки в работе дисковой подсистемы В данный момент часть виртуальных машин в Москве может работать с повышенными задержками (latency). Причина: выявлены программные несоответствия в работе подсистемы хранения. В настоящий момент инженеры…
Мы локализовали проблему с частичным отсутствием доступа по SSH и зависанием части виртуальных машин. Для их возвращения в строй инженерам необходимо провести перезагрузку нескольких нод в Москве.

Суммарное время работ составит до 2 часов, и до 15-20 минут для конкретных виртуальных машин в рамках этого окна.
😱162😢816🔥3🎉3🙏3👍2👏1
Timeweb Cloud Alerts
⚠️ Временные задержки в работе дисковой подсистемы В данный момент часть виртуальных машин в Москве может работать с повышенными задержками (latency). Причина: выявлены программные несоответствия в работе подсистемы хранения. В настоящий момент инженеры…
Массовые перезагрузки нод завершены. Сейчас работаем точечно — проверяем подключение и корректную работу виртуальных машин.

Параллельно исправляем зависшие статусы сервисов в панели управления. На доступность это не влияет.

Разбор инцидента опубликуем позднее.
👍47😢37🔥12😱11🙏85👌2