Фиксируем массовые сообщения о недоступности сервисов Telegram (включая api.telegram.org).
Симптомы
• Ошибки подключения (timeout) при обращении к Bot API.
• Нестабильная работа интеграций и уведомлений через Telegram-ботов.
• Задержки в обновлении статусов в веб-версии мессенджера.
Данная проблема не связана с работами на стороне Timeweb Cloud и наблюдается у большинства провайдеров и дата-центров.
Рекомендуем временно использовать альтернативные каналы уведомлений, если ваши бизнес-процессы завязаны на Telegram API.
Симптомы
• Ошибки подключения (timeout) при обращении к Bot API.
• Нестабильная работа интеграций и уведомлений через Telegram-ботов.
• Задержки в обновлении статусов в веб-версии мессенджера.
Данная проблема не связана с работами на стороне Timeweb Cloud и наблюдается у большинства провайдеров и дата-центров.
Рекомендуем временно использовать альтернативные каналы уведомлений, если ваши бизнес-процессы завязаны на Telegram API.
😢260😱87👌10👍9❤7👏7🎉5❤🔥2🔥2
Постмортем инцидента в зоне MSK-1 (09.04-10.04)
Подготовили подробный разбор инцидента с дисковой подсистемой. Детали, таймлайн и принятые меры по ссылке ниже.
Подробный технический разбор →
Коротко о причинах
• Ошибка СХД спровоцировала reboot loop узлов хранения. Рекурсивные перезагрузки вызвали оверлоад шины данных.
• Зависание процессов виртуальных машин на уровне гипервизоров, I/O wait и сетевая недоступность из-за блокировки системных процессов ОС.
Что сделано
• Внедрены сценарии каскадных отказов в протоколы тестирования.
• Запущен подбор альтернативных СХД для диверсификации рисков.
• Автоматизирован сброс сессий гипервизора при зависшем I/O.
Подготовили подробный разбор инцидента с дисковой подсистемой. Детали, таймлайн и принятые меры по ссылке ниже.
Подробный технический разбор →
Коротко о причинах
• Ошибка СХД спровоцировала reboot loop узлов хранения. Рекурсивные перезагрузки вызвали оверлоад шины данных.
• Зависание процессов виртуальных машин на уровне гипервизоров, I/O wait и сетевая недоступность из-за блокировки системных процессов ОС.
Что сделано
• Внедрены сценарии каскадных отказов в протоколы тестирования.
• Запущен подбор альтернативных СХД для диверсификации рисков.
• Автоматизирован сброс сессий гипервизора при зависшем I/O.
🔥86😱27❤18😢10🙏7🎉6👍4❤🔥3👌2
⚠️ Модернизация зарубежной инфраструктуры: локация Амстердам
Сегодня проведем срочную модернизацию сетевого сегмента в Европе. Обновление оборудования позволит повысить отказоустойчивость международных каналов и обеспечить стабильную работу при высоких нагрузках.
Старт работ: сегодня в 11:45 мск
Длительность: до 30 мин
Влияние на сервисы:
• Временная недоступность сервисов в Амстердаме на период перезагрузки
• В остальных локациях возможно снижение скорости из-за автоматического перестроения маршрутов
Инфраструктура в РФ работает в штатном режиме. О завершении работ тоже проинформируем.
Сегодня проведем срочную модернизацию сетевого сегмента в Европе. Обновление оборудования позволит повысить отказоустойчивость международных каналов и обеспечить стабильную работу при высоких нагрузках.
Старт работ: сегодня в 11:45 мск
Длительность: до 30 мин
Влияние на сервисы:
• Временная недоступность сервисов в Амстердаме на период перезагрузки
• В остальных локациях возможно снижение скорости из-за автоматического перестроения маршрутов
Инфраструктура в РФ работает в штатном режиме. О завершении работ тоже проинформируем.
😱109🙏63😢48👍12👌11❤5🔥3❤🔥2🎉2
Timeweb Cloud Alerts
⚠️ Модернизация зарубежной инфраструктуры: локация Амстердам Сегодня проведем срочную модернизацию сетевого сегмента в Европе. Обновление оборудования позволит повысить отказоустойчивость международных каналов и обеспечить стабильную работу при высоких нагрузках.…
Работы полностью завершены. Работоспособность серверов в Амстердаме восстановлена в 12:00 мск.
На данный момент восстанавливается трафик: могут наблюдаться задержки в работе панели и сервисов.
На данный момент восстанавливается трафик: могут наблюдаться задержки в работе панели и сервисов.
😢141❤28🙏11😱5🎉5👍4👌2
Timeweb Cloud Alerts
⚠️ Модернизация зарубежной инфраструктуры: локация Амстердам Сегодня проведем срочную модернизацию сетевого сегмента в Европе. Обновление оборудования позволит повысить отказоустойчивость международных каналов и обеспечить стабильную работу при высоких нагрузках.…
✅ Работы завершены, сетевой трафик восстановился. Сервисы и панель управления работают исправно.
🔥74👏31👍16😢7🙏7👌4❤2
🛑 Аппаратная проблема на роутере в Амстердам.
Сетевые инженеры занимаются восстановлением.
Сетевые инженеры занимаются восстановлением.
😱166😢70🎉17🙏11🔥5👏5❤3👌3❤🔥2👍2
Timeweb Cloud Alerts
🛑 Аппаратная проблема на роутере в Амстердам. Сетевые инженеры занимаются восстановлением.
✅ Работы завершены, сетевой трафик восстановился. Сервисы работают в штатном режиме.
👏65👍28❤21😢5😱4🙏1👌1
🛑 Возникли технические неполадки во время проведения работ с базой данных.
В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
😱87😢32👌9👏6❤5🔥3🎉2🙏2❤🔥1
Timeweb Cloud Alerts
🛑 Возникли технические неполадки во время проведения работ с базой данных. В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
В течение 10 минут ожидаем запуск остановленных сервисов.
Создание новых сервисов сейчас недоступно.
Создание новых сервисов сейчас недоступно.
🙏41😢28😱10❤7🔥1
Timeweb Cloud Alerts
В течение 10 минут ожидаем запуск остановленных сервисов. Создание новых сервисов сейчас недоступно.
Производим постепенный запуск остановленных сервисов. Планируемое время восстановления — 1 час.
Дополнительно уведомим о завершении.
Дополнительно уведомим о завершении.
🙏21😱11❤8😢5👍4🔥1
Timeweb Cloud Alerts
🛑 Возникли технические неполадки во время проведения работ с базой данных. В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
Работа сервисов, созданных до начала инцидента, полностью восстановлена.
Было задето: 3927 аккаунтов
Даунтайм: с 20:05 по 22:45 мск
Сейчас мы фокусируемся на том, чтобы вернуть возможность создания новых ресурсов и поправить отображение баланса.
Инженеры продолжают работу до полного устранения неполадок. Разбор инцидента будет отдельно.
Было задето: 3927 аккаунтов
Даунтайм: с 20:05 по 22:45 мск
Сейчас мы фокусируемся на том, чтобы вернуть возможность создания новых ресурсов и поправить отображение баланса.
Инженеры продолжают работу до полного устранения неполадок. Разбор инцидента будет отдельно.
😱36❤22🎉7🔥5🙏5😢4👏1
Timeweb Cloud Alerts
Работа сервисов, созданных до начала инцидента, полностью восстановлена. Было задето: 3927 аккаунтов Даунтайм: с 20:05 по 22:45 мск Сейчас мы фокусируемся на том, чтобы вернуть возможность создания новых ресурсов и поправить отображение баланса. Инженеры…
Получили апдейт от инженеров — было затронуто 4514 аккаунтов.
Сейчас разбираемся с зависшими статусами в панели управления.
Сейчас разбираемся с зависшими статусами в панели управления.
😱30😢9❤8❤🔥3🎉3👏2👌2🔥1
Timeweb Cloud Alerts
🛑 Возникли технические неполадки во время проведения работ с базой данных. В личных кабинетах может отображаться нулевой баланс. Также может не отображаться список сервисов. Инженеры уже занимаются решением проблемы.
✅ Вернули корректное отображение баланса в панели управления.
Создание новых сервисов и изменение конфигурации текущих работают в штатном режиме.
Создание новых сервисов и изменение конфигурации текущих работают в штатном режиме.
🔥32👏12😢7👍6🎉6❤2🙏2
Timeweb Cloud Alerts
✅ Вернули корректное отображение баланса в панели управления. Создание новых сервисов и изменение конфигурации текущих работают в штатном режиме.
Разбор инцидента с балансами и блокировкой аккаунтов 4 мая
Что произошло
4 мая во время плановых работ с базой данных возникла техническая ошибка. В 19:45 мск была запущена миграция, которая из-за асинхронного выполнения в продакшн-среде привела к некорректному отображению балансов.
Последствия
В 20:00 система биллинга зафиксировала «нулевые балансы» и автоматически инициировала блокировку аккаунтов за неуплату. Автоматика приостановила процесс на отметке ~4500 аккаунтов.
Статус
К 5 мая в 00:36 мск все аккаунты разблокированы, корректность балансов восстановлена.
Всем затронутым пользователям будет начислена индивидуальная компенсация в ближайшее время.
Что меняем
Биллинг переводится в режим техосблуживания на время плановых и аварийных работ — отменяются любые блокирующие действия с аккаунтами. Также изменили пороговые значения для ложных блокировок и добавили временной лаг между решением и фактической блокировкой.
Что произошло
4 мая во время плановых работ с базой данных возникла техническая ошибка. В 19:45 мск была запущена миграция, которая из-за асинхронного выполнения в продакшн-среде привела к некорректному отображению балансов.
Последствия
В 20:00 система биллинга зафиксировала «нулевые балансы» и автоматически инициировала блокировку аккаунтов за неуплату. Автоматика приостановила процесс на отметке ~4500 аккаунтов.
Статус
К 5 мая в 00:36 мск все аккаунты разблокированы, корректность балансов восстановлена.
Всем затронутым пользователям будет начислена индивидуальная компенсация в ближайшее время.
Что меняем
Биллинг переводится в режим техосблуживания на время плановых и аварийных работ — отменяются любые блокирующие действия с аккаунтами. Также изменили пороговые значения для ложных блокировок и добавили временной лаг между решением и фактической блокировкой.
🔥103👍50🙏21❤9🎉7😱6😢5❤🔥3👌3👏2
🛑Проблема с сетевой доступностью
Зоны: ams-1
Тип: ❗️ Major
Зафиксирована недоступность части сервисов в зоне ams-1. Инженеры изучают масштаб затронутых компонентов и работают над восстановлением.
Следующий апдейт — через 30 минут.
Зоны: ams-1
Тип: ❗️ Major
Зафиксирована недоступность части сервисов в зоне ams-1. Инженеры изучают масштаб затронутых компонентов и работают над восстановлением.
Следующий апдейт — через 30 минут.
😱134😢73🔥12🙏9❤5👏4🎉4👍2
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major
Подтверждённая причина — проблемы с электропитанием в дата-центре. Для дальнейших действий по восстановлению необходима диагностика оборудования на месте: инженер уже выехал на площадку, ожидаемое прибытие — в течение часа.
Следующий апдейт — в течение 2 часов.
Зоны: ams-1
Тип: ❗️ Major
Подтверждённая причина — проблемы с электропитанием в дата-центре. Для дальнейших действий по восстановлению необходима диагностика оборудования на месте: инженер уже выехал на площадку, ожидаемое прибытие — в течение часа.
Следующий апдейт — в течение 2 часов.
😢247😱70🙏30❤11🎉5👏4👌4❤🔥3🔥3
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major
После прибытия инженера на площадку и проведённой диагностики электропитания работы по восстановлению были запущены. На текущий момент фиксируем положительную динамику — доступность сервисов в зоне ams-1 начала восстанавливаться.
Продолжаем контролировать ситуацию на месте. Следующий апдейт — через час.
Зоны: ams-1
Тип: ❗️ Major
После прибытия инженера на площадку и проведённой диагностики электропитания работы по восстановлению были запущены. На текущий момент фиксируем положительную динамику — доступность сервисов в зоне ams-1 начала восстанавливаться.
Продолжаем контролировать ситуацию на месте. Следующий апдейт — через час.
👍79😱31😢29🔥21🎉12❤10🙏8❤🔥1👌1
⚠️Обновление по инциденту
Зоны: ams-1
Тип: ❗️ Major
На текущий момент восстановлено около 85% виртуальных машин в зоне ams-1. По оставшимся нодам ведётся индивидуальный разбор: инженеры диагностируют причины, по которым они не вернулись в работу автоматически после восстановления электропитания, и поэтапно вводят их в строй.
Следующий апдейт — через час.
Зоны: ams-1
Тип: ❗️ Major
На текущий момент восстановлено около 85% виртуальных машин в зоне ams-1. По оставшимся нодам ведётся индивидуальный разбор: инженеры диагностируют причины, по которым они не вернулись в работу автоматически после восстановления электропитания, и поэтапно вводят их в строй.
Следующий апдейт — через час.
🔥53😢25👍21❤8🙏8🎉4😱3
✅ Инцидент закрыт
Зоны: ams-1
Тип: ❗️ Major
Все оставшиеся VDS дозапущены в ручном режиме — количество запущенных виртуальных машин вернулось к доаварийным значениям. Сервисы в зоне ams-1 работают штатно, инфраструктура стабилизирована.
Подробный постмортем с разбором причин опубликуем отдельно.
Зоны: ams-1
Тип: ❗️ Major
Все оставшиеся VDS дозапущены в ручном режиме — количество запущенных виртуальных машин вернулось к доаварийным значениям. Сервисы в зоне ams-1 работают штатно, инфраструктура стабилизирована.
Подробный постмортем с разбором причин опубликуем отдельно.
❤103👍34😢18🔥17🎉15👏1
Сегодня c 15:00 до 18:00 мск на стороне дата-центра Qupra в Нидерландах проводятся аварийные работы — специалисты площадки апгрейдят систему охлаждения машинных залов.
Это реакция на инцидент 23 мая, тогда из-за жаркой погоды в Амстердаме произошла авария по электропитанию — система кондиционирования не справилась, и был обесточен машинный зал, поэтому наша инфраструктура в это время была недоступна.
Работы проводят инженеры дата-центра. На это время по их запросу мы снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная недоступность отдельных сервисов.
Держим связь с площадкой и следим за ситуацией. Сообщим, как появится новая информация.
Это реакция на инцидент 23 мая, тогда из-за жаркой погоды в Амстердаме произошла авария по электропитанию — система кондиционирования не справилась, и был обесточен машинный зал, поэтому наша инфраструктура в это время была недоступна.
Работы проводят инженеры дата-центра. На это время по их запросу мы снижаем нагрузку на серверах — возможно замедление работы серверов и кратковременная недоступность отдельных сервисов.
Держим связь с площадкой и следим за ситуацией. Сообщим, как появится новая информация.
😢78👌48👍16😱11❤8🙏7🎉5👏3🔥1
Timeweb Cloud Alerts
Сегодня c 15:00 до 18:00 мск на стороне дата-центра Qupra в Нидерландах проводятся аварийные работы — специалисты площадки апгрейдят систему охлаждения машинных залов. Это реакция на инцидент 23 мая, тогда из-за жаркой погоды в Амстердаме произошла авария…
Обновление системы охлаждения дата-центра завершено. Оборудование работает в штатном режиме.
👍54🔥33🎉17❤3❤🔥1