AWS Notes
5.59K subscribers
439 photos
42 videos
10 files
2.8K links
AWS Notes — Amazon Web Services Educational and Information Channel

Chat: https://t.me/aws_notes_chat

Contacts: @apple_rom, https://www.linkedin.com/in/roman-siewko/
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Переадресация для ALB 🎉

https://aws.amazon.com/blogs/networking-and-content-delivery/introducing-url-and-host-header-rewrite-with-aws-application-load-balancers/

Теперь можно делать переадресацию прямо на балансере, равно как и переписывать заголовки.

Это ж сколько поколений сараев с костылями и велосипедами можно списывать в утиль.

Ура, господа, тихое такое, но ура.

#ALB
🤣19🔥8😱4👍3🍾3😁21👏1🏆1
EBS Volume Clones — мгновенный снэпшот диска 🎉

https://aws.amazon.com/blogs/aws/introducing-amazon-ebs-volume-clones-create-instant-copies-of-your-ebs-volumes/

Мгновенный — это значит, что после запуска команды (или нажатия Copy в консоли) копия становится доступна за секунды.

Отличие Volume Clones от "обычного" (не "мгновенного") создания снэпшота:

💸 Стоит денег: разово (однократно) за выполнение копии — 0.8$ за TB, что не шибко дорого. Дальше за хранение как обычные EBS.

Однако, если вы постоянно делаете снэпшоты, то обычные — инкрементальные, а Volume Clones — это полный, поэтому будет стоить дороже или сильно дороже, в зависимости от размеров диска.

🔒 Volume Clones можно сделать лишь для шифрованных EBS.

Так что это не замена, а дополнение к старым-добрым-инкрементальным снэпшотам.

Однако круто для срочных или тестов. А также специфичных случаев, где нужно быстро получить копию и стартануть виртуалку на нём либо присоединить к другой для обработки, например, чтобы иметь последние данные для обрабокти в пайплайне.

#EBS
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16👍31
Сiя кормчая грамота даруется мужу, испившему всякаго, и крѣпкому словомъ благимъ дѣло устрояти.

#пятничное
😁25🤮6🥰1🤬1💩1👌1
Если у кого-то ничего что-то где-то не работает в AWS или ведёт себя странно — не переживайте, всё нормально, идёт выкатка новых сервисов, ведь скоро re:Invent 2025.

https://health.aws.amazon.com/health/status
🤣29💯4👍1
Forwarded from AWS User Group Armenia
🎉 AWS has introduced EC2 instance attestation 🔒
a new security feature that enables customers to verify that their virtual machines are running approved software configurations in a cryptographically secure manner.

The capability is powered by the Nitro Trusted Platform Module (NitroTPM) and Attestable AMIs. Now it’s easier to validate that only trusted software is running on your EC2 instances, including the ones with AI chips and GPUs.

If you've ever struggled to PROVE (not just promise) your cloud security to auditors - this changes everything. 🙌🏼😎

Read more details in the user guide.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥51
⚠️ Operational issue - Multiple services (N. Virginia)

Около часа назад (Oct 20 12:11 AM PDT) упал примерно весь AWS (и половина интернета заодно).

Impacted (9 16 35 74 104 108 111 113 115 119 123 126 128 133 137 139 updated: 110 services) 🔥

Disrupted - Amazon DynamoDB 😵 Update: only Impacted now.

AWS Identity and Access Management
AWS Private Certificate Authority
AWS Secrets Manager
AWS Security Token Service
AWS Systems Manager
AWS VPCE PrivateLink
Amazon Elastic Compute Cloud
Amazon Elastic Kubernetes Service
...

Судя по набору упавших сервисов, а это самые жизненно важные сервисы, тестируется новая AI система для управления, которая заменит всех девопсов.

https://health.aws.amazon.com/health/status
Please open Telegram to view this post
VIEW IN TELEGRAM
😁80
Если у вас сейчас что-то не работает (кроме AWS), то теперь вы знаете, что это (не) работает на AWS.
😁81🔥9💯9
Based on our investigation, the issue appears to be related to DNS resolution of the DynamoDB API endpoint in US-EAST-1.
😁60👏1
Что может быть хуже проблем с DNS?

Только проблемы с мониторингом!

Короче, мониторинг показал, что всё упало из-за мониторинга.

The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.
😁38😨8😱1💯1
Краткое содержание сериала падения AWS 20 октября 2025-го года:

1️⃣ серия

В 9:11 CEST из-за проблем с DNS упала DynamoDB.

2️⃣ серия

За два часа её (DynamoDB) починили (в 11:24 CEST) и всё ушли на обед.

3️⃣ серия

Пока DynamoDB лежала, упали критически важные, зависящие от неё сервисы: EC2 Control Plane, Lambda, SQS, RDS, ECS, EKS, CloudTrail, etc.

4️⃣ серия

Автоскелинги перестали работать, новые виртуалки не стартуют, саппорт не работает.

5️⃣ серия

Но самое страшное, что упал не только CloudWatch мониторинг, но ещё внутренний мониторинг (чисто амазоновский) и уже никто не знает, что происходит.

6️⃣ серия

Все команды сервисов вместе с поддержкой судорожно чистят кэш, чтобы заработала давно ожившая DynamoDB.

7️⃣ серия

Каскадное падение сервисов продолжается. Интересно, сможет ли упасть всё.

8️⃣ серия

Проблему внутреннего мониторинга пофиксили и есть надежда на восстановление.

9️⃣ серия

Но это уже будет делать следующая команда завтра (в следующей серии).
124👍20🙏3👏1
После 12 часов лежания, AWS начал оживать — можете проверять свои нагрузки.

Краткое промежуточное итого — около 140 пострадавших сервисов. В пике лежало 110 сервисов одновременно (падения были волнами).

В результате это будет самое длительное падение с 2011-го года. А если учесть количество лежащих сервисов, то самое масштабное. (Хотя, если считать процент сервисов, то может и нет :) — ведь тогда их было совсем мало).
👍91🍾1
Вы хотите как было 20 октября 2025-го?

Нет?

Тогда срочно мигрируйте на AWS European Sovereign Cloud — полностью независимый от остального AWS, новый eusc регион!

#реклама #AWS_EU_Regions
🤣43😁15🤡53
Forwarded from R V
📘 “Building an Application Development Framework” — must-read для DevOps и платформенных инженеров
Авторы: Роман Воронин (AWS Community Builder, Минск–Лиссабон) и Иван Подобед, архитектор масштабируемых инженерных систем.

Эта книга — не про код, а про мышление архитектора.
Она показывает, как превратить хаос пайплайнов и шаблонов в единый фреймворк разработки (ADF) — со стандартами, автоматизацией и архитектурой, которые ускоряют всю компанию.

Если вы строите внутренние DevOps/Developer Experience -платформы, — это практичный гид о том, как мыслить фреймворками, а не инструментами.
Помогает перейти от «автоматизирую процессы» к «создаю экосистему, которая масштабирует инженерные практики».

📖 Найти можно на Amazon (https://www.amazon.com/Building-Application-Development-Framework-engineering/dp/183620857X) или Packt (https://www.packtpub.com/en-us/product/building-an-application-development-framework-9781836208563).
👍135
It was not DNS. AWS падение 20 октября 2025 года.

1. С чего началось?

Внутренняя подсистема мониторинга NLB внезапно умирает от всплеска нагрузки во внутренней сети AWS.
The root cause is an underlying internal subsystem responsible for monitoring the health of our network load balancers.


2. It is always DNS.

Сбой мониторинга и перегрузка трафика вызвали проблемы в разрешении DNS, главным образом затронуты были внутренние AWS endpoints для DynamoDB (но не только).
DNS resolution issues for the regional DynamoDB service endpoints.


3. Падаем громко.
DynamoDB тянет за собой EC2 Control Plane, Lambda, SQS, CloudTrail, ECS, EKS и т.д. — потому что они зависят и по данным, и по метаданным.
This issue also affects other AWS Services in the US-EAST-1 Region.


4. Первый фикс.

DNS for DynamoDB чинят уже спустя два часа. Но каскадное падение многих (143+) сервисов запущено, т.к. проблемный DNS закэшировался во всех этих сервисах.
After resolving the DynamoDB DNS issue at 2:24 AM, services began recovering but we had a subsequent impairment in the internal subsystem of EC2 that is responsible for launching EC2 instances due to its dependency on DynamoDB.

If you are still experiencing an issue resolving the DynamoDB service endpoints in US-EAST-1, we recommend flushing your DNS caches.


5. Monitoring blind.

Долгое время никто не знает, что реально происходит - ни CloudWatch, ни внутренний мониторинг не работает.

Network Load Balancer health checks also became impaired, resulting in network connectivity issues in multiple services such as Lambda, DynamoDB, and CloudWatch.


6. Почему упал не только один регион N.Virginia us-east-1?

Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов.
Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности.
Global services or features that rely on US-EAST-1 endpoints such as IAM updates and DynamoDB Global tables may also be experiencing issues.


7. Как развивалось дальше?

Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов не часто тестировалось ранее, наверняка что-то с этим связанное вызвало серьёзные проблемы.
As part of the recovery effort, we temporarily throttled some operations such as EC2 instance launches, processing of SQS queues via Lambda Event Source Mappings, and asynchronous Lambda invocations.


8. Когда решили проблему и началась стабилизация?

Условно через 12 часов после начала. После ещё около трёх часов окончательно поднимались все остальные сервисы и в результате инцидент продлился около 15 часов.
By 3:01 PM, all AWS services returned to normal operations. Some services such as AWS Config, Redshift, and Connect continue to have a backlog of messages.


Итого.

Жду появления в бэклоге AWS своего IAM для каждого региона.

И замените, наконец, народу во внутренней сети их Cisco 2800 на что-нибудь поновее.
👍367🔥5😁5
It was DNS.

Официальный постмортем падения AWS 20 октября 2025 года.

https://aws.amazon.com/message/101925/

1. С чего началось?

В результате Race condition (когда несколько процессов обновляют одну и ту же конфигурацию) при обновлении Route53 эндпоинт dynamodb.us-east-1.amazonaws.com удаляется.

Всё, нет такого домена, до свидания, DynamoDB.

race condition resulted in an incorrect empty DNS record for ... endpoint... the system was left in an inconsistent state... manual operator intervention to correct.


Никаких DDoS, сетевых перенагрузок - тупо ошибка автоматизации (гусары девопсы, молчать!).

2. It is always DNS.

И это был DNS.

endpoint resolution failures for DynamoDB ...

... triggered by a latent defect within the service’s automated DNS management system ...


3. Падаем громко.

EC2 не стартуют, равно как Lambda, SQS, ECS/EKS, Redshift и другие критически важные сервисы.

During this period, customers and other AWS services with dependencies on DynamoDB were unable to establish new connections...


4. Первый фикс.

DNS для DynamoDB руками починили за 2–3 часа, но сервисы восстанавливались медленно — пока у всех не заэкспарился кеш DNS.

As cached DNS records expired ... completed recovery from the primary service disruption event.

... manual operator intervention to correct.


5. Partial monitoring blind.

Некоторое время никто не знает, что реально происходит, т.к. и CloudWatch, и внутренний мониторинг работают с перебоями.

The alternating health check results increased the load on the health check subsystem, causing it to degrade...


6. Почему упал не только один регион N.Virginia us-east-1?

Ключевые сервисы - IAM, CloudFront, CloudFormation, Route53 и др. - исторически живут исключительно в us-east-1. Поэтому проблема с ними = проблемы у всех регионов.

Customers with IAM Identity Center configured in N. Virginia (us-east-1) Region were also unable to sign in...


Моё предположение, что это падение наконец-то станет окончательным поводом пересмотреть архитектуру 20-летней давности (пока) не оправдалось.

Принято решение:

- написать ещё тесты (но они ведь были, да?)
- переписать throttle и velocity control (условно rate limit на массовые рестарты или скелинг)
- добавить защиту для DNS Planner (система создания плана с айпишниками сервиса) и Enactor (система, которая пушит этот план в Route53)
- уволить оставшихся девопсов

We are building an additional test suite ... improve the throttling mechanism ... add additional protections to prevent the application of incorrect DNS plans.


7. Как развивалось дальше?

Сервисы недоступны или throttle-ятся долгое время, т.к. проблемы, вызванные DynamoDB DNS и недоступность ключевых сервисов столь длительное время ранее не тестировалось.

8. Когда решили проблему и началась стабилизация?

15 часов. 1 38 регионов. Ужас какой.

Итого.

Всё равно жду появления в бэклоге AWS своего IAM для каждого региона.

Вряд ли дождусь, но жду.
1👏15😁6
Надёжность AWS

У нас часто сбитый фокус — мы обращаем внимание, когда происходит что-то чрезвычайное и не замечаем, когда что-то монотонно успешно работает годами.

Упавший 20-10-2025 на 15 часов AWS оставляет легко объяснимые впечатления.

На фоне чего оценить предыдущие годы исключительно надёжной работы оценить сложно.

А кто-то даже, поддавшись эмоциям, без знания реального расклада, спешит "переехать и побыстрей".

А ведь лишь старожилы припомнят такие же падения. Предыдущее, примерно такое же по длительности, с Kinesis, было в 2020-м году. В то время как более длительное было лишь в волосатом 2011-м.

В результате, если посчитать надёжность со скользящим окном в год и пять лет, то увидим, что "обычная" надёжность AWS "обычно" между тремя девятками (как у самого первого сервиса SQS) и четырьмя девятками, как у EC2).

Причём обычно таки ближе к четырём девяткам. На текущую дату (25-10-2025) это 99.84% и 99.95%.

Последнее значение 99.95% равняется SLA у Lambda или EKS. Что, мягко говоря, очень круто.

Итого. Выводы из падений делать нужно. Однако также нужно знать историю и реальные цифры. Ведь каждая девятка — это гигантские проблемы, расходы и боль во всех смыслах.
👍34💯8👎1