Программный Кодекс
66 subscribers
1.99K photos
182 videos
2 files
492 links
Авторский канал Григорьева Ивана. Новости ИТ, разработки, личные наблюдения, юмор.
Download Telegram
Forwarded from .RUПОР
💥 В домене .RU – 6 000 000 имен!

20 октября
в национальной зоне .RU зарегистрировано шестимиллионное доменное имя.
 
Это новый рекорд – впервые с момента запуска .RU достигла такой рекордной отметки.
 
📊 Ключевые цифры:
🔼 Рост: с начала года зарегистрировано 1,4 млн новых доменов – в среднем 4,9 тыс. в день.
🖥 Управление: 97% доменов делегированы, 27% принадлежат юридическим лицам и 73% – физическим лицам.
 
↗️Топ-5 регионов: Москва (1 563 769 доменов), Московская область (542 015), Санкт-Петербург (382 806), Краснодарский край (177 361) и Свердловская область (131 520).
 
🌐 Место в мире: 5-е место среди национальных доменов и 9-е – среди всех доменов верхнего уровня.
 
🗓 История развития .RU:
🔹1 млн – 2007 год
🔹2 млн – 2009 год
🔹3 млн – 2010 год
🔹4 млн – 2012 год
🔹5 млн – 2015 год
🔹6 млн – 2025 год
 
Подробнее –
на сайте Координационного центра доменов .RU/.РФ 👈
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1🎉1
Тайм менеджмент начинающего: система помидоро, автофокус, матрица Эйзенхауэра, канбан доски

Тайм менеджмент профи: я эту хрень просто делать не буду
Подъехал пост-мортем от Амазона.

С одной стороны, хочется поржать над DNS Enactor, DropletWorkflow Manager (DWFM), Network Manager и прочими — это Galactic от Krazam, только в реальном мире и на очень серьезных щщах.

Если без шуток, то цепочка такая:

1. сначала сломался доступ к dynamodb из-за рейс-кондишена системы управления DNS — два таска начали писать в DNS одновременно, первый старую версию записей, второй — более новую новую, в результате часть записей в DNS оказалась новая, часть старая, второй процесс запустил cleanup, который удалил все старые записи и из такого разломанного состояния система сама восстановиться не могла. Сломалось в полночью, за 50 минут поняли в чем дело и ещё за 40 минут починили руками.

2. из-за сломанного dynamodb, система управления железом не могла обновить статус физических серверов и начала отмечать их как «недоступные», поэтому не могла запустить новые виртуальные машины; после восстановления dynamodb, по-идее всё должно было встать само, но из-за большого объема железа, стоящего в очереди, обновление статуса занимало дольше, чем таймаут — и очередь не разгребалась, а только росла. Коллапс. Стандартной процедуры восстановления для такого случая прописано не было, через 2 часа попыток что-то разрулить, инженеры ограничили число входящих запросов и начали перезапускать тачки с системой управления; это помогло, теперь можно было создать новые виртуальные машины;

3. но ещё какое-то время эти новые виртуалки не делали никакой полезной работы, потому что из-за взрывной нагрузки не справлялась система управления разлива конфигурации сети и сеть на новые тачки приходила с задержкой;

4. из-за этой задержки появления сети на машинах, моргали статусы серверов в лоад-балансерах, отмечая живые инстансы как мертвые и триггерились дополнительные переключения нагрузки (привет, DNS!) и перегрузилась система проверки здоровья серверов,
пришлось её на время выключить.

Ну а когда у вас не доступны базы данных и виртуальные машины, то все остальное уже валится по цепочке (и список десятков облачных сервисов, которые пострадали).


Раздел «что мы поменяем» удивительно короткий и очень технический: починят рейс кодишен в DNS, ограничат объем серверов, который может выключить лоад-балансер и т. д. Ну и заканчивают «извините, в будущем будем более лучше стараться».

Интересно, что они не делают никаких философских выводов из ситуации. Видимо, считают, что идейно всё верно. Я сам такими огромными системами (и командами) не управлял и поэтому осторожно предположу, что, наверное, технически, можно сделать систему проще, но учитывая, что над ней работают десятки независимых команд — это, наверное, минимальный доступный объем сложности и допустимый объем ошибок. Было бы интересно услышать мнение «настоящих сварщиков».



Коллеги советуют замечательную статью на тему безопасности сложных систем. Она не дает ответов, но предостерегает от попытки найти «root cause», «причину аварии» и предлагает посмотреть на безопасность систем по-новому, через другие линзы, чем я привык. Очень рекомендую.