Pseudorandom Thoughts
420 subscribers
96 photos
8 files
338 links
我将开口,同时爽到爆。
Download Telegram
https://blog.cloudflare.com/post-mortem-on-cloudflare-control-plane-and-analytics-outage/

根据所提供的文章内容,以下是影响Cloudflare 服务可用性的几个关键原因:

数据中心供电问题:Cloudflare在俄勒冈州的Hillsboro地区拥有三个数据中心,其中最大的一个由Flexential运营。这个数据中心在2023年11月2日的08:50 UTC时遭遇到了电力问题,导致了数据中心的部分供电中断。Flexential启动了他们的发电机以补充断电的电源,但是没有通知Cloudflare他们已经切换到了发电机供电。

Flexential的决策:Flexential同时运行了剩余的电力供应和发电机,这违反了最佳实践。同时,Flexential没有通知Cloudflare他们已经切换到了发电机供电。

电力事故:在11:40 UTC,Flexential数据中心的一个PGE变压器发生了接地故障,导致了所有发电机的关闭,此时数据中心的所有电源都中断了。

备用电源问题:PDX-04数据中心有一个UPS电池组,理论上可以为数据中心供电大约10分钟,以弥补电源中断和发电机自动启动间的空隙。不过,实际上,这些电池在只过了4分钟后就开始失败了。

服务恢复问题:在发生电力事故后,Flexential试图手动重启发电机,但是由于门禁系统没有电源供应,无法正常运行,同时,当时在现场的仅有的人员缺乏必要的经验和技能,这些因素都导致了恢复服务的困难。

关键服务依赖问题:一些关键服务如Kafka和ClickHouse,它们在PDX-04中的唯一实例被关闭,这影响了部分依赖于它们的高可用服务。这些依赖性应该更加松散,应该能够更加优雅地处理失败,在此次事故中,这些问题没有被及时发现和处理。

以上就是此次Cloudflare控制面和分析服务中断的几个关键原因。
非常好高可用,500 Internal Server Error 来自 Tengine
图偷的
https://store.steampowered.com/app/1931770

锐评《巴别塔圣歌》:7/10
喜欢我语言学奥林匹克幼稚园版吗(暴言)
老少咸宜,完全没有上手难度的解谜游戏,难度设计得也很合适
题材很新颖,几种文字的设计都很巧妙也很到位不会产生令人费解或者沮丧的交互桥段
美学设计得很好
本来想给8/10,扣分主要有两点,一是笔记的画比陌生语言本身还抽象,二是潜行用鼠标操作有点让人感到脑淤血,要是设计上潜行每次被抓都稍微调快主角的速度(或者增大操作的时间窗口)就好了
SRE至暗时刻:周末半夜被电话摇起来远程排查发现问题仅仅是运维人员升级时向WAF上导入的TLS证书链不完整然后导致调用全挂了😇
在广州塔四百多米高空观光时问“个只地方会唔会有曱甴”让全电梯人蚌埠住了
比买mac玩游戏更健康的行为:买iPad并使用外接显示器和键鼠玩游戏
给N100搞了个稍显弱智的面板,有空再写个图形界面(
🎉2
锐评叮咚买菜的猪肚鸡火锅预制菜:跟杭州外边餐厅的猪肚鸡味道没差,鉴定为全是预制菜。
​还算好吃,汤味道也还可以(指不全是味精口感),乡思了可以买一锅,然而比起你们两广走地鸡现杀煮出来的确实味道有显著差异。

既然平安夜吃了猪肚鸡,​现编一个习俗故事:传说以前有个老表很穷,到了冬至看到家家户户都在食腊鸭,饿得受不了了,许愿说:“圣誕老嘢保佑,畀我隻雞過冬至”,然而家里连只袜子都找不到了,只好把劏猪剩下的猪肚挂到速生桉上当口袋。圣诞老嘢骑鬼火路过他家门口,看到了十分感动,就塞了只鸡进去,还以为这人要按西方做法做烤鸡,于是塞了包胡椒。这人醒来后把整包料下锅炖煮,没想到煲出来的汤味道鲜香。后来就有了平安夜吃猪肚鸡的习俗。