LinuxDo 新帖推送
192 subscribers
255K photos
319K links
Download Telegram
标题: Cloudflare对2025年11月18日故障的复盘
作者: #F-Droid
板块: #开发调优
编号: 1185109
帖子: https://linux.do/t/topic/1185109
时间: 2025-11-19 08:15:58
摘要:
2025年11月18日11:20 UTC(本博客中的所有时间均为UTC),Cloudflare的网络开始经历重大故障,无法传输核心网络流量。对于试图访问我们客户站点的互联网用户来说,这表现为一个错误页面,显示Cloudflare网络内部的故障。
事件期间显示的HTTP错误页面
该问题不是由网络攻击或任何形式的恶意活动直接或间接引起的。相反,它是由我们一个数据库系统的权限更改触发的,该更改导致数据库向我们Bot Management系统使用的"特征文件"输出多个条目。该特征文件的大小随之翻倍。然后,这个大于预期的特征文件被传播到构成我们网络的所有机器上。
这些机器上运行的用于路由网络流量的软件会读取此特征文件,以使我们的Bot Management系统与不断变化的威胁保持同步。该软件对特征文件的大小有一个限制,该限制低于其翻倍后的大小。这导致软件失败。
在我们最初错误地怀疑我们看到的症状是由超大规模DDoS攻击引起之后,我们正确识别了核心问题,并能够停止传播大于预期的特征文件,并用该文件的早期版本替换它。到14:30,核心流量基本恢复正常。在接下来的几个小时里,我们努力缓解网络各个部分的负载增加,因为流量迅速恢复在线。截至17:06,Cloudflare的所有系统都恢复正常运行。
我们对客户和整个互联网造成的影响深表歉意。鉴于Cloudflare在互联网生态系统中的重要性,我们任何系统的任何故障都是不可接受的。我们的网络有一段时间无法路由流量,这让我们团队的每一位成员都深感痛苦。我们知道今天我们让你们失望了。
这篇文章详细叙述了到底发生了什么,以及哪些系统和流程失败了。这也是我们计划采取措施确保此类故障不再发生的开始,但不是结束。
故障情况
下图显示了Cloudflare网络提供的5xx错误HTTP状态码的数量。通常这应该非常低,而且在故障开始之前确实如此。
Cloudflare网络提供的HTTP 5xx请求量
11:20之前的数量是我们网络中观察到的5xx错误的预期基线。峰值和随后的波动显示我们的系统由于加载不正确的特征文件而失败。值得注意的是,我们的系统随后会恢复一段时间。这对于内部错误来说是非常不寻常的行为。
解释是,该文件每五分钟由在ClickHouse数据库集群上运行的查询生成一次,该集群正在逐步更新以改进权限管理。只有当查询在已更新的集群部分上运行时,才会生成错误数据。因此,每五分钟就有可能生成好的或坏的配置文件集,并迅速在网络中传播。
这种波动使得不清楚发生了什么,因为整个系统会恢复,然后随着有时好、有时坏的配置文件分发到我们的网络而再次失败。最初,这让我们认为这可能是由攻击引起的。最终,每个ClickHouse节点都在生成错误的配置文件,波动稳定在失败状态。
错误持续到14:30开始识别并解决根本问题。我们通过停止生成和传播错误的特征文件,并手动将已知良好的文件插入特征文件分发队列来解决问题。然后强制重启我们的核心代理。
上图中剩余的长尾是我们的团队重启进入错误状态的剩余服务,5xx错误代码量在17:06恢复正常。
以下服务受到影响:




服务/产品
影响描述




核心CDN和安全服务
HTTP 5xx状态码。本文顶部的截图显示了向最终用户提供的典型错误页面。


Turnstile
Turnstile加载失败。


Workers KV
由于核心代理失败,Workers KV的"前端"网关请求失败,导致HTTP 5xx错误显著增加。


仪表板
虽然仪表板大部分可以运行,但由于登录页面上的Turnstile不可用,大多数用户无法登录。


邮件安全
虽然电子邮件处理和传递未受影响,但我们观察到IP信誉源的临时丢失,这降低了垃圾邮件检测准确性,并阻止了一些新域名年龄检测的触发,但未观察到关键的客户影响。我们还看到一些自动移动操作失败;所有受影响的消息都已审查和修复。


Access
对于大多数用户来说,身份验证失败很普遍,从事件开始一直持续到13:05启动回滚。任何现有的Access会话都未受影响。所有失败的身份验证尝试都导致错误页面,这意味着这些用户在身份验证失败期间从未到达目标应用程序。此期间的成功登录在此事件期间被正确记录。当时尝试的任何Access配置更新要么完全失败,要么传播非常缓慢。所有配置更新现已恢复。



除了返回HTTP 5xx错误外,我们还观察到影响期间CDN响应延迟显著增加。这是由于我们的调试和可观测性系统消耗了大量CPU,这些系统会自动用额外的调试信息增强未捕获的错误。
Cloudflare如何处理请求,以及今天出了什么问题
每个到Cloudflare的请求都会在我们的网络中经过一条明确定义的路径。它可能来自加载网页的浏览器、调用API的移动应用程序,或来自另一个服务的自动化流量。这些请求首先在我们的HTTP和TLS层终止,然后流入我们的核心代理系统(我们称之为FL,即"Frontline"),最后通过Pingora,它执行缓存查找或在需要时从源站获取数据。
我们之前在这里分享了有关核心代理如何工作的更多详细信息。
我们的反向代理架构图
当请求通过核心代理时,我们运行网络中可用的各种安全和性能产品。代理应用每个客户的独特配置和设置,从执行WAF规则和DDoS保护到将流量路由到开发者平台和R2。它通过一组特定领域的模块来实现这一点,这些模块将配置和策略规则应用于通过我们代理的流量。
其中一个模块,Bot Management,是今天故障的根源。
Cloudflare的Bot Management包括一个机器学习模型,我们用它为通过我们网络的每个请求生成机器人评分。我们的客户使用机器人评分来控制允许哪些机器人访问他们的站点——或不允许。
该模型将"特征"配置文件作为输入。在这种情况下,特征是机器学习模型用来预测请求是否自动化的单个特性。特征配置文件是各个特征的集合。
此特征文件每隔几分钟刷新一次,并发布到我们的整个网络,使我们能够对互联网上流量流的变化做出反应。它使我们能够对新型机器人和新的机器人攻击做出反应。因此,随着恶意行为者快速改变策略,频繁快速地推出它至关重要。
我们底层ClickHouse查询行为的变化(如下所述)导致生成此文件时出现大量重复的"特征"行。这改变了先前固定大小特征配置文件的大小,导致机器人模块触发错误。
结果,处理客户流量的核心代理系统返回了HTTP 5xx错误代码,对于任何依赖机器人模块的流量都是如此。这也影响了依赖核心代理的Workers KV和Access。
与此事件无关,我们过去和现在正在将客户流量迁移到我们代理服务的新版本,内部称为FL2。两个版本都受到该问题的影响,尽管观察到的影响不同。
部署在新FL2代理引擎上的客户观察到HTTP 5xx错误。使用我们旧代理引擎(称为FL)的客户没有看到错误,但机器人评分生成不正确,导致所有流量的机器人评分为零。部署了阻止机器人规则的客户会看到大量误报。未在规则中使用机器人评分的客户没有看到任何影响。
让我们偏离方向并让我们相信这可能是一次攻击的另一个明显症状是:Cloudflare的状态页面宕机了。状态页面完全托管在Cloudflare基础设施之外,不依赖Cloudflare。虽然这只是一个巧合,但它导致诊断问题的一些团队成员认为攻击者可能同时针对我们的系统和我们的状态页面。当时访问状态页面的访问者看到了一条错误消息:
Cloudflare状态页面上的错误
在内部事件聊天室中,我们担心这可能是最近一系列大容量Aisuru DDoS攻击的延续:
内部聊天截图
查询行为变化
我上面提到,底层查询行为的变化导致特征文件包含大量重复行。所讨论的数据库系统使用ClickHouse的软件。
为了提供背景,了解ClickHouse分布式查询的工作原理很有帮助。ClickHouse集群由许多分片组成。要从所有分片查询数据,我们在名为default的数据库中有所谓的分布式表(由表引擎Distributed提供支持)。Distributed引擎查询名为r0的数据库中的底层表。底层表是数据存储在ClickHouse集群的每个分片上的地方。
对分布式表的查询通过共享系统账户运行。作为改进分布式查询安全性和可靠性工作的一部分,正在进行的工作是让它们在初始用户账户下运行。
在今天之前,当从ClickHouse系统表(如system.tables或system.columns)查询表元数据时,ClickHouse用户只能看到default数据库中的表。
由于用户已经对r0中的底层表具有隐式访问权限,我们在11:05进行了更改,使此访问权限显式化,以便用户也可以看到这些表的元数据。通过确保所有分布式子查询都可以在初始用户下运行,可以以更细粒度的方式评估查询限制和访问授权,避免一个用户的错误子查询影响其他用户。
上述更改导致所有用户访问他们有权访问的表的准确元数据。不幸的是,过去有一些假设,即这样的查询返回的列列表只包括"default"数据库:
SELECT
name,
type
FROM system.columns
WHERE
table = 'http_requests_features'
order by name;

请注意查询如何不过滤数据库名称。随着我们逐步向给定ClickHouse集群的用户推出显式授权,在11:
标题: Gemini 3来了。
作者: #name
板块: #搞七捻三
编号: 1185111
帖子: https://linux.do/t/topic/1185111
时间: 2025-11-19 08:16:04
摘要:
标题: cloudflare 昨晚的宕机算是互联网史上规模最大的宕机事件吗
作者: #xLinux
板块: #搞七捻三
编号: 1185118
帖子: https://linux.do/t/topic/1185118
时间: 2025-11-19 08:19:36
摘要:
不仅范围广,持续时间也长
标题: 一觉醒来谷歌都干啥了
作者: #阿拉丁神灯
板块: #搞七捻三
编号: 1185133
帖子: https://linux.do/t/topic/1185133
时间: 2025-11-19 08:27:35
摘要:
又是3.0,又是Ide,还有什么?
还不忘了提醒一下市场AI泡沫,砂仁猪心
标题: 突然发现可以直连了?
作者: #YoungYang
板块: #搞七捻三
编号: 1185134
帖子: https://linux.do/t/topic/1185134
时间: 2025-11-19 08:27:47
摘要:
佬友们,你们可以直连访问么?
昨天的故障还能影响到直连访问??
标题: 个人对Gemini 3 pro preview的使用体感
作者: #ABcopilot
板块: #搞七捻三
编号: 1185142
帖子: https://linux.do/t/topic/1185142
时间: 2025-11-19 08:29:55
摘要:
个人初步体感:


Gemini 3的“智商”确实比2.5有所提升,科研体验能感觉到差异,回答更准确了,也更少出现逻辑矛盾。


虽然知识库截止时间都宣称为2025年1月,但Gemini 3的知识库比2.5更加丰富。Gemini 3起码真的知道25年1月的事,而2.5的宣称是假的,实际超过24年7-8月的事就不知道了。


Gemini 3的虚拟创作能力,就是玩酒馆的那个,我暂时还没体验出和2.5有什么质变,不过这是我的一个特殊使用场景的初步体验,不代表综合长期体验。在用老的预设的情况下,我的使用场景中感觉3和2.5伯仲之间,有时好点有时又觉得不如的感觉。不过我的使用场景是用它创建角色卡,可能是这方面它的“创意”和2.5比起来没达到让我期待的质变的程度。也就是“做人设”的能力感觉还是没达到我的预期,但“基于已有人设去写正文”的能力可能有一定提升,至少在各个群里多数人还是感觉3比2.5强了一些。


和Gpt 5.1的对比之回复风格:Gemini 3的回复风格和隔壁Gpt 5.1在“双向奔赴”。Gemini 3的默认回复详细程度比2.5有所降低,略微精简了一些,不再事无巨细面面俱到,但仍然属于比较详细的程度。Gpt 5.1则改善了从o3以来一直不说人话的极简风格,话开始变多了解释也详细且便于理解了。两者现在都属于详细度还不错的程度,不过相比而言似乎是Gpt 5.1现在话多了一些(在verbosity参数给到high的情况下),我个人更喜欢。我以前也最喜欢Gemini 2.5 pro的那个为你操碎了心的回复风格


和Gpt 5.1的对比之科研能力:在我有限的对比案例中似乎感觉互有胜负,更多时候Gpt 5.1能提供更详细的视野和内容更丰度且结构合理的解决方案(这个可能很大程度上得益于Gpt 5.1现在更话痨,愿意把东西从多角度剖开展开分析),但也有时Gemini 3能提供一些Gpt忽略的要点。所以感觉两个还是都有使用的价值,不过我会把Gpt 5.1放在更优先的位置。(但是ai studio用起来太舒服了而且回复速度比gpt的api快很多,所以不是特
标题: 免费 24 个月 Hostinger VPS (2C/8G/100G)
作者: #Mona
板块: #福利羊毛
编号: 1185150
帖子: https://linux.do/t/topic/1185150
时间: 2025-11-19 08:34:10
摘要:
该返现仅限 Hostinger 新账户!!!
强烈建议用 新浏览器 / 无痕模式 并确保从未登录过旧账号。


先注册 TopCashback
推荐电脑浏览器操作,不要开启广告拦截。
注册链接: https://www.topcashback.com/ref/justcash


在 TopCashback 搜索 “Hostinger”,进入后点 “Get Cashback” 跳转官网
跳转前购物车必须是空的,否则返现不追踪。


Hostinger 官网选择:VPS Hosting → KVM 2(2C / 8G / 100G SSD)→ 24 个月周期




结账不要使用折扣码
返现本身就是 101%,不需要用 coupon,避免返现失效。
付款时国家选 United States,州选 Montana / Delaware / Oregon 等免税州(因为返现不返税)。


付款后返现流程
一般数小时~几天出现 Pending,等退款期过后会慢慢变成 Payable。最终返现到账≈你支付的钱,实现接近免费两年 VPS。
(Hostinger 提供 30 天退款保证,如果在预期时间没有看到 Pending,记得在 30 天内向 Hostinger 申请退款。)


最后别忘记关闭自动续订
标题: 发几个MYPT的邀请,无要求,希望认真对待别速通就行。
作者: #landy
板块: #资源荟萃
编号: 1185151
帖子: https://linux.do/t/topic/1185151
时间: 2025-11-19 08:35:15
摘要:
发几个MYPT的邀请,无要求,希望认真对待,可以练练手,积累积累经验。
路过的佬友给个赞呀,谢谢!
标题: 我今年收藏的枫叶🍁
作者: #晚安托丽娜
板块: #搞七捻三
编号: 1185162
帖子: https://linux.do/t/topic/1185162
时间: 2025-11-19 08:39:49
摘要:
是不是每片叶子颜色都不一样?
不多不少,刚好12片,“朋友”和“家人”这些词的笔画数都是12,对于枫叶来说,一场生命的轮回也是12个月,我收集完后的它们分别代表着永恒、难忘、完整与平衡
标题: Gemini3 web版也开始提供了
作者: #Haneball
板块: #开发调优
编号: 1185163
帖子: https://linux.do/t/topic/1185163
时间: 2025-11-19 08:39:56
摘要:
感觉效果还不错,可以从gpt 5.1回来了
标题: 哪个可以做Gemini 3.0的API轮询啊,手里有几个号想自己搞个自己用
作者: #wwzxc1314
板块: #搞七捻三
编号: 1185167
帖子: https://linux.do/t/topic/1185167
时间: 2025-11-19 08:41:35
摘要:
除了oneapi 还有哪个?
标题: google antigravity 卡在登录不会动了
作者: #yyds94
板块: #开发调优
编号: 1185180
帖子: https://linux.do/t/topic/1185180
时间: 2025-11-19 08:45:40
摘要:
标题: 一觉醒来,Gemini3 Pro上线了吗?
作者: #逼吧啦
板块: #前沿快讯
编号: 1185186
帖子: https://linux.do/t/topic/1185186
时间: 2025-11-19 08:46:37
摘要:
谷歌怎么这么突然,不开点发布会???
标题: 不逼自己一把,你都不知道能捅多大篓子
作者: #北哲
板块: #搞七捻三
编号: 1185195
帖子: https://linux.do/t/topic/1185195
时间: 2025-11-19 08:48:18
摘要:
玩梗)
标题: 刚发现L站左边栏添加了新东西
作者: #𝕻𝖊𝖙𝖊𝖗
板块: #搞七捻三
编号: 1185199
帖子: https://linux.do/t/topic/1185199
时间: 2025-11-19 08:50:17
摘要:
标题: AI Studio Build 里面发布一堆3D游戏,有点打脸马斯克了
作者: #Mozi
板块: #前沿快讯
编号: 1185214
帖子: https://linux.do/t/topic/1185214
时间: 2025-11-19 08:55:29
摘要:
马斯克很久以前就说要做AI游戏公司,没什么成果
Google发布会大量篇幅在用Build构建3D游戏,而且免费用A new era of intelligence with Gemini 3




accounts.google.com





登录 - Google 账号