乌鸦观察 – Telegram

乌鸦观察

#数据 #质量 #滞后 #单一归因

请谨慎使用质量很差的滞后数据做单一归因。

1）什么叫“质量很差的数据”？

我们通常用来做分析的数据，例如公司营收、宏观经济指标，它们当然也有误差，但与真实值至少是同一个数量级、同一个方向的（即数据反映“增长”，真实情况也是增长）。但是，疫情中各地汇报的数据，例如确诊病例、死亡病例，不仅与真实值有误差，而且我们完全不知道它们与真实值是否为同一个数量级，我们甚至无法确定它们的符号是否正确（确诊人数下降是否真的表示感染人数下降）。

为什么疫情数据的质量很差呢？

原因是各地的检测能力不同，允许民众检测的标准不同，判断是否感染的标准也不同。例如，加州看起来比纽约州的情况要好，但加州检测的人数是纽约的六分之一，而加州总人口是纽约的四倍。对比两个地方的“数据”就毫无意义。

就连大家认为很适合比较的死亡人数，不同地区对“病人是否因新冠病毒而死”的定义也不同，所以“比较死亡人数”可能也不是我们想象的那么有意义。若是比较同一地区前后的变化，我们也要确认上述提到的标准在这个地区前后都保持了一致——显然，很多地方的检测、确诊标准都在某个时间点发生了变化，所以纵向比较同一个地区前后的数据也没有意义。

2）什么叫做“滞后的数据”？

疫情的数据不仅质量很差，而且反映的都是该地区两三周以前的情况——病人从感染到出现症状要好几天，病人从出现症状到就医、接受检测也要好几天，很多地方的检测出结果又要好几天。所以，我们通过数据看到的，都是两三周之前的世界。

可能你会说，那我们在分析数据的时候考虑到延迟不就行了？是的，但难点在于，疫情是指数增长的，且我们对病毒还有很多不了解的地方，如果非要从滞后两三周的数据来推测现在的情况，那一定包含很多额外的假设，不确定性会很高。

3）什么叫做“单一归因”？

以前我写过（），讲故事的时候如果把复杂事件归结到一个因素上，故事可以讲得非常顺畅，大家听起来会很爽——与其解释 A、B、C、D 之间如何相互作用，共同导致了结果 X，且 A、B、C、D 各起了多大作用我们也不确定，倒不如简单说是 A 且只有 A 导致了 X。讲故事的人在简化的过程中会丢掉很多重要事实，但听故事的人只会觉得故事好听。

疫情也是一样。这样复杂的问题，我们仔细想想可能可以找到几十个影响因素：政策制定者的动机、政策制定者的专业水平、政策制定者的执行能力、民众对政策制定者的信任度、民众的风险接受程度、政策制定者及民众过往处理重大公共卫生危机的经验、地理、气候、交通网络、人口结构、人口密度、民众平时的社交距离、民众平时的卫生习惯、病情最早爆发的区域、政策制定者准备的时间……

我们的样本里只有两百个国家，疫情也只发生了一次，没有人可以很自信地说“就是 A 导致了 X”，我们甚至很难确定 A 是否是主要因素。

4）当然，我不是说大家应该放弃收集、分析数据。一个有数据的世界当然好过一个没有数据的世界。

只是，我们在讲故事的时候要认识到自己故事里隐含的假设、隐含的不确定性。我们在听故事的时候也要警惕那些 “A 且只有 A 导致了 X”的叙述。(yiqin_fu)

529 views15:28

About

Blog

Apps

Platform