赏读|数字也会误导人
北京青年报客户端 2023-12-22 21:00
虽说利用统计数据撒谎很容易,但不用统计数据时撒谎更容易。 ——或来自统计学家弗雷德里克· 莫斯泰勒 (Frederick Mosteller)

新冠病毒病让世界上了一堂代价高昂的统计概念速成课。人们突然发现自己必须了解什么是指数曲线、感染死亡率与病死率、假阳性与假阴性、不确定性区间。其中一些概念显然很复杂,但即使那些感觉上本该很简单的概念—比如死于病毒的人数—实际上也很难把握。在本章中,我们就来看一个貌似直截了当的数字会如何出其不意地误导我们。

一开始,我们所有人都不得不去搞清楚的一个数字就是“R值”。在2019年12月,50个人里都很可能找不出两个人知道R值是什么,然而到了2020年3月末,主流新闻报道在讨论R值时几乎不再做解释。但是由于数字会以微妙的方式出状况,出于好意地告知读者R值的变化,最终还是让人们产生了误解。

给你点提示:R是某种事物的“再生数”。它可以适用于任何会传播或繁殖的东西:网络梗图、人类、打哈欠、新技术等。在传染病流行病学中,R值代表平均有多少人会被一个患有某疾病的人感染。如果某种病的R值为5,那么平均每个被感染的患者会感染另外五个人。

当然,它没这么简单,因为它是一个平均值。假如有100个人,R值为5意味的可能是每一个人都不多不少地感染了5个人;也可能是其中99人完全没有感染任何人,但余下的一个人感染了500人;或任何介于这两种之间的情况。

它也不会一成不变。在新疾病暴发的初期,人群中没有人对病原体有免疫力,可能也不存在任何应对措施(如保持社交距离或戴口罩),那时的R值和后来的R值可能非常不同。在疾病暴发期,公共卫生政策的一个目标就是通过接种疫苗或改变行为来降低R值,因为如果R值大于1,疾病将呈指数级传播,如果小于1,疾病将逐渐消失。

但也许你会觉得,在谈论病毒时,在这些复杂的因素被纳入考量后会有一个简单的规则:R值越高越不好。因此,当英国媒体在2020年5月警告“病毒的R值或已回升”[1],原因是“养老院感染激增”[2],你大概不会对这种标题里的语气感到惊讶。

但你可能已经预料到了,事情要更复杂一些。

从2000年到2013年,美国实际工资(“实际”即经通胀调整后)的中位数(median)上涨了约1%[3]。工资中位数上涨听起来是件好事。但是,将全人群分成较小的亚组来看的话,你会发现一些蹊跷。没读完高中的人,工资中位数下降了7.9%;高中毕业者的工资中位数下降了4.7%;上了大学但未取得学位的人,工资中位数下降了7.6%;获得大学学位的人,工资中位数下降了1.2%。

上完高中的人和没上完高中的人,上完大学的人和没上完大学的人,无论哪个教育水平亚组,工资中位数都下降了。而总体人群的工资中位数却上升了。

这是怎么回事?

原来,虽然拥有大学学位的人工资中位数下降了,但该亚组的人数却大大增加了。结果,中位数出现了奇怪的走向。这种现象叫“辛普森悖论”,以英国密码破译者和统计学家爱德华·H.辛普森(Edward H. Simpson)命名,他在1951年描述了这里的现象[4]。这种现象不仅会发生在中位数上,也会发生在算术平均数上,但在我们的例子中,我们暂且看中位数。

假设总体人数为11。其中3人高中辍学,年收入5英镑;3人完成了高中学业,年收入10镑;3人大学辍学,年收入15镑;2人获得了学士学位,年收入20镑。全人群的工资中位数(即在序列中间的那个人的工资)为10镑。

然后,有一年,政府大力推动更多人念完高中和大学。但与此同时,每个亚组的平均工资下降了1镑。突然间,高中辍学生变成了2人,年收入4镑;高中毕业生2人,收入9镑;大学辍学生2人,收入14镑;本科毕业生5人,收入19镑。每个亚组的中位数都下降了,但全人群的中位数从10镑升到了14镑。2000年至2013年间,现实中的美国经济就发生了类似情况,只是数字更大。

这种现象惊人地普遍。例如,美国黑人的吸烟概率高于白人;但控制教育水平这一变量后,你会发现,在每个教育水平亚组中,黑人的吸烟概率都低于白人。这是因为,受过较高教育的亚组通常较少吸烟,而黑人在这一亚组中比例较低。[5]

还有个著名的例子。1973年9月,8000名男性和4000名女性申请进入加州大学伯克利分校的研究生院。其中,男性申请者有44%被录取,而女性申请者的录取率只有35%。

但如果仔细研究这些数据,你会注意到,在这所大学的几乎每个院系中,女性申请者的录取概率都更高。报考最热门院系的女性中,82%被录取,而男性申请者中只有62%被录取。第二热门的院系录取了68%的女性申请者和65%的男性申请者。

实际情况是,女性申请的院系通常竞争更激烈。比如,有一个系收到了933份申请,其中女性有108人。该系录取了82%的女性申请者和62%的男性申请者。而与此同时,热门排行第六的系收到了714份申请,其中女性有341人。该系只录取了7%的女性申请者和6%的男性申请者。

但如果将这两个系的数据合在一起,总共就有449名女性申请者和1199名男性申请者。女性申请者中有111人被录取,录取率25%;男性有533人被录取,录取率44%。

这回又是,分别看这两个系,女性的录取概率更大;但将两个系合起来看,女性的录取概率就更小。

我们该怎样看待这样的结果?这得看情况。在美国工资的例子中,你可能会说,总体中位数提供的信息更翔实,因为美国个人工资的中位数上升了(因为完成大学和高中学业的美国人变多了);你也可能会说,无论申请哪个系,一般来说女性都比男性更有可能被录取。但你同样可以指出,对于那些没有获得高中文凭的人来说,情况变糟了;你还可以指出,女性想要申请的院系显然资源不足,因为这些院系只能录取极少的申请人。问题是,在辛普森悖论出现时,你可以使用相同的数据来讲述截然相反的故事,这取决于你想表达哪种政治观点。而诚实的做法是说明这里面有辛普森悖论。

让我们回到新冠病毒的R值。R值升高了,说明病毒正在传播给更多的人,这不是件好事。不过,毫无疑问,实际情况要更复杂。有两场几乎不相关的“流行病”正在同时传播:疾病在养老院和医院的传播,是不同于在范围更广的社区的传播的。

因为没有发布确切数字,所以我们不知道更详细的信息。但是我们可以再做一次与前例类似的思想实验。假设养老院和一般社区里各有100人患有这种疾病。平均而言,社区中的每个病例会将疾病传播给2个人,而养老院中的每个病例会将疾病传播给3人。R值(每个疾病携带者会感染的平均人数)为2.5。

接着我们进入了封锁。感染人数下降,R值也随之下降。但是—很关键—社区的R值降幅要大过养老院。现在,养老院有90名感染者,每人平均会将疾病传播给2.9个人,而社区有10名感染者,每个感染者平均传染1个人。

现在,R值是2.71(((90×2.9)+(10×1))/100 = 2.71)。R值上升了!但实际上两个亚组的R值都下降了。

怎么看待这种现象才对?我们再次发现,答案不一定是显然的。也许你更关心总体的R值,因为这两处的流行病并不是真的没有关联。但答案肯定不是“R值上升就不好”这么简单。

当你试图通过观察一组人群的人均情况来了解个人或亚组时,就会出现“区群谬误”(ecological fallacy),这是一个更广义的问题,辛普森悖论就是区群谬误的一个例子。区群谬误可能比你想象得更普遍。新闻标题里的数字可能掩盖更复杂的真相,对于读者和记者来说,明白这一点很重要;要理解这些数字的意义,你可能需要进一步仔细分析。

最新评论