获取更多信息请下载APP

幸存者偏差:统计样本的逻辑陷阱

来源:    发布日期:2018-06-20 18:16:18   阅读量:0

编辑/吉菁菁

6月7日上午,2018年各地高考作文题目陆续公布,其中,全国Ⅱ卷的“战斗机为何应防护弹痕少的部位”引发热议。

这道作文题的素材为:“二战”期间,为了加强对战机的防护,英美军方调查了作战后幸存飞机上弹痕的分布,决定哪里弹痕多就加强哪里,然而统计学家沃德力排众议,指出更应该注意弹痕少的部位,因为这些部位受到重创的战机,很难有机会返航,而这部分数据被忽略了。事实证明,沃德是正确的。

要求:综合材料内容及含意,选好角度,确定立意,明确文体,自拟标题;不要套作,不得抄袭;不少于800字。

细看文题,发现此文并不好做。对于那些不了解航空的学生,参透文题的内在逻辑命门确需一点周折。这一命题,来自并属于一位数学家的战争,这位数学家叫做亚伯拉罕·沃德。

▲弹孔分布假想图:如果你是决策者,你会选择将哪里加固呢?

“幸存者偏差”理论的诞生

1902年出生在奥匈帝国(今罗马尼亚)的沃德是犹太人,31岁成为数学博士,在祖国境内却无法在任何一所大学谋得教职。1938年纳粹策划德奥合并,沃德及家人迁往美国,在美国考尔斯经济研究委员会找到一份工作。

美国参战后,沃德等来了证明自己价值的机会。为减少美国重型轰炸机在欧洲战场上的损失,美国希望通过统计方式找出改进轰炸机设计的有效途径。军方组织大量人力调查了那些执行完轰炸任务返航的轰炸机,对其中弹部位及中弹数量作详细记录。人们注意到,许多重型轰炸机踉踉跄跄返回基地时,机身上千疮百孔简直像是瑞士奶酪。从中弹数量看,机身部位几乎是发动机部位的两倍。飞机的机翼中弹数量甚至比机身更多。

▲统计学家亚伯拉罕·沃德得出了“幸存者偏差”理论

依据这些数据作出结论似乎不难。既然机身部位中弹最多,那就加强机身防护好了,美军高层就此打算在机身部位增设装甲。机身内部有各种重要设备以及乘员,为频频遭受打击的机身部位增加装甲以保护乘员看似非常合理。

但参与这项工作的沃德却不这样认为。在他看来这是大错特错的决定。他精心撰写了报告,向军方高层解释说,正确的做法恰恰相反,应该为那些没有弹孔或弹孔不多的部位增设装甲。其中的理由乍听起来有些费解,但却充满数学家的智慧:这些采样数据仅仅是来自那些中弹后返航的飞机,它们只能代表幸存飞机的某些特征,而不能代表参加轰炸行动的全部飞机。

换言之,采样数据不具备普遍的代表性。从科学角度出发,应该对所有飞机进行采样,需要追加的样本应该是那些中弹后未能返航,已经变为扭曲残骸的飞机。以当时条件无法追加调查这些样本,但这些幸存飞机样本仍能说明某些问题,它们的中弹分布数据恰恰说明,机身和机翼在遭受严重损伤情况下仍能保持足够的飞行性能。但在返航飞机中发动机受损的比例并不高,这并不是因为发动机中弹机会不多,而是因为发动机被命中情况下飞机基本不可能返航。

另一种简化方式有助于参悟沃德的理论。仅以高炮威胁为例,在只能仰仗光学测距仪和机械指挥仪的条件下,高炮根本无法精确瞄准高空轰炸机的特定部位,它们是在向那一片天空喷射炮弹。从概率学考量,这种射击方式导致炮弹破片在轰炸机飞行区域呈均衡分布,飞机各部位中弹几率不会有太大差异。

何以那些机身和机翼布满可怕破洞的飞机飞了回来,而另一些则没能返航?只能说明这些部位之外中弹的飞机返航的概率极低。这表明那些“返航样本”中弹较少的部位,才是真正的致命部位。

一语惊醒梦中人。美军高层立即采纳了沃德的建议,增强那些致命部位的防护。沃德的少数派报告让军方把防护重点集中在飞机致命部位而不是抗损性更强的机身和机翼,大大提高了飞机生存性能。此举拯救了无数轰炸机机组人员的生命。

沃德及其同伴们在昏暗的办公室里,用写写算算的特殊方式打赢了一场属于他们的战争。其战果之辉煌,丝毫不亚于那些最为宏大的战役。

▲1944年轰炸法国土伦行动中,一 架美军B-24“解放者”轰炸机被高炮 炮弹撕掉了右翼后缘。即便如此,这样的飞机仍有返航的可能。

尽量获取全方位的信息

沃德的真知灼见不但持续了整个二战,还一直沿用到了今天。没人知道他的这一洞见拯救了多少飞机——也许只有军方自己掌握着数据,但它现在依然在全社会的所有领域发挥着威力。

死掉的数据不会开口讲话,这被人们称作“幸存者偏差”。从统计学上来说,“幸存者偏差”理论属于一种因信息不足而导致的偏差。我们常常忽略了数据筛选过程中的逻辑陷阱,过分关注眼前的显著信息,而“看不见”不显著的信息甚至沉默信息,因此会在认识上产生偏差,从而得出一个错误结论。

在生活中,“幸存者偏差”这种谬境十分常见:“美女在职场能获得更好待遇”“学历不重要辍学照样成功”等,都是类似认知陷阱。

有时候,这种信息不足是因为我们自己想不到。假如你受邀去朋友家里玩,打开他家冰箱一看全都是蔬菜和水果。你也许会想当然地认为他是个注重饮食健康的人。但是,这件事还有另一种完全相反的可能性:你的朋友吃光了购买的所有汉堡、炸鸡等垃圾食品,单单剩下了蔬菜水果不愿意吃。另有一种信息不足的情况是由选择性报道导致的,像一些励志“鸡汤”成功学,很多媒体或出版社为了迎合市场,会刻意将失败案例隐去。

要获取完整的信息是很困难的,就算是统计学专家也做不到完全没有误差,但是这种“幸存者偏差”理论却值得我们警惕,尤其是在如今互联网信息传递极快的世界,不能“偏听则暗”,而是要尽可能获取全方位的信息。

▲今年的俄罗斯世界杯,一只毛茸茸的白猫阿喀琉 斯(Achilles) 成为比赛的预言官。而 2010年世界杯的预 言官章鱼保罗,曾连续预测正确八场 比赛,从而成为家喻户晓的明星。其实有很多动物都参与了2010年世界杯 的预测,只有章鱼保罗因为预测正确而被媒体报道,这就是一次典型的“幸存者偏差”。

如何聪明地选择统计样本

“幸存者偏差”背后更值得深究的问题是:我们如何选择评估样本?在进行统计调查特别是抽样调查时,我们必须确认,接受评估的群体中,每一个成员都有均等的机会入选样本,否则最终得出的结论就会有偏颇。

1936年的美国总统选举就是个很好的例子。《文学文摘(The Literary Digest)》于事前进行了大规模的民调。他们向读者邮寄了1,000万份问卷,回收了230万份。根据读者的反馈,《文学文摘》预测阿尔夫·兰登将会以绝对优势战胜罗斯福,顺利当选总统。结果事实恰好相反,罗斯福成功连任,实力打脸。

这么大的统计样本,为什么还会产生这种误差呢?其原因就是样本选择的失误,又叫做“选择偏倚”。回收的230万份问卷是受访者的自愿选择,他们对此议题有着强烈的兴趣,根本算不上随机样本。文学文摘杂志社还通过电话调查的方式对自己的读者进行了抽样调查,但在当时,能订购杂志、安装电话的家庭大多很富裕,他们的观点并不能代表全美民众。

▲在统计学中,对样本的选择其实大有讲究

选择偏倚还有其他很多种形式。在机场做消费者问卷调查很可能造成偏倚,因为坐飞机的人大体上会比一般人更富裕;而在一些贫穷街区做同样的调查,问卷结果又会偏向另一端。这类调查所共同面对的问题是,收到的反馈都来自那些愿意在公共场合接受问卷调查的人,而他们同那些不愿意被打扰的人又大不相同。如果你在公共场合向100个人做一份简短的调查,其中只有60人愿意,剩下40个看都不看你一眼就走开。那么这60个人的数据显然就有失偏颇。

每项重要的研究背后都离不开好的数据,是它们使分析成为可能。错误选用的数据,往往会使我们得出完全相反的结论。■

(综合自“云端春秋”微信公众号、煎蛋网、果壳网