怎样看穿“做假”的真实数据?(下)
2015/6/14 精读

     【导读】

     当某公司在广告中大言不惭地宣传他们的牙膏能减少23%的蛀牙时,其实被测试的用户仅由32个人组成;

     当媒体报道称“1924级的耶鲁毕业生平均年收入为25111美元”时,其实问卷的回收率只有5%~10%;

     当你自认为住进了一个平均年收入超过10万的富人区时,其实一半的居民年收入都只有区区2万元。

     为什么很多人会被这些数据忽悠?你深究过统计结果得来的过程吗?在真实的数据,如何欺骗了你?(上)这篇微课中,我们知道,人们会利用有偏的样本、精心挑选的平均数、对误差的忽略来隐瞒一些不太乐观的事实。这是导致统计数据不真实的其中三个原因,你还知道其他的原因吗?

     【一】

     统计图被“歪曲”

     在切入正题前,先来看下面这张图。

    

     有时候,单靠文字来表达统计结果,很难达到广告或宣传的效果,于是人们便利用统计图的视觉冲击来达到此目的。你也许会质疑:图表是很直观的统计数据,难道还能不真实吗?下面就来看看精挑细选的统计图是如何欺骗蒙蔽人们双眼的。

     统计专家大莱尔用一个例子为我们详细演示了统计图“歪曲”的过程。

    

     上面这张图(横坐标表示的是月份,纵坐标是每月的国民收入)是一个原始的、清晰显示一年来国民收入变化的折线图,并且变化是逐月反映出来的。

     然而画图者很快会发现,整张图按比例绘制,虽然看上去国民收入的确上升了10%,但是却不振奋人心。如果你仅仅是利用这个图来传递信息,那么目的已经达到了,但如果你是希望利用它来赢得一场争论,渲染效果就远远不够。这时候,你就可以把底部的数据抹去,最后得到下面这张图的效果:

    

     如果你觉得这样的增长趋势还是不够惊人,那就试试改变横纵坐标的比例关系,将纵坐标的每一个刻度缩减为原来的1/10,最后得到下面这张图:

    

     这样一来,是不是一下子就将原来朴实的10%的增长率看上去比100%的增长率更让人振奋?

     刻意抹去部分数据、改变图形比例,便是导致统计数据不真实的第四个原因。

     调查中左边的折线图(标题为:政府支出急剧上升!),就是美国杂志《Dun’s Review》的某个编辑在1938年时摘录的,该图形出现在一则鼓吹华盛顿广告业的广告中。但统计图折线后隐含的数据仅仅从1950万美元增长到了2020万美元。

    

     于是该杂志便利用相同的数据绘制了图形的另一版本,标题是:“政府支出保持稳定”,此时图中的折线就客观地反映了4%的增长率。因此,这两张图所描述的内容实际上是一样的。

     【二】

     统计资料不完全匹配

     什么叫不完全匹配?简单来说,就是当人们发现自己想证明某事却没有能力办到时,就会试着解释其他相关事情,并假装它们是一回事。而当人们把这样的统计资料呈现出来后,几乎没有人会发现它们的区别。

     比如随处可见的广告:“经过试验证明,该榨汁机的榨汁功能增强了26%,并且得到了好管家研究院的推荐。”

     功能增强26%的榨汁机,听起来确实不错。但这个数据意味着什么?功能增强了26%的比较对象是什么?如果只不过是一台老式的手摇榨汁机,恐怕这增强的功能就没有意义了。

     不光是广告,政府组织为了达到宣传的目的,也会利用一些毫不相干的数据来迷惑大众。

     在美国与西班牙交战期间,美国海军的死亡率是9%,而同时期纽约市民的死亡率是16%。后来海军征兵人员就用这些数据来证明参军更安全。

     但是,就算这些数据都是正确的,你是否想过这些数据产生的原因?美国海军和纽约市民这两组对象有可比性吗?海军主要都是由那些体格健壮的年轻人组成,而城市居民包括了婴儿、老人、病人,他们无论在哪儿死亡率都比较高。这样的数据就是没有可比性的,因此也无法证明符合参军标准的人在军队,比在其他地方有更高的存活机会。

     没有可比性的数据,往往也会扭曲事实。统计资料的不完全匹配,是导致统计数据不真实的第五个原因。

     【三】

     陷入相关关系的谬误

     有人曾经在探求“吸烟的大学生是否比不吸烟者成绩差”这个问题时,费尽周折后发现,结果的确如此。从此,他们便多次使用这个结论进行一些推断:抽烟使人头脑变笨;在通往好成绩的道路上,需要忍受放弃抽烟带来的痛苦。

     或许得出结论的过程是正确进行的:样本容量足够大,并且经过认真仔细的挑选,相关关系也的确十分明显。但人们没有考虑到的是,这也许是一个相反的作用关系。

     比如,不理想的分数促使学生变得爱抽烟。又或者,两个因素并不互为因果,而是第三个因素的产物。比如,那些不把读书当回事、爱社交的学生更偏爱抽烟;性格外向的学生比性格内向者更爱抽烟。但这些说法实在无法令人满意,所以总是被人忽略。

     两个事物之间的关联关系,并不能用于说明其中一个将引起另一个的变化。在条件不充分的情况下证明出这种关系,就容易陷入相关关系的谬误,这是导致统计数据不真实的第六个原因。相关关系的谬误有三种:

     ①由于机缘巧合产生的相关

     对于一些几乎不可能发生的事情,由于偶然,你或许能够收集到证明其存在的证据,但如果重新收集数据,或许第二组数据就无法证明这个结论了。就像自称能防止龋齿的牙膏生产商,只要将对自己不利的理论扔到一边,转而公开你需要的东西就能达到广告的效果。

     ②联合变动

     这种关联关系是真实的,但却无法确定何为因何为果,有时因果可以不时地交换位置,甚至互为因果。比如,收入和拥有的股票之间便是这种关系:拥有越多的钱,便能买到更多股票,同时,手头上的股票越多,又可以为你获取更多收入。

     ③显著的相关性中,所有变量之间无任何影响

     抽烟者与成绩的不好就属于这种相关谬误。还有一个真实的统计案例,也反映了这种虚伪相关。比如,美国曾经就有人指出,在马萨诸塞州,长老教会会长的收入与哈瓦那阿朗姆酒的价格之间密切相关。

     在这一结论中,谁是因谁是果?我们能得出教会会长从朗姆酒贸易中获益,或会长支持该贸易的结论吗?这是否过于牵强?实际上,会长收入和朗姆酒价格还受到了第三个因素的影响,即历史性或全世界范围内物价水平的上涨,也会导致收入和价格这两个数据的增长。

     虽然经验告诉我们“眼见为实”,但眼睛告诉我们的“真相”有时却会隐瞒或夸大事实。因此,我们必须掌握一些技巧,让自己不被“科学”的结论所愚弄,从而轻松地走出迷宫:

     无所谓慢慢来

     迷宫一样的未来

     转一个圈会到哪里

     我喜欢爱情有点神秘

     无所谓就算爱

     像空沙发在等待

     拥抱着是不确定

     我喜欢爱情多点惊喜

     【技巧一】

     查看数据中的遗漏点

     ①仔细观察统计图中的数据

     阅读统计图时,我们不能把注意力集中在图形的直观效果上,而应深究隐含的数据,通过数据的对比得出结论,才不会被看似“惊人”的变化图所迷惑。

     比如【一】中“政府支出急剧上升!”的图,如果仔细阅读图中的数字并进行分析,就能得出“财政支出平稳增长了4%”的结论。但如果只看统计图,或许你永远也无法发现,绘图者为了达到宣传效果,将纵轴的数据抹去,放大纵轴的比例,单纯通过观察得出的结论就变成了:政府支出急剧上升!

     ②查看引起变化的原因

     比如,某个报告得出“最近25年癌症死亡人数增多”的结论,你就要反问:癌症的死亡人数真的有增加吗?数据中是否遗漏了引起这一变化的原因:以前许多“病因不明”的案例现在已经确诊为癌症;尸体解剖成为一种经常使用的方法,因此出现更多确诊的癌症病例;医学统计资料的报告和编制更加全面;易发病年龄段的人数增多等等。

     【技巧二】

     查看数据中是否被偷换了概念

     在分析统计资料时,请留心从搜集原始资料,到形成结论的整个过程中,是否存在着概念的偷换。也就是将看上去极像、而完全不同的两件事混淆在一起。交通事故死亡人数的增多,不能等同于交通事故死亡率的提高。

     比如,对“去年因飞机失事造成的死亡人数比1910年多”这个结论来说,并不意味着乘坐飞机很危险,因为现在选择飞机作为交通工具的人已经是以前的几百倍了。

     如果你出门远行前十分关注旅途的安全,那么询问去年火车、飞机、汽车哪一种交通方式的意外事故多,并直接比较这些数据来进行判断是不正确的。只有通过询问每100万乘客里程的遇难人数,并进行比较才能确定哪种方式的风险最大。

     此外,在相关分析中自命不凡地胡说也是一种偷换概念的手法,即将“相关关系”偷换成“因果关系”

     在吸烟和大学生学习成绩相关性的案例中,吸烟和低分只是一种相关的关系,但并不是说如果低分紧跟着吸烟出现,那么吸烟就是导致低分的原因。

     “抽烟导致低分”的无根据设想,就是运用真实的相关关系来支持一个未经证实的因果关系。因为这里的因果关系也可能正好相反,不理想的分数也有可能促使学生变得爱抽烟。另外,导致学生爱抽烟的原因还有可能是诸如性格等的第三个因素。只是这种结果对于宣传者来说,很难达到积极有效的宣传效果。

     【技巧三】

     警惕外推法得来的无意义数据

     什么是外推法?外推是根据过去和现在的发展趋势推断未来的一种方法。它是一种很好的近似计算方法。对于已求得的低精度近似值,只要作几次最简单的四则运算,便立刻得到高精度的近似值。有时,通过这种方法分析统计数据,并对未来趋势进行预测而来的结论,往往就会与实际情况相左。

     几年前,美国一家大型电器设备公司就以出生率不断下降为基础,高效地制定出了战后的生产计划,并将小容量家电设备、公寓式冰箱确定为生产重点。但其中一个计划者就突然发现计划与常识的冲突,他用足够长的图表列举了这样的事实:他本人、合作伙伴、朋友以及他的邻居都有了孩子,甚至还打算要3~4个孩子,而这个事实机会对所有人适用。

     这导致了一些开放式的调查与制图,不久后,这家公司便快速地将它的生产重点转移到大家庭使用的电器上,最后才获得了丰厚的盈利。由此可见,计划者需要预见实际情况的转折,并快速调整自己的计划。

     外推法在预测趋势时其实是十分有用的,但当看到利用外推法计算出来的数据和图表时,一定要记住的是:到目前为止的趋势都是事实,而未来的趋势只不过是受教育者的猜测。该方法暗含“其他所有条件都相同”以及“现有趋势将继续下去”的前提。但实际上,条件会一直变化。

     作者:精读 [Jingdu999]

     阅读精读微信更多微课

     请点击左下角阅读原文

    http://weixin.100md.com
返回 精读 返回首页 返回百拇医药