撕开真实数据的“羊外衣”-《统计数字会撒谎》书评

 生活的经历告诉我们做事情一定要'心中有数',但心中有数首先要眼里有数,所以我们习惯于'实证方法',通过调查得出统计数据,再做成表格、数字,生产车间里有箭头图,研究报告里有饼图、柱状图、折线图、曲线图、模拟曲线、回归曲线,好了,这下,我们踏实了。

  可是,由于商业利益的存在,统计数据也会表现出倾向性,或者预先设定了倾向性。所以,让我们感到踏实的数字未必反映真实状况,我们依赖的'实证方法'未必就'实',其过程可能是把一种倾向研究成'事实'或证明成'事实',与其说是'实证',还不如说是'证实'。

  美国著名统计学家达菜尔'哈夫的名著《统计数字会撒谎》或许能让我们对于统计中的陷阱有入木三分的认识。自1954年出版至今,这本书多次重印,历久弥新。达菜尔举出许多活生生的案例,向我们一一解读了统计中的陷阱,读起来很有味道。

  达莱尔提出,当你面对统计数据时,先要问自己5个问题:谁说的?他是如何知道的?遗漏了什么?是否有人偷换了概念?这个资料有意义么?

  笔者很注意电视、报纸上卖药的广告,'中国有百分之'的人'缺钙'、'前列腺'、'性机能'

  这个'百分之'是多少呢?一般是70%、80%、90%。很奇怪,过去凭票过日子的时候,中国人啥成分不缺,现在怎么什么都缺?如果把广告所警告的疾病、营养不良的百分比都拢一下,这个结果够吓人的。

  问题的根本在于,这个危言耸听的统计是谁做的?当然是厂商做的,那么出现如此荒诞不经的统计也就不足为怪了。

  统计的陷阱在哪里呢?首先是统计本身的不真实性,比如统计样本的选择偏差,或是样本空间过小,导致代表性差。

  统计样本的选择偏差是比较常见的,由于调查者的主观意向或者客观失误的影响,统计样本的选择偏差直接影响到统计的结果。

  比如,你有一桶豆子,有红色、有白色,那么红色的豆子有多少呢?如果按照统计学的办法,就是抓一把豆子(抽样),然后算一下红白豆子的比例就能够得到近似的结果。但这个前提是,红白豆子在体积形状重量上的无差异化。如果是大豆子和小豆子呢?按照物理学原理,小豆子会在桶的下面,而大豆子在上面,如果你在上面抓一把样本,就是大豆子多;在桶底抓一把样本,就是小豆子多。

  如果抽取开发商作为样本调查房价是不是高?抽取医药人员作为样本调研医疗费高不高?说得再搞笑一些,抽取交通违章者作为样本去调查交通警的形象。那么,看似科学的统计会得出相当滑稽的结果。

  样本的空间要足够大,才能保证统计的稳定性和可信度。比如说,抽取10个样本和抽取1000个样本,显然是不一样的。当初美国某大学有一个惊人的统计数字,该校物理系有50%的女生和男教师同居,校方大为震惊,仔细调查,确实如此,该系有两名女生,其中一人与男教师堕入爱河'

  如果统计者在统计样本的选择上有意无意地做出一些'猫腻'来,就能够得到预期的统计结果。

  统计的另一个陷阱在于统计之后的分析过程,在分析中,统计者是否遗漏了什么?或者忽视了统计所依赖的条件?

  哈夫在书中举了个例子:'某年公布的数据显示,该年4月的零售额高于去年同期,于是证明经济开始进入复苏阶段,但遗漏的内容是前一年的复活节在3月,而该年的复活节在4月,所以复活节带来的消费高峰在4月'。暂时的消费高峰显然不能代表经济的转向。

  我们经常看到这样的分析报告,某产品价格1000元,目前消费群体是10万,年收入1亿元,如果全国有百分之一的人消费该产品,就会有1300万消费群体,年收入将高达130亿元,带来'亿元的税后利润。

  类似的分析过程我们并不陌生,但统计者忽略了一个事实,那就是从10万消费群体增加到1300万的前提是价格的大幅降低,而价格大幅降低之后,收入就不会那么多了,利润更会有很大的变化。试想,如果现在的手机还是当年大哥大的价格,能做到如此普及么?

  以突发事件代替常态,以小样本推广到大样本,如果忽视了一些重要的因素,分析过程就会产生缺陷。即使是正确的统计数字也未必能得到正确结论。

  桑普拉斯说,统计分析让一切假象原形毕露。但遗憾的是,统计未必能够揭示真实,有时候还可能制造假象。当我们面对生活中形形色色的统计数据的时候,千万多保持一些理智和清醒。

'

为您推荐

《中华人民共和国文化部2014年文化发展统计公报》内容简介|作者

内容简介  2014年,全国文化系统认真贯彻落实党的十八大和十八届三中、四中全会精神,深入学习领会习近平总书记系列重要讲话精神,紧紧围绕社会主义文化强国建设,培育践行社会主义核心价值观,牢固树立以人民为中心的工作导..

《教育事业统计工作优秀案例(第一辑)》内容简介|作者

内容简介本书从更好地传播和共享教育统计工作的经验、促进教育统计工作交流的角度出发, 比较精炼地展示了2018年教育事业统计工作案例征集活动中获得一等奖、二等奖的案例 (15篇) 。书中案例多来自基层, 具有很强的实..

《决策统计分析 第二版》内容简介|作者

内容简介    《决策统计分析(第2版)/普能高等教育“十一五”国家级规划教材·公共行政核心课程系列教材》尽量用非数学的语言深入浅出地介绍了决策分析中的统计方法以及多目标决策,其中包括不确定条件下的决策、风险..

《应用统计学-第2版》内容简介|作者

《生命统计学概论》内容简介|作者

内容简介本书依据民国25 (1936) 商务印书馆于上海出版的 (美) 辉伯尔 (G.C.Whipple) 著、张世文译的图书版本为底本影印复制, 编入“民国西学要籍汉译文献”的社会学系列。本书内容包括:人口统计学、统计的算学、统计..

《企业经营统计学之大数据统计》内容简介|作者

内容简介  《企业经营统计学之大数据统计》针对企业经营统计学中大数据的收集、整合与分析进行研究,能够解决大数据的聚通用问题。主要依托政治经济学、管理学、统计学、会计学与哲学等理论,系统论述中国特色社会主义..

《倾向值匹配法的概述与应用:从统计关联到因果推论:fundametals and applications》内

内容简介20世纪以来,社会科学学者越来越希望能像自然科学学者一样,说因道果,以确立研究的 科学性 ,然而他们的研究往往发现的是关联性,而非因果关系。倾向值匹配法,在21世纪初横空出世,成为当代定量方法中一颗闪耀的新星,正是..