撕开真实数据的“羊外衣”-《统计数字会撒谎》书评

　生活的经历告诉我们做事情一定要'心中有数'，但心中有数首先要眼里有数，所以我们习惯于'实证方法'，通过调查得出统计数据，再做成表格、数字，生产车间里有箭头图，研究报告里有饼图、柱状图、折线图、曲线图、模拟曲线、回归曲线，好了，这下，我们踏实了。

　　可是，由于商业利益的存在，统计数据也会表现出倾向性，或者预先设定了倾向性。所以，让我们感到踏实的数字未必反映真实状况，我们依赖的'实证方法'未必就'实'，其过程可能是把一种倾向研究成'事实'或证明成'事实'，与其说是'实证'，还不如说是'证实'。

　　美国著名统计学家达菜尔'哈夫的名著《统计数字会撒谎》或许能让我们对于统计中的陷阱有入木三分的认识。自1954年出版至今，这本书多次重印，历久弥新。达菜尔举出许多活生生的案例，向我们一一解读了统计中的陷阱，读起来很有味道。

　　达莱尔提出，当你面对统计数据时，先要问自己5个问题：谁说的？他是如何知道的？遗漏了什么？是否有人偷换了概念？这个资料有意义么？

　　笔者很注意电视、报纸上卖药的广告，'中国有百分之'的人'缺钙'、'前列腺'、'性机能'

　　这个'百分之'是多少呢？一般是70%、80%、90%。很奇怪，过去凭票过日子的时候，中国人啥成分不缺，现在怎么什么都缺？如果把广告所警告的疾病、营养不良的百分比都拢一下，这个结果够吓人的。

　　问题的根本在于，这个危言耸听的统计是谁做的？当然是厂商做的，那么出现如此荒诞不经的统计也就不足为怪了。

　　统计的陷阱在哪里呢？首先是统计本身的不真实性，比如统计样本的选择偏差，或是样本空间过小，导致代表性差。

　　统计样本的选择偏差是比较常见的，由于调查者的主观意向或者客观失误的影响，统计样本的选择偏差直接影响到统计的结果。

　　比如，你有一桶豆子，有红色、有白色，那么红色的豆子有多少呢？如果按照统计学的办法，就是抓一把豆子（抽样），然后算一下红白豆子的比例就能够得到近似的结果。但这个前提是，红白豆子在体积形状重量上的无差异化。如果是大豆子和小豆子呢？按照物理学原理，小豆子会在桶的下面，而大豆子在上面，如果你在上面抓一把样本，就是大豆子多；在桶底抓一把样本，就是小豆子多。

　　如果抽取开发商作为样本调查房价是不是高？抽取医药人员作为样本调研医疗费高不高？说得再搞笑一些，抽取交通违章者作为样本去调查交通警的形象。那么，看似科学的统计会得出相当滑稽的结果。

　　样本的空间要足够大，才能保证统计的稳定性和可信度。比如说，抽取10个样本和抽取1000个样本，显然是不一样的。当初美国某大学有一个惊人的统计数字，该校物理系有50%的女生和男教师同居，校方大为震惊，仔细调查，确实如此，该系有两名女生，其中一人与男教师堕入爱河'

　　如果统计者在统计样本的选择上有意无意地做出一些'猫腻'来，就能够得到预期的统计结果。

　　统计的另一个陷阱在于统计之后的分析过程，在分析中，统计者是否遗漏了什么？或者忽视了统计所依赖的条件？

　　哈夫在书中举了个例子：'某年公布的数据显示，该年4月的零售额高于去年同期，于是证明经济开始进入复苏阶段，但遗漏的内容是前一年的复活节在3月，而该年的复活节在4月，所以复活节带来的消费高峰在4月'。暂时的消费高峰显然不能代表经济的转向。

　　我们经常看到这样的分析报告，某产品价格1000元，目前消费群体是10万，年收入1亿元，如果全国有百分之一的人消费该产品，就会有1300万消费群体，年收入将高达130亿元，带来'亿元的税后利润。

　　类似的分析过程我们并不陌生，但统计者忽略了一个事实，那就是从10万消费群体增加到1300万的前提是价格的大幅降低，而价格大幅降低之后，收入就不会那么多了，利润更会有很大的变化。试想，如果现在的手机还是当年大哥大的价格，能做到如此普及么？

　　以突发事件代替常态，以小样本推广到大样本，如果忽视了一些重要的因素，分析过程就会产生缺陷。即使是正确的统计数字也未必能得到正确结论。

　　桑普拉斯说，统计分析让一切假象原形毕露。但遗憾的是，统计未必能够揭示真实，有时候还可能制造假象。当我们面对生活中形形色色的统计数据的时候，千万多保持一些理智和清醒。

'

撕开真实数据的“羊外衣”-《统计数字会撒谎》书评

《中华人民共和国文化部2014年文化发展统计公报》内容简介|作者

《教育事业统计工作优秀案例(第一辑)》内容简介|作者

《决策统计分析第二版》内容简介|作者

《应用统计学-第2版》内容简介|作者

《生命统计学概论》内容简介|作者

《企业经营统计学之大数据统计》内容简介|作者

《倾向值匹配法的概述与应用:从统计关联到因果推论:fundametals and applications》内

为您推荐