不懂数据不可怕,可怕的是不懂数据造假术-《统计数字会撒谎》书评
但,时运不济,总是有些信息会漏过重重设防,不经意间就落入法眼,还试图成为我们的朋友和助手,左右我们的观点和意见。为了提高自己的说服力,它们常常着重描述自己出身的纯正,再者,就顶一个帽子 '据统计'。我们常被这三个字害了,还没处说理。有次,某偏远县到外地招商,材料上写着'据统计,本县主城区内去年住宅商品房平均售价XXXX元/平米',房产商跟地价合一起算了利润很高,就派人兴冲冲地去了。下车一看就傻了,整个县城只有两条街,两个商品住宅楼盘,合一块整一年就卖了不到十套,其中两套还是别墅,而且是这两个开发商老板自己住的。招商材料里只写了'售价',可没说有没有按照这个价格成交。即便真是成交价,靠这样数量的样本做决策投资,造出来的房子估计得卖十年。可见,没有语境的统计数字靠不住。
有语境的也不一定能信得过。有专业文章研究工业租金的模型。同样的模型,代入伦敦的GDP说明伦敦的工业租金水平,好使;代入巴黎的GDP说明巴黎工业租金水平,也好使;用上海的GDP说明上海的工业租金水平',不好使。作者使劲一琢磨,模型里其它都不变,就把GDP换成发电量来说明上海的工业租金水平,这回也好使!所以,文章最后总结:上海的电表数字水分不大。
统计数字的这些圈套,都是老把戏。达莱尔'哈夫(Darrell Huff)在上世纪50年代就发现'统计'这貌似神秘的语言就常常被出于主观或者客观的原因而滥用,常常无法描述应该表达的客观事实,更有甚者,还误导读者形成与事实情况大相径庭的看法和决定。他出于武装读者的头脑,提供自卫技巧的目的,于1954年出版了《How to Lie with Statistics》一书。持续50年的畅销和再版,帮助了一代又一代的读者看穿统计背后的'骗术',找到值得信赖的事实。
事实和关于事实的信息常被混为一谈。如果事实是天然存在的,那么关于事实的信息都是在认知过程中经过了人为加工。因此,当事实特征转变成信息时,自然就会在描述上有尺度和角度的偏差。在这里,尺度,就是标准与对比;角度,就是样本与描述。'统计'作为描述事实数量的工具而存在,也不可避免的在这两个范畴中的破绽重重。而《How to Lie with Statistics》就是一本破绽说明书。在书中,破绽类型介绍的详尽明了,虽然事例略显陈旧,但描述依然生动有趣,表达清晰。
跟'破绽'联系在一起的双方,必有一个倒霉。就像古代武将在两军阵前单挑,技高一筹的常常'卖个破绽',把对手一把擒来。也有遇到时运不济的,'露出破绽',被对手一枪刺于马下。虽然说技巧运用之妙,只能存乎一心,但我们至少不想成为那个倒霉蛋。一旦对手祭起'统计数字'这个法宝,我们就算出于自卫需要,也得事先好好看看这本书。
顺便说一句,对于学有余力的读者,把它当'骗子宝典'也是很好的选择。