荣振环老师推荐,移动互联网必读图书《大数据时代》-《大数据时代》书评

荣振环老师推荐,移动互联网必读图书《大数据时代》

作者:荣振环

身边很多朋友看过大数据时代,听说过大数据的概念,但当我问他们到底什么是大数据。很多人却说不出一个一二三来。

我一个朋友和我讲,大数据就经常挂在我们嘴边,但真让我解释什么是大数据,我还真说不出来。

这让我想起来,曾经有人问学贯中西的钱钟书老先生,什么是文化。

钱老的回答是,'你不问我文化是什么的时候,我还知道文化是什么;你问我文化是什么,我反而不知道文化是什么了。'

大数据也一样,我们不被问起的时候,好像知道什么是大数据,当被问到的时候,大数据到底是什么。

我个人理解,大数据就是我们人类的很多行为都可以数据化,变成沉淀下来的大样本量数据,能够为我们利用。



《大数据时代》确实是关于大数据很好的一本书,它重点告诉我们大数据的'三个不是,三个而是'。

1)不是随机样本,而是全体数据;

2)不是精确性,而是混杂性;

3)不是因果关系,而是相关关系。



不是随机样本,而是全体数据

在大数据时代,'样本=全部'不是随即样本,而是全部数据。《大数据时代》也对传统意义上的统计学构成了冲击。

在这样一个有足够强大的数据搜集和数据处理能力的时代,样本不再是万分之一,而转变成了'样本=全部',样本,就是万分之一万,技术使得我们进入全样本时代。

比如,数据应用的一个经典案例就是谷歌预测流感。

通过分析大量用户的搜索记录,比如'咳嗽'发烧'等特定词条,谷歌公司能准确预测美国冬季流感传播趋势。和官方机构相比,谷歌能提前一两周预测流感暴发,预测结果与官方数据的相关性高达97%。2009年甲型H1N1流感暴发时,'谷歌流感趋势'系统大显身手。这种分析很简单,就是基于谷歌庞大搜索记录的样本数据。

每天30亿条搜索指令,足够的数据资源,就形成的精准预测。这就是大数据的力量。

试想,这种基于数据的预测,不需要分发口腔试纸或者联系医生,只需看一下统计数据即可。

这一种前所未有的方式,海量的数据分析,便于我们获取巨大的价值的产品和服务,或产生深刻的洞见。



不是精确性,而是混杂性

不是精确性'而是混杂性。数据量的显著增大也必然会让我们付出一些代价'一些不准确的数据会混入数据库,结果也可能不准确。这就是大数据时代的另一种思维'不是精确性,而是混杂性'。

对'小数据'而言,最重要的要求就是减少错误。而在大数据的采集里,在技术尚未达到完美无缺之前,混乱是无可避的。虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的选择变的更为划算。

举个我们身边的例子,我们很多人上过豆瓣,豆瓣电影的评分还是相对比较客观的。

但是,当影片刚上映时并不是那么客观,比如某些影片刚上映时,来了好多偏方雇佣的水军和五毛党,全部给五颗星,一下子拉高影片的总体评分,后期,随着观影样本人数越来越多,这部影片的评分才趋于理性。

大数据时代,我们不要求所有数据的精确,而是容忍混杂,当混杂遇到足够多的量,也许就会得到因量汇聚而产生的精确。



不是因果关系,而是相关关系。

大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道'是什么',而不需要知道'为什么'。

人们经常谈到的例子是:沃尔玛通过对超市里人们购买行为的大量数据分析,发现男人们来买啤酒的时候,通常也会买尿布。这样的发现就让超市将尿布和啤酒摆放在一起出售,从而提高利润。

还有一个更有趣的例子是美国的塔吉特,这家零售超市居然比一个父亲更早知道他女儿怀孕。

曾经有一位男性顾客到一家塔吉特店中投诉,商店竟然给他还在读书的女儿寄婴儿用品的优惠券。

这家全美第二大零售商,会搞出如此大的乌龙?但经过这位父亲与女儿进一步沟通,才发现自己女儿真的已经怀孕了。

一家零售商是如何比一位女孩的亲生父亲更早得知其怀孕消息的呢?

每位顾客初次到塔吉特刷卡消费时,都会获得一组顾客识别编号,内含顾客姓名、信用卡卡号及电子邮件等个人资料。

日后凡是顾客在塔吉特消费,计算机系统就会自动记录消费内容、时间等信息。再加上从其他管道取得的统计资料,塔吉特便能形成一个庞大数据库,运用于分析顾客喜好与需求。

塔吉特的统计师们通过对孕妇的消费习惯进行一次次的测试和数据分析,得出了一些非常有用的结论:孕妇在怀孕头三个月过后会购买大量无味的润肤露;有时在头20周,孕妇会补充如钙、镁、锌等营养素;许多顾客都会购买肥皂和棉球,但当有女性除了购买洗手液和毛巾以外,还突然开始大量采购无味肥皂和特大包装的棉球时,说明她们的预产期要来了。

在塔吉特的数据库资料里,统计师们根据顾客内在需求数据,精准地选出其中的25种商品,对这25种商品进行同步分析,基本上可以判断出哪些顾客是孕妇,甚至还可以进一步估算出她们的预产期,在最恰当的时候给她们寄去最符合她们需要的优惠券,满足她们最实际的需求。

依靠分析消费者数据,塔吉特的年营收从2002年的440亿美元扩大到2010年的670亿美元。这家成立于1961年的零售商能有今天的成功,数据分析功不可没。

另外一个例子是亚马逊。

现在,当我们上网购物时,经常会有一个栏目向我们推荐其他的商品,如今看起来已经司空见惯。

但这个创意,你知道是怎么来的吗?

这种根据以往的购物习惯和爱好向用户推荐的方式来源于亚马逊的创举。

1994年杰夫'贝索斯(Jeff Bezos)创办了这家后来更名为'亚马逊(Amazon.com)的电子商务公司。

最初,亚马逊的内容都是由人工完成的。亚马逊聘请了一个由20人组成的书评团队,他们写书评、推荐新书,在亚马逊的网页上推荐有意思的新书,对亚马逊书籍的销量大有帮助。《华尔街日报》曾热情地称他们是全美最有影响力的书评家。

随着亚马逊的书越来越多,这样的人工操作自然越来越显得乏力低效。不久,贝索斯决定尝试更有创造性的做法,根据用户的习惯来为其推荐商品,也就是我们现在熟悉的个性化推荐。

就是我们比较熟悉的'看过此产品的顾客,还看过这些产品。'

在亚马逊的带领下,越来越多的公司开始使用这种个性化推荐系统,推动了电子商务的发展。而这种基于海量数据的推荐,也是大数据早期运用的一种形式。

现在,你可以自己做一个测试,你在百度搜索一些关键词,你就浏览一些网页时就会看到相应的广告信息。

这就是大数据,没有告诉百度你为什么需要这个,只是告诉百度你确实是需要这个。

即,不是因果关系,而是相关关系,大数据不告诉为什么,而告诉是什么。

总体而言,大数据时代透露出三个特征'更多、更杂与更好。它面向未来,要做的事情是关于'预测'。

当你有了大数据,只要找到一个关联物并监控他,我们就预测未来。

更多精彩书评,敬请关注微信公共平台'荣振环微书评':这是中国最为睿智的移动互联、营销与品牌、新技术、新思维的微书评。微信号:rongzhenhuan.

荣振环图书推荐,每日推荐一本好书。让你'好读书、读好书、读书好'。好书活用,智慧伴侣。中间穿插微品牌策略、微营销策略、微文化智慧。让你学到即能用到。每日一书,人生不输。

欢迎朋友们把好书分享给你的朋友,传递书香,共享智慧。

为您推荐

《低音出品“全国书籍设计艺术展”获奖系列图书,关照生活 关注日常 以设计

内容简介在新一辑中,《班门》各板块的结构一仍其旧,分“门?内”“门”“门?外”。以“门”为界,门内,向大师致敬、取经、学艺;门,是作品,是被大师加持的“手艺”,是“匠心营造”;门外,是后生的操练、游历、体验。在《班门?气》中,我..

《文学经典记忆-作家出版社首版珍藏图书选》内容简介|作者

内容简介成立于1953年作家出版社已经走过五十八年的风雨岁月,由中国作家协会主管,中国作家出版集团主办。自建社以来,作家出版社广泛团结中外作家,致力于荟萃当代文学佳作,扶植文坛新人,促进海内外文学交流,出版了大量的优秀..

《沙发图书馆·人间世人生的病》内容简介|作者

内容简介《人生的病》搜集民国时期文献,编选关于人生之病的散文和杂文,包括梁启超、鲁迅、老舍、茅盾、郭沫若、周作人、徐訏、郁达夫、林语堂、沈从文、丰子恺、萧红等等名家佳篇。书写人生中生理上的病症和精神上的疾..

《中国古代类书的文学观念-《事文类聚翰墨全书》与《古今图书集成》》内容

《乐器图书馆》内容简介|作者

内容简介韩国知名获奖小说家金重赫的作品集中描写了独特而又古老的东西,在这本作品集中,则汇集了钢琴、黑胶唱片、八音盒、采集乐器声音的文件、电吉他等各种声音,并且采用了更成熟、更多样的“变奏”。金重赫的文风轻快..

《冰心儿童图书奖获奖书系·十五岁的喜欢》内容简介|作者

内容简介   《十五岁的喜欢》精选了作者孙卫卫近年来发表的55篇作品,分为“岁月珍藏”、“我的故事”、“情深谊长”、“心灵感悟”、..

《中学图书馆文库京华忆往》内容简介|作者

内容简介本书编选自王先生“锦灰堆”系列,略分为游艺、饮食、文物、忆往四部,内容集中于先生对京城生活的回忆,真实再现许多已经消失了的老北京的生活乐趣、老北京人讲究地道的性格特征。王先生久居京华,京华的花鸟鱼虫、..