大数据的要义——迈尔-舍恩伯格 库克耶《大数据时代》札记之一-《大数据时代》书评
大数据,一个日益升温的时髦词语。不仅是马云等互联网巨头把大数据作为下一步的战略重点,就是那些传统的企业们也在大数据面前有些怦然心动。何谓大数据?如果以数据论之,则古已有之。古人很早就知道利用数据来分析规律和指导实践应用,典型的像天文学和地理学。但只有今天才称得上大数据时代。
大数据,首先体现为数据规模的庞大,实现了数据的大范围收集、大容量储存、大角度分析和大视野应用。这一切的实现得益于人类数据收集手段的飞跃、储存手段的极大改善和计算分析能力质的提升,其基础正是互联网和现代信息技术。
但大数据仅仅体现为数据规模的宏大还是不够的,大也是有边界的,而世界是无穷的,大数据的对应物更多的是过去的抽样调查。互联网让大数据的来源有了现实的可能,云计算让大量数据的储存有了现实的可能,现代计算机技术让大量数据分析有了现实的可能,过去基于上述限制的抽样调查法终于可以挣脱技术的限制,以全样本的形式展开调查、统计和分析。从这个意义上讲,'大数据'叫作'全数据'才更贴切!
既然是大数据,前提是现实事物的数据化,由于现实生活的千差万别,必须导致大量数据录入过程中的数据非标准化问题,但大数据对此的处理原则是接受这些非标准化数据并储存和分析。大数据坚信,全样本可以克服数据非标准化带来的影响,让最终的分析结果依然较传统的精准抽样分析更可靠。也就是今天大数据宣扬的,让专家走下神坛!
但也必须注意,不可对大数据过于迷信甚至依赖,大数据既然以大量非标准化数据作为基础,它的分析结果只能是趋势性的而非精确性的,可以据此来调整企业的战略或者个人行为,以便在未来的竞争中掌握先机,却不可以此来过度解释现实存在的各现象间的因果关系,因为大数据只是数据的分析,没有过多地顾及历史与现实、前因与后果等复杂关系;更不能在数据无处不在的时代,将之过度应用以至于超出道德的底线,成为泄漏个人隐私和影响公共安全的武器。
大数据也并不神秘,只要企业愿意,都可以进行大数据的收集、分析与应用,让自己的客户定位更精准,让自己的经营数据更直观,让自己对经营方向的把握更科学。
如果简单提要总结一下大数据,我感觉可以归结为三大要义:一是全数据收集而非一味追求数据规模,也即推行全样本而不是过去的抽样;二是以云计算为支撑,储存数据、分析数据;三是最终目的要让大数据自己发声,以数据预测未来,从而赢得财富。
(二〇一四年三月二日)