《对“伪大数据”说不》 [美]冯启思著 中国人民大学出版社 2015年1月 定价:55.00元
本书引领你拨开大数据分析的层层迷雾,帮你认清大数据分析与解读背后的真相。 当我看到《对“伪大数据”说不》这个书名时,有种眼前一亮的感觉。在对大数据一片叫好的声音中,突然冒出一个人“说不”,着实吸引人。作者冯启思是一位专业的统计学家,本书也是一本专业的统计学书,但一点也不影响我这外行人阅读。相反它引发了我对大数据的许多思考。
同样的一组数据,不同的分析师们会得出完全相反的结论,问题的关键不在于多少数据被分析,而是被如何分析。无论是权威专家还是经验丰富的行家,都不能保证不出错。不管一个人的脑瓜多灵,总有犯错的时候。这是因为,没有人能够掌握所有信息。专家们尚有失手的时候,吾等外行呢?冯启思说:“在大多数情况下,我们不必处理数据。我们也没有时间去一一验证这些大大小小的论断。知道数字来自哪里将带你走得更远。理解什么时候、为什么要做假设同等重要。”本书旨在为我们打开大数据的密室,让我们看到数字是怎么做出来的。
全书分四个部分:关于社会大数据的解读、关于营销大数据的解读、关于经济大数据的解读、关于体育大数据的解读。每个部分都选用两至三个具有代表性的案例进行分析。如为了能够在《美国新闻与世界报道》中提升法学院在全国的排名,美国各大法学院一门心思找路子,上演了一场场伪造、篡改数据的丑闻。排名中所使用的每个因子都能被利用,评级公式越复杂,数字被篡改的机会就越多。数据集越大,审计起来就越困难。大数据只是加剧了这种被损害的危险。从该事件当中,我们看到了“伪大数据”分析出的不可信的闹剧,顺带也了解到了在大洋彼岸,美国的大学并非传说中的那么完美无瑕。
高鹏的案例实实在在地解答了我一直以来对网络团购优惠券的困惑。在反事实里,如果顾客不使用优惠券消费,那么他们每个人将贡献毛利。如果商家跟高鹏联手前利润就挺丰厚,那么即便没有高鹏,它仍然超级赚钱。事实上,在高鹏掺和进来之后,他也要分得一杯羹,因此原先丰厚的利润将会缩水。商家跟高鹏合作,是希望通过高鹏带来更多的新客户,但实际上更多的是老客户搭了顺风车,致使商家虽顾客盈门,却不如从前盈利。
大数据时代,不是每个人必须成为大数据分析员,才能在这样的环境中生存下来。广阔的数据来源容易带来困惑,甚至招来麻烦。冯启思希望我们别再从表面看待大数据,希望我们看到揭盖探底的力量。
来源:《图书馆报》2016年06月10日
|