《大数据:正在到来的数据革命》,以及它如何改变政府、商业与我们的生活 涂子沛,广西师范大学出版社,2012
大数据正在撬动全世界的神经。 亚马逊销售额的三分之一来自其个性化的推荐系统, 美国Farecast价格预测工具和Decide.com分别以高达75%和77%的预测准确度为消费者节省了一大笔钱。这些《大数据时代》书中真实的例证,让我们蓦然惊醒:大数据时代已然来临。作者维克托迈尔舍恩伯格指出,“当今社会有一种独有的新型能力,这就是以一种前所未有的方式,通过对海量数据进行分析,获得有巨大价值的产品和服务,或深刻的洞见。”“大数据正成为巨大的经济资产,成为新世纪的矿产和石油”。无疑,它不仅是商业帝国的智囊团,还是人类的仪表盘、航海的指南针、天气的预报师、下一站的风向标,它给人类带来了全新的创业方向、商业模式和投资机会,其秘诀就隐藏在大数据所创造的“数据财富”里。 作者在书中提出的“大数据时代在处理数据理念上的三大转变”颠覆了传统,那就是“要全体不要抽样,要效率不要绝对精确,要相关不要因果”。大数据时代,传统概念中的数据冗余和分散没有关系,小范围的偏差和模糊也没有关系——它欢迎“数据废气”——允许一点点的错误和不完美。作者强调全体数据而非随机样本,强调混杂性而非精确性,强调相关关系而非因果关系。“大数据”让我们重新审视精确性的优劣,更多时候启用“概率”作为全新的数据代言人。它让我们适当放弃微观的精准,转而获取宏观的洞察力。 在这里,我们首先有必要对“大数据”这一概念本身有个清醒的认识。笔者认为,大数据≠海量数据/大规模数据。大数据不能仅被理解为“容量之大”“数量之多”,它不能只是简单的数量上的堆砌。除“数量”之外,大数据应还有“质量”上的要求。首先在品种形态上,大数据是种类繁杂的,范围巨大的,包容万千的,正误数据、关系型与非关系型皆有的、形态不规则的;在结构关联上,大数据之间是具有一定关联性的、立体性的、结构性的;在更新效率上,大数据是实时更新的、不断变化的,不断产生与聚合的。品种形态、结构关联和更新效率三者共同构成了大数据的“质量”因素,这与“数量”因素相结合,方可成为真正的“大数据”。作者维克托迈尔舍恩伯格在《大数据时代》一书中所倡导的“全数据模式”——追求数据的完整性,实际上是对应了大数据在数量上的要求;作者所提倡的数据混杂多样性和相关性,实际上则是对应了大数据在质量上的要求。由此,拥有品类多样化、潜在关联性、立体层次性、结构丰富性、动态更新性的数据才是有“质”又有“量”的“大数据”。 “大数据”似乎看上去很美,是时代的宠儿、政客的幕僚、商人的武器,是财富与机会的代名词。然而,大数据不是一出生就被赋予无数亮丽的光环。大数据是机会,但也可能什么也不是。 第一,大数据是机会,但它不会自动成为机会。 大数据本身其实只是数据,并没有太多价值。大数据是机会,但它不会自动成为机会。你听到的是机遇的敲门声,但机遇仍可能永远被挡在门外——除非你开门。 因此只有通过数据分析师对繁杂数据进行深度挖掘、处理分析,才能将静态存储的数据变为动态的机会可能,才能通过创新性的分析来释放大数据的潜在价值,为企业带来巨大的价值增值。恰恰因为是“大数据”,所以更需要有效的开发和管理。大数据时代,最关键的不是数据存储,而是人工对数据的深度挖掘与应用。重点不是数据,而是你应该如何处理这些数据,如何对这些数据进行分析获取你需要的情报信息。 如果守着一座金山,却不知道从哪里挖下第一锹,那将何等可悲! 犹如一座富矿的大数据,我们究竟该如何“开采”? 开采首先需要人的参与。诚如作者维克托迈尔舍恩伯格所言,“大数据并不是一个充斥着运算法则和机器的冰冷世界,其中仍需要人类扮演重要角色”。笔者认为,在这一数据价值链上,至少包括了“数据持有人”“被授权的第三方数据处理者(或数据中间人)”“数据价值受用人”这三类人的主体;同时贯穿其中的则是由人参与的几个数据运作环节:数据的获得、汇集、存储、运算、挖掘与分析、使用和消费,或概言之为“数据的持有”“数据的处理”“数据的受用”这三大环节。数据价值链上的三类人分别对应于数据产业链结构上的三个基本环节,每一个环节都是分层的、内容巨大的、价值无限的,同时每个层次都是这个生态链中的重要一环。 数据持有人是否拥有数据、拥有数据的来源、拥有多少数据、拥有数据的质量(即是否拥有“量”又有“质”的大数据)、数据处理者是否为具备“深度分析”专长的人才、基于何种目的、如何处理数据(是否处理得当,避免数据滥交)、处理程度几何(是否深度挖掘),数据受用者是否受用、受用程度等,都将影响到大数据成为机会或实现机会的整个过程。 想要将敲门的机会引进门,我们必须确保数据的来源,并有专业性数据分析人才加以合理深度分析。完整有效的数据来源以及坚实的数据分析力量,都是大数据分析之必需前提,也是消费者受用之必备前提。否则,大数据只能是“沉默的羔羊”——关在笼子里的机会。 第二,大数据是机会,但它不是所有人的机会。 “拥有了数据就等于夺取了行业制高点。”此话未免言过其实。 不懂深度挖掘数据的持有者,有了数据,仍形如粪土;某些懂得深度挖掘数据的持有者,即使拥有了,也未必能登上珠穆朗玛的数据高峰。因为大数据是机会,但它不是所有人的机会——它只是少数人的机会。 企业面临的挑战是从组织机构内外部的“大数据”中深度净化、处理、挖掘价值,并取有价值的部分来为我使用的。其目的是发现更多潜在的商机、让组织机构更灵活、更具竞争力,提高组织机构的赢利能力。而这一切的前提是真正拥有大数据。但为数不多的数据拥有者往往是资金技术雄厚的垄断者或产业巨头,中小企业则不一定拥有。当然,不能直接拥有数据的中小企业,仍可以成为被授权的拥有者或数据的受用者。但中型企业对大数据的受用性或许不如大型企业和小型企业那么高。作者也坦言:“大数据让处于行业两端的公司受益良多,而中等规模的公司要么向两端转换,要么破产……超大型的公司占据了规模优势,而小公司具有灵活性。” 大数据是机会,但只是少数人的机会,更多的是成为像IBM、Oracle、微软这样的商业巨头们的尚方宝剑,或是在利基市场亟待成长的小企业的救命仙丹。而对于长尾的中型企业来说,想用大数据来创造数字生产力并非易事。其实他们不一定非得去跟IBM、Oracle这样的大公司比,曲线救国,绕道而行,在“开源社区”获得免费的资源,不拿鸡蛋碰石头或许是一个适用自己的、更明智的选择。 第三,大数据是机会,但它也可能成为风险。 谁在掌控着属于你的大数据? 不要以为冰冷的系统里的那些数据与你无关。 当你拿着iphone5满大街兴奋地“街旁签到”时,你的行踪早已被GPS定位系统轻松地记录着;当你在自动取款机面前,享受着监控探头带来的心理安全感时,你已成为与窃贼无异的被监控的一分子;当你享受着“个性化定制”所带来的优越感时,系统已免费且合理地获取了可以瞬间倒卖的消费者个人信息及私人偏好;当你在人人网等SNS社交网络勾选“悄悄话”给好友留言时,当你在微博上发所谓的“私信”时,当你在QQ上与他人进行视频聊天时,别以为别人看不到——系统早已堂而皇之地“窃听”了你的“私语”,只是未做声而已……你发出的每一条短信、打的每一个电话、写的每一封邮件、浏览的每一个脚印都早已被悄悄记录在案,你躲也躲不开,逃也逃不去,更是删也删不了。 大数据=大风险?或许是的。 数据的安全性及给个人隐私带来的威胁,让本是机会的“大数据”,也同时成为了“大风险”。大数据为监测我们的生活提供了便利,同时也让保护隐私的法律手段失去了应有的效力。无论采用“告知与许可”“数据的模糊化”或“数据的匿名化”等方式,来自不同系统、不同应用程序、对不同活动进行关联的数据,总是不经意间就泄露了你的天机。微软研究院的高级研究员博伊德(Danah Boyd)曾表示:“如今,我们社交网络化的社会绝对有制造恐慌的天分。在大数据时代,对隐私泄露的担忧就是强大的紧张和焦虑的源泉。人们普遍认为,最令人焦虑的在于你根本不知道什么时候自己的隐私就无意中被泄露出去。”此外,不要忘了,大数据时代的数据是被支持和倡导进行“多次利用”甚至“无限次利用”的,于是在社交网络如此发达的今天,大数据完全可以把人的行为进行放大深度分析,从而能够相对准确地预测人的性格和行程。所以,有人说不排除有这样一种可能:在忙完了一天的工作之后,你还没有决定要去哪儿,数据中心却早就先于你准确预测了你接下来的目的地。 你的信用卡号、身份证号、手机号、病史记录、性别手术……一切你所忌讳脱口而出的,早已是数据系统里公开的秘密。在服务提供商的数据库里,你就是个“透明人”! 找个人还何须“人肉”?那只是系统里不要几秒钟的事。 所以,大数据是机会,也是风险;是英雄,也是杀手。 最后,大数据有拿手强项,但也有不擅长的地方。 无处不数据,一切皆信息。 当大数据就这么昂首挺胸大踏步向前迈进的时候,我们要记得提醒自己,我们不能成为追星心切的“数据粉丝”,不能成为拱手让江山的“数据控”。对数据的崇拜需要有个“度”,因为大数据有拿手强项,也有不擅长的地方。它不应自恃为“数据的独裁者”,我们也不应自贬为“数据的奴隶”。 即使一切皆可量化,但是否一切皆需量化?麦克纳马拉说:“事实上,真的不是每一个复杂的人类情况都能简化为曲线图上的线条、图标上的百分点或者资产负债表上的数字。”无疑,在这个时代,头脑无法理解的复杂情况,数据可以帮我们解读其中的含义。数据可以弥补我们对直觉的过分自信,数据可以减轻欲望对知觉的扭曲程度。但在大数据时代,总有些东西是数据分析做不了的。因为数据终究不是人,数据的应用与开发终究需要人的参与。即使是人工智能,也不可脱离人的创造性。而大数据,只是在某种程度上弥补和超越了人类自身的“为我所用”之物。作者于书末也指出:“更大的数据源于人自身……大数据的力量是那么耀眼,我们必须避免被它的光芒诱惑,并善于发现它固有的瑕疵。” 数据不懂爱情、不懂社交、不懂女孩巧妙的心思、不懂抚慰受伤的心灵。它更擅长的是测量社会交往的“量”而非“质”,它顶多通过多种相关性“量”的测量来推测“质”的属性,或许最终它也可通过数据库记录分析捕捉到女孩心里那既爱又恨的蛛丝马迹,但这远不如人际交往来得快与直接。一个见面喝茶聊天用大脑就可以感悟和解决的事,不一定非得绕个大弯子,让机器在处理十万份数据之后才给出“处理建议”。对数据的盲目崇拜,只会让冰冷的机器浇灭炽热却敏感的爱情。 另外,数据也不懂背景,不求缘由,不问因果,只问相关。它不再那么专注探求难以捉摸的因果关系,转而关注事物的相关关系。作者维克托迈尔舍恩伯格说:“大数据告知信息但不解释信息,它告诉我们‘是什么’而不是‘为什么’……数据的相关关系往往不能准确地告知我们某件事情为何发生,但是它会提醒我们这些事情正在发生。”但因果关系果真不重要?人类的决策往往不是离散型事件,而是镶嵌在时间的序列和背景之中。大脑让人类学会擅长讲述交织了多重原因和背景的曲折故事。做“数据奴隶”只会让未来的小孩不会问“十万个为什么”,而只要看一眼数据知道“十万个是什么”就够了。人类追根溯源的原始动力、刨根问底的探究精神或许就会因此而日渐退化,这无异于在“延伸人类器官”的同时,也对人类智力进行残酷的“自我裁截”。 我们并非否认大数据的丰功伟业,只是,它其实是一个让人喜忧参半、既爱又恨的玩意儿。
作者单位:复旦大学中国语言文学系 来源:中国图书评论杂志官方_新浪博客2013-09-04