拿起涂子沛先生赠送的新著《大数据:正在到来的数据革命》,赫然映入眼帘的,是印在封面上的一句话:
除了上帝,任何人都必须用数据来说话。
这句话是美国著名统计学家、管理学家、质量管理理论的奠基人爱德华·戴明(Edwards Deming)说的。显然,隆重其事地将它摆在封面,是要强化本书主题,也是为了更好的营销。但也正是这句话,使我在心里产生了一些小小的怀疑。我想反问:除了上帝,谁能规定“任何人”应该怎样说话呢?上帝并没有告诉我们只能用数据说话吧?
这样说,是先开个小小玩笑。不过我的怀疑中,还有一些严肃的成分。涂子沛要将发生在美国的大数据革命介绍给中国读者,固然其心可嘉,却难免会碰到一些微妙的文化与心理问题。简单来说就是,许多中国读者并非那么渴望数据启蒙,因为他们对数据一词不但不陌生,甚至有些厌烦和疑虑。
由于工作关系,我经常有机会参与对公务员的培训。我不止一次地亲眼看到,中国官员比西方国家的官员更擅长于数据。举凡辖区人口面积、历年GDP增长幅度、项目投资多少、惠及领域若干、利税增加几何⋯⋯全都信手拈来、倒背如流。因此,如果以为中国官员不重视数据,缺乏所谓“数字管理”,那恐怕不是实情。实际上,从历史来看,从官员的说话方式来看,毋宁说,数字泛滥反倒是我们政府的一个特征。
许多回忆周恩来总理的文章都提到,他心思缜密、记忆过人,非常重视“用数据来说话”。汇报工作的干部常常被他拷问具体数字,不少人因此汗流浃背、出乖露丑。相比于毛泽东那种汪洋恣肆、大开大阖的诗人情怀,周恩来的这种精致主义风格,才是事实上被传承的遗产,并化作官僚传统和执政风格。精明的官员都明白,为官第一要务是掌握各种数据,做到了然于胸,张口即来。
不仅官员个人如此,政府的公开言说也具有数字化特征。传统上,革命时期即有“三大纪律八项注意”、“推翻三座大山”之类。发展到今天,更是琳琅满目。四个现代化、四项基本原则、一个中心两个基本点、三个代表、五讲四美三热爱、八荣八耻⋯⋯ 人人耳熟能详。更加具体的目标与口号,例如只生一个好、人均GDP1000美元、双到扶贫、十大民心工程,等等,更加举不胜举。
因此需要注意,各种数字指标,在公众当中引发审美疲劳,如果不说是厌恶反感的话。至于各种“科学分析数据”,如总量多少,人均多少,同比增减多少,环比增减多少,更是充斥于各种报道。它在网络上的传播效果,引发很多解构与嘲笑,以及不信任。最新的一例是有人建立了“中华民族复兴指数”,并计算出当今指数为62%。这项研究成果甫一公开即招来一片哄堂大笑,迅速成为网络上的嘲讽段子,大概发布者也始料不及。
可见,科学与数据这一类词汇,在中国的形象有点古怪,相应的公众认知与感受有点复杂。在这样的背景下,让我们回到《大数据》一书的主题。如果我们想教育公众与官员,“任何人都必须用数据来说话”,那么我们要有心理准备,这句话的传播效果可能会很复杂。据初步测算,比在美国至少要复杂62%。
但这并不意味着我不看好《大数据:正在到来的数据革命》。相反,我喜欢书中表达的很多观点,我相信其中很多内容会给认真的中国读者带来启发,并有可以参考借鉴的地方。我只是觉得,有一些基本观点,作者还可以提炼得更好一些。有一些材料,还值得下功夫去挖掘、整理和比较,以凸显其参考价值。
例如,作为教师,我会向参加培训课程中的公务员推荐这一段:
2006年,通过把20多年的犯罪数据和交通事故的数据整合在一起,并映射到同一张地图之后,警务研究人员惊奇地发现,交通事故的高发地带,也正是犯罪活动的高发地带,甚至交通事故的高发时间段,也是犯罪活动的高发时间段。(《大数据》第81-2页)
大家可以注意,这是一个数据积累、整合、分析的科学过程,它产生了新的知识:交通事故与犯罪活动,两者的高发时段与高发地段是重合的。
接下来是我更感兴趣,并认为更值得推荐的一项改革。依据上述新发现,美国国家高速公路交通安全管理局与国家司法援助局两个机构实施跨部门联合,成立了名为“数据驱动的新方法:犯罪和交通安全”的工作组。在此之下,将交通警察与治安警察的资源整合在一起,根据数据指引,专门治理“黑点”,将交通事故率和犯罪率同时压了下来。
这就是一个基于大数据分析为基础而进行的政府机构部门改革,改革有科学依据,目标是公共管理,效果可公开检验。
中国政府也开展过多次的机构改革。多年来,从机构精简到大部制,分久必合,合久必分。但是,与《大数据》中提供的美国案例相比较,立刻可以知道差异所在,就是缺乏大数据分析。至少从公开报道中人们看不出来,机构扩张、裁撤或合并,是否有一套针对于治理的数据分析作为基础。
这才是《大数据》值得一读的理由。它告诉我们,大数据分析能够产生新知识,它超越了领导者个人“列举数字”的那个低层次。领导干部再博闻强记、再聪明过人、再有数学头脑,她/他个人不可能生产出大数据知识和创新。而只有以科学的大数据分析及其发现为基础,政府机构改革才能超越旧有的权力分配格局,真正具有功能、意义和价值。
最后但也最重要的是,《大数据》值得一读,理由还在于它必定触及规范层面上的争论,实际上也已经引发了争论。限于篇幅,暂时不能详述各种争论。我只举几个要点,既作为本文结束,更作为进一步讨论的备忘录。几个要点分别是:规范涵义、社会涵义以及认识论涵义。
在规范涵义这个层面上,一个争论焦点是,面对复杂的中国问题,是应该强调规范与价值解决优先呢,还是可以将它们化解为科学方法问题,并依赖于越来越技术化的分析方法?
在社会涵义上,问题在于,大数据分析会强化政府的严苛监管吗?会使个人隐私更加暴露,整个社会变成福柯讲的“全视监狱”吗?美国学者德波拉·斯通(Deborah Stone)在《政策悖论:政治决定的艺术》一书中讲过这样一个观点:计算某些东西,本质上是“创建一个社群”。我们这样来理解,统计尘肺病人数量并相应建立一个数据库,本质上是建立了一个“受害者群体”。不同的指标分析,会建立不同的群体,因此会揭示出社会冲突。显然,怎样建立数据,怎样使用数据,怎样言说数据,背后有社会动力机制,还有价值选择。
在认识论涵义上,我们要问,大数据分析改变了人类认识模式吗?比如,会严重冲击人们对于因果联系的普遍认知吗?如果是,那么检验真假的标准在哪里?它会导致专家统治,或者软件统治吗?这将把我们重新带回到社会分析层面上。
没有人能够对这些问题轻易给出答案。正因为如此,我们需要读书、思考,需要相互辩论。
来源:教育部中国大学生在线网站
|