摘要:大数据技术是目前最为热门的技术,已在医疗、大气学、基因组学、生物学等领城有了广泛的应用。本文从大数据技术的简要介绍出发,探索大数据技术在传统出版社数字出版活动中的应用,认为大数据技术能够改变传统出版社数字出版的流程模式,为选题策划提供依据,还会催生出新的数字出版产品。并在此基础上,提出传统出版社运用大数据时所面临的困难。
关键词:出版社 数字出版 大数据技术
一、大数据与大数据技术
目前对于大数据(Bigdata)并无统一的定义,互联网上对其普遍定义为:大数据或称巨量数据、海量数据、大资料,指的是所涉及的数据量规模巨大到无法通过人工,在合理时问内截取、管理、处理,并整理成为人类所能解读的信息[1]。大数据有四大主要特点,可以归纳为4个V,包括Volume(数据体量大)、Variety (数据类型繁多)、Ve1ocity(处理速度快)、Value(价值密度低)。
在大数据时代,如何挖掘和深入利用如此多的数据,这就涉及大数据技术的运用。大数据的利用过程可以简单地分为大数据采集、大数据预处理、大数据存储及管理、大数据分析、大数据应用、大数据安全等几个方面,其中最重要的莫过于大数据的分析。准确的数据分析是数据应用前提,也是大数据得以实现其价值,为使用者带来利益的保证。从这个角度说,大数据主要涉及的技术包括云技术、分布式文件系统和并行计算框架。[2]
大数据和云技术是相辅相成、息息相关的。大数据为云计算提供可资分析的信息内容,云计算为大数据提供基础架构,以实现数据的分析。随着数据量跃升到PB(1024TB=1PB)、EB( 1024PB=1EB) ,甚至 ZB (1024EB=1ZB)级别,大量的重复信息或无效信息也必然产生,需要强大的计算能力和可扩展的存储空间对此进行收集和过滤,云技术无疑具备这种能力。
分布式文件系统可以将非本地节点上的物理储存资源,通过计算机网络连接起来,使得众多的节点组成一 个文件系统网络。并行计算则可以一次性执行多个计算。分布式文件系统和并行计算框架都是大数据时代的关键性技术,Hadoop框架是目前较有代表性的实现模式。
二、大数据与数字出版
1. 传统出版社的数字出版
在我国,传统出版社的数字出版发展得相对缓慢。大部分传统出版社的数字出版活动仅限于将所出版的传统出版物数字化上传至网络,或作为数字出版的上游企业与技术商合作。少有传统出版企业,发展出如爱思唯尔(Elsevier)、斯普林格(SpringerGroup)等国际大型出版集团的数字出版平台。有数据显示,2013年,我国数字出版产业全年收入规模达2540.35亿元,其中互联网期刊收入达12.15亿元,电子书(含网络原创出版物)达38亿元,数字报纸(不含手机报)达11.6亿元,由传统出版社数字出版创造的收入低于数字出版总收入的2.43%。[3]而数字出版的主动权更多地掌握在技术商手中,如中国知网、中文在线、阅文集团、金山游戏等,无一不是由技术商创建并领导的数字出版企业。传统出版社的数字化转型还需继续深化。
数字出版是一个建立在信息技术、网络技术、计算机技术、多媒体技术之上的出版形式,其内涵不仅包含出版内容的数字化,而且还包含信息收集的数字化、内容加工的数字化、分销渠道的数字化、支付模式的数字化、阅读方式的数字化等。其产品形态主要包括电子图书、数字报纸、数字期刊、网络原创文学、网络教育出版物、网络地图、数字音乐、网络动漫、网络游戏、数据库出版物、手机出版物(彩信、彩铃、手机报纸、手机期刊、手机小说、手机游戏)等。l41如此对比,我国传统出版社的数字出版活动还处于数字出版的低级形式,或者说还不是真正的数字出版。
2.大数据与数字出版
大数据技术在传统出版社数字出版活动中的应用可能包含以下方向:人口统计学分析、受众行为分析、出版决策支持、实时统计分析、出版流程的转变、精准营销、出版社机构的更新、新的数字产品研发等,其在数字出版中的发展将呈现以下趋势:
(1)大数据改变出版社的组织结构
大数据的利用会改变出版社的机构设置,使传统出版社向更关注信息技术的方向发展。数据技术部门将出现在传统出版社的组织结构中,并将成为重要常设部门。同时,网络数据的快速变动对数据分析和响应提出了更高的要求。数据分析部门作为数字出版的基础将成为出版社盈利的核心部门,整个出版社的经营行为也将围绕数据技术部门展开。机构设置带来的一系列转变不仅体现在业务部门,也体现在行政部门,包括人力资源、客户服务部门等也将围绕其开展工作。
(2) 数字出版生产控制流程的优化
生产控制流程的优化以协同编撰平台的应用为标志。协同编纂是基于云技术和XML结构化数据标准,以内容生产和发布为核心,以作者、编辑、相关专家、制作人员、发布人员为主体的数字出版过程。主体之问通过协同编撰平台实时、跨区域地进行互动协作,提高编纂效率,实现数字产品的一体化制作; 提供产品的全生命周期管理; 支持多渠道的数字出版发布。同时,信息资源的互动共享的过程中会产生大量的非结构性数据,这些数据为今后更加完善数字出版生产流程提供了可靠的依据。
(3) 大数据为选题决策提供依据
大数据时代的核心在于互联网使用者留在互联网上的各种痕迹,这些痕迹不仅有文本形式的,还有图片、音频、视频形式等,所有的痕迹集中起来就是数量庞大,且杂乱无章的数据。对于出版活动而言,这些网络痕迹能够清晰地显现出受众群的年龄、性别、收入、生活范围、受教育程度等人口统计学指标,以及内容偏好、阅读方式、购买习惯等,使得对数字内容的用户行为的实时监测成为可能。以这些信息为前提的数字出版活动,能真正做到以用户需求为导向。
具体到我国的数字出版市场,众多的社交平台(SNS,包括微博、豆瓣、人人网等)上所发表的书评、相关书籍的讨论,数字出版平台 (中国知网、起点中文网等)的购买、下载、阅读信息等,电商平台(亚马逊、当当等)的浏览记录、收藏记录、购买记录,以及各大门户网站读书频道的点击率、评论等,这些均能提供相关受众的数据。深人挖掘和分析这些数据,根据不同的细分市场,筛选出适宜数字出版的议题,作为备选选题,以此作为数字出版的依据。大数据不仅为选题决策提供了依据,而且也进一步指导了后期的营销活动,为分析细分市场容量英定基础。
(4) 催生新的个性化产品
借助大数据产生的一系列人口统计学指标,以及受众内容偏好、阅读方式、购买习惯等,出版社可以准确地为相应的用户,通过手机或其他数字产品推送符合用户喜好的数字产品和广告,目前电商在这一块做得比较成功,如亚马逊、当当等。基于此,个性化的出版产品也可以得到发展,通过收集用户评论,做出符合他们喜好的出版产品,并严格计算生产规模,控制出版风险。
(5)新的用户意见反馈渠道
用户的反馈信息不仅通过在数字平台上的留言体现出来,还在数字平台数据信息中体现出来。数字平台的试阅读模块可以清晰地记录下各数字产品的被阅读频率、阅读后的付费情况、页面的停留时间等信息,付费阅读模块可记录下受众的章节阅读时间、章节阅读频次等信息。这些信息为分析受众的阅读心理和阅读喜好提供了依据,相比于社交网站的数据收集,数字出版平台的数据信息能更加深人地分析受众行为,为出版社的选题和编辑活动提供依据。
3.大数据的实证案例
与新闻出版行业相关的大数据的应用目前主要集中在影视剧的拍摄和电商经营上,在传统出版领域还未见应用。
(1)《纸牌屋》的大获成功及后续影响
《纸牌屋》是一部英国政治小说,2014年被美国在线影片租赁提供商 Netflix搬上荧幕。这部剧使 Netflix 公司在一个季度内新增流媒体用户300万,股价狂规26%。《纸牌屋》是典型的利用大数据进行运作的案例。从剧集的筹备阶段开始,拍什么、谁来拍、谁来演,到剧集的如何播放,都是由 Netaix平台的用户决定的。Ne1flix平台拥有近3000万订阅用户,公司通过分析这些用户的收视选择,把拍摄目标锁定到《纸牌屋》上; 通过分析喜欢老版BBC《纸牌屋》的用户行为,确定了这一部分用户的大多喜欢导演大卫•芬奇或演员凯文•史派西。根据这一分析结果,Netflix投资拍摄了《纸牌屋》,并请大卫•芬奇执导,凯文•史派西主演。[5]
在《纸牌屋》大获成功后,我国的影视界也开始利用大数据分析,但主要集中在对电影档期的安排和营销方案的确定方面,如电影《后会无期》《小时代》等都在一定程度上借助了大数据的力量。
(2)亚马逊的个性化推荐
亚马逊是较早利用大数据进行个性化推荐的电商。个性化推荐也给亚马逊带来了丰厚的回报,有数据显示,亚马逊的网上用户从访问到购买的转化率有16.5%,而其35%的销售额是来自个性化推荐。[1]亚马逊的个性化推荐主要利用了协同过滤技术,通过关注用户的捜索记录、浏览记录、收藏记录、购头行为以及购后评价,从个体(用户个人的行为)或群体(浏览、购买同种商品的群体的行为)角度进行关联推荐。同时通过商品间的关联性进一步向用户进行推荐,比如,用户曾购买或浏览过某一作者的推理小说,网站会向其推荐法作者的其他推理小说,或推荐其他作者的推理小说。亚马逊也将此项推荐服务延伸至其数字阅读器 Kindle 上,它会根据用户在亚马逊网站上的图书浏览数据,向真推送相近的其他图书,在为用户提供更贴心的服务的同时,也提高了用户的购买频次。
(3)京东“自出版”
电商京东自2014年起联合多个出版社正式涉足出版行业,所倚靠的正是对京东图书的销售数据的分析。京东的开放平台中有出版社79家[7l,通过对这些出版机构的图书在京东平台上的销售量的分析,京东可以知晓哪家出版社的图书销量较好; 通过对不同类型图书销量的监控,可以知晓哪种类型的图书更容易销售; 通过对用户地区的分析,可以知晓不同区域的内容偏好。这些数据都可以为京东选择合适的内容、合适的出版方、合适的营销手段提供依据。这一出版方式,改变了传统出版社的选题模式,真正从受众和市场出发,降低了出版风险,也改变了电商在出版行业的角色定位一从过去的图书终端销售方转为图书生产商与销售商。从目前京东自出版的图书种类看,主要集中在长篇小说、 名人传记、亲子读物等类型上。虽然京东“自出版”成效如何尚不得知,但这的确是出版行业的一次有益尝试。
从上述3个案例的分析可以很清晰地得出这样一个结论,那就是大数据在图书的生产领域大有可为。但同时得注意到,这3个案例无一不是技术平台主导的,他们在数据的收集、 分析和利用上有着天然的优势,这也是我国传统出版社在进行数字出版活动、 大数据分析利用上的劣势,也正说明了我国的传统出版机构还有很大的上升空间。无论是学习爱思唯尔等国际大型出版机构建立自己的数字出版平台自主收集数据,还是选择与已有的数字平台合作进行数据开发,都是值得尝试的。
三、应注意的问题
大数据技术在传统出版社的数字出版领域的应用具有非常广阔的前景,但由于技术不足、 观念落后、 网络安全性等问题,大数据技术的应用还存在以下挑战:
l.数据量大,类型复杂
数字出版的数据量巨大,且类型复杂。除了传统的文本形式、图片形式的书评、言论外,近几年随着多媒体技术的发展,音频、 视频形式的数据大量出现,这些数据多是由网友精心制作的,包含着他们的态度和意见。这些复杂的数据形式,为数据的收集和分析带来了极大的挑战。
2.大数据收集渠道不畅
虽然存在大量的数据,但数据渠道的不畅通,也会影响数据的收集。这些不畅通主要集中在技术层面和观念层面:各平台的软硬件相对独立,数据系统格式不一 致,无法实现数据的即时共享; 数字出版流程的信息化程度不高,生产数据缺失,无法采集;数字出版产品或平台的技术条件无法满足数据收集的需要。此外,出于竞争的考量,数字出版平台、 电商平台视数据资源为商业机密信息,很难从这些平台得到数据。
3.大数据分析能力欠缺
采集到足够多的相关数据后,就需要专业技术人员或专家利用 Hadoop 等大数据技术对数据有针对性地进行分析,得出相应的信息内容,并与出版人才配合提出相关问题有效的解决方案。对于传统出版社而言,高水平的专业技术人员是相对缺乏的,这对大数据被传统出版社有效利用产生障碍。此外,这一过程需要高水平的技术人员和出版人才配合完成,这种跨领域的合作能否顺利实现也是大数据能否被有效利用的关键。
4. 版权保护的难度将进一步加大
侵权行为更加隐蔽化,大数据时代的版权保护难度进一步加大。由于侵权量巨大,大数据时代的数字出版物的传播更加难以识别,侵权主体难以识别,取证困难,这些必然导致维权困难。同时,维权成本高,惩罚力度低也使得众多出版商或作者明知被侵权,也不采取维权行动。此外,大数据的共享这一大数据时代的数据理念,可能会加深我国民众本就存在的 “网络资源免费”的错误认识,引发更多的网民的侵权行为,应加大对普通网民的版权保护宣传力度。
5.大数据的安全问题
海量的数据也带来了安全性的问题,主要体现在大数据的安全保护和受众的隐私权的保护两个方面。数据量的不断增加,对容灾系统和数据的多副本提出了更高的要求。同时,数据量的增多使得犯罪分子相应地更容易获取个人信息,由此也衍生出更多的不易被追踪和防范的犯罪手段。
受众隐私的保护难度在大数据时代也越发凸显,如何合法、安全地利用数据是大数据时代的重点。数据利用应以用户的知情权和选择权为基础,也就是大数据应该是授权使用的。同时,企业将经过授权的数据收集起来后,应该为这批数据的安全性负责,这是大数据时代赋予企业的责任和义务。
数据的安全问题既是一个技术问题,也是法律和伦理问题。这两方面的内容不仅仅是出版企业利用大数据时应当注意的,也是所有利用大数据的企业重点关注的问题。
四、结论
大数据时代的到来给还处于发展瓶颈期的传统出版社数字出版活动带来了机遇,如何抓住这个机遇期是出版社应该主要思考的问题。从现有的分析可以看出,“以读者需求为中心”将是大数据时代数字出版的发展导向,“个性化出版”“按需出版”将得到发展,大数据技术的运用还将改变传统出版社的机构设置和出版流程。从我国出版社的现实发展情况看,大数据技术的运用还存在着技术和观念方面的障碍,尤其是技术方面的障碍,可能会延缓我国的传统出版社的大数据运用进程。但应该坚信的是,随着技术的不断提高,观念的不断更新,大数据必将在我国传统出版社的数字出版活动中发挥重要作用。
参考文献 [1]维基百科.大数据[EB/OL].http//zh.wikipedia. org/wiki/大数据. [2]大数据究竟是什么?一篇文章让你认识并读懂大数据[EB/OL].(2013-11-04).http//www.199it.com/archives/167397.htm1. [3]中国新闻出版研究院.2013-2014中国数字出版产业年度报告[M].北京:中国书籍出版社,2014. [4] 新闻出版总署关于加快我国数字出版产业发展的若干意见.http//www.gov.cn/gongbao/content/2011/con-tent_1778072.htm. [5]合陶然.《纸牌屋》背后的大数据应用--“2014 科技前沿”系列之一 [N] .解放日报,2014-02-24. [6]和讯网.个性化推荐猜你心[EB/OL]. (2012-02-17).http//tech.hexun.com/2012-02-17/138380430.html. [7]中国新闻网.京东图书2014年上半年业绩曝光排名进入行业Top2 [EB/OL](2014-06-27) .http://www.china-news.com/cu1/2014/06-27/6329102.shtm1.
来源:《出版发行研究》2016.7
|