账号: 密码:
中国大学出版社协会 | 首页 | 宏观指导 | 出版社天地 | 图书代办站 | 教材图书信息 | 教材图书评论 | 在线订购 | 教材征订
搜索 新闻 图书 ISBN 作者 音像 出版社 代办站 教材征订
购书 请登录 免费注册 客服电话:010-62510665 62510769
程蕾:互联网出版网站建设的核心技术趋势 - 2009全国出版业网站年会专栏 - 中国高校教材图书网
主页 > 2009全国出版业网站年会专栏
程蕾:互联网出版网站建设的核心技术趋势
2008-10-30 09:56:40  来源:中国出版网 
 
北京拓尔思(TRS)信息技术有限公司 程蕾


 各位领导、各位嘉宾,大家上午好!
 首先非常感谢组委会给我们拓尔思公司这样一个机会,我主要给大家介绍一下在网站建设技术方面的趋势。我演讲的主要内容分三部分:第一,出版网站现状分析;第二,网站核心技术的趋势;第三,携手TRS持续创新。

 一、出版网站现状分析
 网站数量。2005年统计共有573家出版社,约80%建了网站,到2008年比例会更加增加。网站在建设内容上,2005年有一个统计数据,社科类占16.1TB,科技类9.2TB,文学类是17TB。数量级的含义是我们以pdf格式文档计算,一本书是10M,社科类的图书共有161万本上网,而文学类是有170万册的数据。在资金投入上,这也是我们2008年的媒体传媒蓝皮书得到的统计,2005年互联网出版机构资产总计58亿多元,负债总额近14亿多元,投资效益是有差别的。技术力量上来讲,网站技术水平参差不齐。今天我特意加了一些调研的情况,大家可以从自己这些方面看自己的网站内容和建设中是否需要考虑这样一些方面,比如说网站的主要功能是以宣传为主,还是宣传加用户的交流,还是在用户交流方面还有一些电子商务。网站的功能增多,网站访问就越来越多,包括你的受众,以及受众的粘合度,我们不仅要有这些受众,更要让受众一直关注我们这个网站。再比如网站的速度建设,这个速度不仅仅是一个网站浏览的速度,包括信息采编的速度,信息发布的速度,信息检索的速度,还有资源加工的速度有多快?资源加工,OCR扫描之后直接上去,还是做一些信息的标引,是人工来做,还是通过技术来做,这都是可以考虑的。还有网站访问量,关注访问峰值以及关注的最高点是什么样子的,网站关注最高点,就是大家所关注的,我这个网站有什么栏目,每天点击量有多大,是一万还是两万。另外是技术平台,你的技术平台是B/S结构还是C/S结构,是通过浏览器服务器的模式还是客户端服务器的方式,客户端是通过手工编辑还是通过技术达到的。
 通过这些方面来看看自己的网站到底有什么样的程度。这个时候有一些人会认为我的网站确实技术比较落后,我的网站存在的问题可能包括了缺乏专业的技术人员,由于没有这样的专业技术人员,可能在规划中长期的建设规划上,就会有制约。包括我们网站会缺乏资金,没有投资效益的一个分析,领导不重视等等。这些原因占的最大的比例就是缺乏专业人员以及中长期规划的发展。这里边一个问题,技术是解决关键因素之一。技术不光是我们只要用做网站的技术就可以,他是和我们的内容、业务相关的。内容是驱动业务,业务产生需求,技术实现业务需求,取得社会和经济效益,效益促进发展。
 技术应用需求和技术平台以及网站宣传展示的平台、教育服务平台、交流互动平台、数字出版平台等等,都是用于满足与我们业务管理、业务营销以及互动服务的需求。同时在业务需求上可以看到下面有产品内容部分,就是产品内容的数字化。在数字化过程中,我要考虑的是能否做到数字化、能否做到自动化。
 根据网站建设存在的问题,以及网站建设内容的分析,我们来看一下数字出版网站的核心趋势。我总结了五点:第一,内容管理平台成为网站和网站群建设的核心技术;第二,搜索引擎为海量数据准确定位提供支撑;第三,文本挖掘提升“内容为王”、“产品为王”的价值;第四,资源整合、个性化服务扩大网站服务的效果;第五,安全体系保障数字资产的有效利用和版权。
 通过网站的效果做资源的整合做个性化的服务,效率就是从安全体系和内容的挖掘上来实现。

 二、网站核心技术的趋势
 我们来说技术趋势的部分,首先给大家解释什么是内容管理,内容管理在业界并没有一个统一的概念。内容管理我们认为是重点解决各种非结构化和半结构化数字资源的整合、采集、利用、传递以及增值,并且有机的和结构化过程进行结合,和我们的ERP系统进行集成,最重要的是内容价值链的最优化和内容价值链的最大化。
 内容服务的特点,包括了内容的分类,内容分类网站发布一般都是web形式内容,数字化内容还有一些是微内容,微内容是互动产生的内容、博客里的内容,我们论坛中的内容都属于微内容,对于这些微内容我们也需要管理,需要挖掘他的相关信息。内容的服务有两个特点,多元化、多渠道,多元化是调查、评论、博客、论坛,多渠道有网站、手机、PDA、数字电视。内容安全部分主要是通过数字版权保护,访问控制,统一用户管理,统一认证PKI这些技术保证我们认证的安全、支付的安全,因为电子商务也需要一个安全的保护。
 基于这样的内容服务特点:
 第一,内容管理平台成为网站建设的核心技术,主要分三点:1、构建网站群建设和管理的模式。这样的一个模式主要是为了满足多业务服务的需求,满足于多部门网站建设和管理的需求。比如说我们有相应的期刊、图书,我们可以建立一个单独的网站,我们可以有一个网站群的管理模式。他实现的一个特点是说,我们可以构建统一、标准、规范的网站体系,同时便于资源的共享、数据的交换,并且可以提高投资的性价比。这套系统可以支持多个网站的建设。2、从WEB管理到企业内网的管理,刚才给大家看了内容管理的概念,我们说的企业内容管理的一个特点,他集中了WEB内容管理、资产、管理、知识管理、结构管理、门户管理为一体的结构管理,而WEB网管理是针对WEB网站的管理。在一个平台上可以管理的不光是网站发布、可以管理图片内容、视频内容,甚至可以管理结构化的数据。这样在平台上不但实现多站点的管理,还可以实现整个全媒体的管理。建设目标和管理内容、应有功能上提供了非常广泛的需求;3、基于SOA门户设计,SOA是面向门户的架构设计,特点是基于标准、松散耦合、共享服务、和联合控制等。在基础平台上有标准服务,包括信息发布的引擎、工作流引擎、概念管理、用户管理,我们可以在一个平台还可以扩展出广告管理、嘉宾访谈、电子报、视频库、图片库以及元数据的管理,整个元数据的管理是包括里边的,可以制定元数据的结构,制定他的分类体系,按照这样的模式展示图书的信息。同时SOA的架构可以做一个应用连接的管理,包括全文检索、网络信息采集等等。
 第二,搜索引擎给海量数据定位提供支撑。比如说数字出版资源库需求,提高差准率、查全率,比如说提供一个拼音,在地震的时候,四川人会有一些方言,着急的时候说不太清名字的时候,输入员会按照他理解的意思来进行检索。行业门户网站应用需求包括了网站和群搜索,我们有一个特色的搜索,甚至还可以做资源库的搜索。
 第三,文本挖掘提升“内容为王”的价值。文本挖掘是一个对具有丰富语义的文本进行分析从而理解其所包含的内容和意义的过程。其中有主题词抽取、相似性检索、相关短语检索、自动校对。主要应用有三个方面,一个是资源加工,一个是智能检索,还有一个是资源获取。我们搜索网络信息,找一些跟我们出版书相关的信息,就需要对搜索的信息进行自动的过滤、相似性的检索,相似性的检索就可以找到相关性的文档。人民日报社在工作管理系统中提供这样一个工具,叫做新闻观念词的标语系统,这里边是对他一些文章信息标语的结果,在标语中会有相应的作者信息,同时对关键词进行标义,同时对新词进行标义。
 我们的另一个工具,叫做信息抽取的工具,比如说对我们的网站进行相关性信息的抽取。其实,我看到我非常关注的是出版的行业白皮书上有非常关键信息,对这些信息进行抽取,比如说研究生可能最关心数字的引用,在网上很难找到这样的数据,如果我们把这些内容提取出来提供出这样的服务,就满足了一部分信息的需求,同时可以拿出来做一个服务的关联。
 第四,资源整合、个性化服务扩大网络服务的效果。资源整合使得我们不但要整合自身的资源、同时满足与网民需求的时候,他看到这本书的时候,可能更关心的是还有没有相关的信息,我们需要整合相关专业的信息资源。提供个性化的服务,包括提供个性化定制的服务,比如说网站非常多的栏目,我们可能关注的就是这么几个,我可以把网站做一个个性化的定制,甚至可以做内容的定制,就是信息个性化的推送。资源整合和个性化服务可以提升网站的效果,以用户为中心提供服务,而不是以业务为中心提供服务。突出特色,做到专注、专业、专家。不是只专心到自己网站发布的出版类的信息,更要满足用户对这些信息相关的信息。增强知名度,提升用户捏合度,捏合度也很重要,用户的捏合度是最重要的。
 第五,安全体系保障数字资产的有效利用。
 比如说身份认证,通过单点认证之后是否要做相关的CA认证,还要做相关的访问控制和数据的保密的技术。
 以上是我介绍的五点趋势。经过这五点趋势可以看一下我们在规划中的架构图。首先是数字出版的信息库,里边包括非结构化信息,以及从非结构化信息中抽取的结构化信息,以及源数据,微内容的数据库,以及用户身份的数据,这也是非常重要的一部分。在上面我们要基于数据资源核心的应用,核心资源包括内容管理、搜索引擎、SOA等等技术,在这个基础之上我们有一个数字出版平台、内容管理平台、WEB2.0互动平台,甚至有Web3.0平台。在此之上构建一个业务的平台,最上面是把我们的数字应用和标准规范构建出我们一个整个的数字出版行业的门户,这里边提到了四点,一个是统一用户的管理、统一应用的流程,然后是个性化服务和跨媒介的服务。

 三、携手TRS持续创新
 接下来重点介绍一下TSR公司,是中国最大的搜索引擎技术的提供商,并且在中国位居第一的内容管理软件的提供商,在大中华地区有三千级的企业家用户。我们是一个产品和技术服务的提供商,在广州、上还有分公司,在南京、杭州这些地方会有办事处和地区支持的中心。在文本挖掘的部分,我们在多此专业评价中,我们排在前列,我们提供是产品化、实用化的工具。TRS在出版行业的应用有四个方面,门户网站、交流互动平台、服务交流的平台建设。数字出版TRS案例包括中国出版网网站,人民教育出版社、知识产权出版社出版网站和专利检索和服务的平台,在人民出版社,电子工业出版社等等。对于中国科学知识网知道是做期刊的检索和搜索的部分进行相应的分类和进行信息的检索。报业集团有中国日报报业集团和山东日报等一些案例。
 以上就是我的介绍。感谢大家!

来源:中国出版网
本版责编:江蕾
 
 
相关评论 发表评论 发送新闻 打印新闻 上一条 下一条 关闭
| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网    京ICP备10054422号-7    京公网安备110108002480号    出版物经营许可证:新出发京批字第版0234号
经营许可证编号:京ICP证130369号    技术支持:云章科技