账号: 密码:
中国大学出版社协会 | 首页 | 宏观指导 | 出版社天地 | 图书代办站 | 教材图书信息 | 教材图书评论 | 在线订购 | 教材征订
搜索 新闻 图书 ISBN 作者 音像 出版社 代办站 教材征订
购书 请登录 免费注册 客服电话:010-62510665 62510769
张宏伟:打造新一代基于网络出版的知识服务型出版网站 - 2009全国出版业网站年会专栏 - 中国高校教材图书网
主页 > 2009全国出版业网站年会专栏
张宏伟:打造新一代基于网络出版的知识服务型出版网站
2008-10-30 09:28:49  来源:中国出版网 
 
同方知网(北京)技术有限公司总经理助理 张宏伟


 尊敬的各位领导、各位专家、各位同仁,大家上午好!
 非常高兴今天有这样的机会跟大家一起交流,我在报告之前首先感谢大会组委会提供这样的一次交流机会,同时非常感谢在座各位能够坚持到现在,能坚持到最后都是最棒的,同时希望大家再坚持几分钟听完我这个报告。
 我报告内容分四个部分。一、同方知网业务定位;二、CNKI系列数据库整合服务的技术剖析;三、同方知网在资源整合和技术服务方面的一些解决方案和案例。四、几点认识。

 一、同方知网业务定位
 同方知网专注于中国知识信息资源的大规模增值性整合利用与相关核心技术研发。同方知网目前来说是全球最大的中文知识信息资源整合服务提供商。我们把它定位成资源的整合和服务,我们不是一个内容的原创提供,而是资源的整合和服务商。我们也是中国最好的内容管理、全文检索、知识挖掘的技术提供商,在我们看来内容和技术是相辅相成的,我们一直以来有一个一手抓内容、一手抓技术的方针。
 我们公司的远景目标是建立这样一个CNKI工程,实现知识信息资源的全社会的高度共享。目前公司内容产品从期刊产品库已经发展到有期刊、工具书、报纸、会议等数据库。我们的资源种类不断的追溯,我们的数据库也不断的追溯。同时我们在实施这样一个CNKI工程中,我们一直非常注重技术,我们所有的技术都是自己研发的,形成了完备的技术体系,最底层的数据库、资源的管理建设到挖掘,都是一个自主研发的过程,很多都达到了国际先进的水平。和本次会议比较相关的网站建设内容相关的基础产品,就是全文数据库管理系统和中文智能信息处理平台。
 在市场方面,同方知网一直比较注重市场的开发,我们一直努力的是数字出版上游和下游的产业平衡。在大陆来说应该是90%,甚至是100%这样一个高效的市场。同时我们也是国家文化走出去的战略的身体力行者。应该说涉及到了海外几十个国家,欧洲、美国等机构都是我们的用户。我们资源的使用量也是非常庞大的,每年这样全文下载的数量,我们中心网站的下载数量就已经达到了几亿的数量,还不包括我们的定向用户的下载数量,应该说使用效果非常的好。

 二、CNKI系列数据库整合服务的技术剖析
 作为技术分析首先要了解人获取信息有三种基本方式,不管我们从数据库还是从互联网上获取信息大概有这样几种方式,一个是导航,可能是分类的导航,可能是期刊的导航,通过这样的方式获得信息,这是最直观的方式,就好像我们逛街一样,我可能不能清晰描述出来我要什么东西,但是我见到之后就知道我想要。另外一种是检索,这需要用户有一定的数量,能够清楚的描述出来,需要什么。另外一种服务是链接服务,链接是相关性非常强,针对性很强的。在我们这样的平台上,这三种服务都是有的。
 第一种就是导航,我们提供了多能的导航,实际上是知识组成的过程。我们提供多种、多纬、多层次、多角度的知识提供的方式,像资源、图书、报刊等类型的信息提供。这是一种展示,比如说我们看到的很多期刊,各种类型的期刊都是有展现的,我们可以顺应一下找到我们的文章。这是文献,文献的刊期都很清晰。
 第二种就是检索,可以看到很多的智能组织,比如说分类体系,还有时间的导航,还有文献类型的导航,这都是为了让人们使用的时候更加方便的获取信息。同时还有一种就是比较专业的主题导航,我们实现了主题词的全自动的导航,同时在使用过程中进行转换。应该说我们在全球第一次实现了主题词的自动导航。我们CNKI实现了多功能、多种层次的希望深冬的来提供内容。当然我们的检索还要解决查找的问题、漏检的问题,这些都是比较专业的技术问题。这是我们看到一个比较专业的检索,我们提供了多种检索的入口,多种检索的方式,包括实现多种不同的检索。为了照顾普通的用户,我们业提供了比较简明的像Google、百度式的检索,但是我们的检索是有组织的,而Google、百度是没有组织的。我们作为一个专业的服务提供商,我们的资源都是经过精确的。
 第三种就是链接,我们公司希望能够购入这样一个知识网络来提供这样一个知识服务,我们要有效消除各种信息的孤岛,来实现知识资源的增值。因为我们把自己定位成信息资源的增值服务商,这种互动知识网使用了多种的信息智能的处理技术。
 为什么要做这样一种知识网,关键是提供相关性的文献,无论是纸介还是网站都人为的分开。这些是所谓的内容管理,在我们的尝试中,可能管理类的文献,他引用的这些东西大部分都是经济管理文献,我们对经济管理文献的分析,可以看的很清楚,他引用的文献是35%是同科类的,其实还有大量的文献是引用的教育类的,比如说是电子信息教育的,或者理工的、自然科学的。所以说跟内容相关联是需要进行知识网络的链接。
 在行为网络上来看,也有这样一个相关性的分析,当用户使用理工文献的时候,我们可以看到他同时也在下载和检索其他的资源,比如说经济的、电子信息类的,人的使用行为也是发散与其相关的。这也就是说我们为什么要做相关知识网,这就是内容上和知识上相关联的。
 在我们这样的一个资源领域提出了知网的概念,当用户看到一些文章、一些书的时候,我们对书进行发散形成共建网络,希望大家在这样一个空间中进行蔓延。我们即有文章的引证关系,也有一些导航和行为挖掘出来的一些相关行为资源。
 举个例子,当我们可以看到这篇文章参考文献、引用文献都有展现,这就可以看到文章的发展来龙去脉,可以知道前一届的研究生这篇论文写的是什么样的,或者后一届的论文又是什么样的,可以有一个清晰的展现,这些展现都是动态的,特别是音像方面的。同时我们还有二次的引用,这是更加一级,可能是一个使用者的发展可以分支下去,分支下去使脉络可以由一个很好的展现。同时我们的知识网并不只是一个知识的脉络,同时他是可以有效地解决检索所发生的事情。当我们找到一篇文章之后,我们再来看我们的知识网,看到知网这样的一个领域研究内容是非常丰富的,可以看到相关的文献,包括期刊、包括毕业论文以及其他的一些相关文献非常得多。
 我们把这些整合在一起,整合并不是一个简单的罗列,我们要把他形成一个有机的整体,实现整体的增值,为我们提供一种支持的服务。当然我们希望把人作为载体,因为我们提供的都是人的服务。同时我们也实施了从信息的被动服务到主动的服务,比如说看到一篇文章,看到一本书的时候,相关的文献就会推过来,形成被动到变成主动的服务。
 这是我们对他整个效果的简单分析,比如说我们原来报纸、会议的资源,原来是比较小的。但是这些资源并不是没有,只是因为原来找不到。当我们进入这些会议报道的时候,他的增长速度是非常快的,这种资源是相关的。前面讲到这样的一个资源产品所达到的服务,服务的模式,当然这种服务需要一种先进的技术支撑。
 我们整个CNKI的资源目前来说,仅仅是纯文本的数据,对这些资源的管理需要一个全文检索支撑,目前的全文检索应该说是达到了500G/M,这个技术在国际上是领先的。同时在我们的系统中提供了相似检索的功能,我们的相似检索可以完全做到实用化的功能,对100万的文献,可以在几十毫秒中找到相似的文献。Kbase目前也有广泛的应用。
 CTM中文智能信息处理平台。CTM实现了一个实用化的信息使用平台,把分类技术、规则的分类形成一个平台,包括这样的自动摘要,自动摘要目前已经做到了机械的摘要。还有自动的关联,关联的规则等等一系列的东西。像这种自动归类也是系列化的,比如说大学实验室来做,自动归类就可以做到几十个类、几个类的分类,实际上这是基于实验室的。如果真正实用化要非常大的,比如说中文分类有将近两万个,我们知道类别多的时候,对自动分类的考验是非常大的。
 接下来看看我们的技术,在我们这样的系统中如何应用。比如说在我们这样一个数据库中,我们可以给每个数据库提供了读者推荐文献,读者推荐文献提供的是用户海量新闻数据库的挖掘分析,每天我们网站上都有几千万的人次检索,他的一次检索并不是说一篇文章就看一次,他可能看到了文章A又看到了文章B,当检索A的时候看到文章B的时候,那我们一定相信A和B的文章一定是相关的。这种挖掘的分析就要进入关联度的挖掘,这种分析运算量是非常大的。
 另外在我们的数据库中也提供了相似的文献,这种相似文献是实时动态提供出来的,我们要进行实时的运算,这种运算量是非常大的,而我们可以做到实时的。包括这种引用的参考文献,我觉得这种很简单,但是标引有一些是不规范的,他背后是不严谨的。

 三、面向出版行业的信息资源整合服务方案与案例
 面向出版行业的门户网站,我们的研究主要定位在资源服务的网站,在这个网站上的解决方案我们大概是三层的结构,对里是资源加工整合,对上头是管理组织,对下头是应用达到满意度的层面。我们最近刚刚升级了我们的数字版权保护的方案。由于时间的原因不能展开。
 在我们的方案中我们使用了GPS信息资源的建设管理系统,它是一个非结构化数字管理的大规模的管理过程,这已经用了非常多年,也有大量的用户。可以对各种各样的文本文献做成电子书,可以提供一站式的发布服务,实际上涵盖了数字内容的创建、数字内容描述到管理、发布等等整套方案在我们里边都有全部的响应。
 一个案例是特色数据库,我们把相关的图片给大家看一下。这是体育方面的期刊报纸、图纸和相关特色的数据库。我们在这个解决方案中应用另外一个产品就是我们的WCCM网站内容管理系统,包括了栏目的规划、模板的定制、编辑加工和发布等,非常的全面。但是我们的特点是在于更加重视对内容、资源的整合服务,提供个性化服务。一个案例是金宏工程,是用我们文献来做的,有关经济宏观经济方面的文献都集中里边。由于时间关系没法展示,还包括卫生部、水利部等等。

 四、几点认识
 我们同方知网一直在做电子出版行业服务,但是我们认为电子书不等于网络出版,电子书仅仅是网络出版的一个模块,并且电子书是因为文化的依赖和技术水平的限制,我个人对电子书的前景是悲观的态度。另外出版网站也可以是网络出版。作为网站建设,内容是核心,这必须是坚定不移的,内容是网站出版的核心东西,技术仅仅是一个手段,可能实现的是内容组织管理和价值的提供,但是内容是核心,不能喧宾夺主。作为网站服务是目标,应用是它的关键。我们国家的很多信息化是重建设轻应用,实际上不应该这样,包括我们国家的电子政务也看了很多的网站,可以看到很多的网站半年都不更新,可能是荒废了的。作为一个网站来说,内容是核心,特别是出版网站来说内容是核心,服务是我们的目标,这样我们才能良性发展,当然我们要解决运营的问题,运营的问题就是一个商业模式。

 谢谢大家!

来源:中国出版网
本版责编:江蕾
 
 
相关评论 发表评论 发送新闻 打印新闻 上一条 下一条 关闭
| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网    京ICP备10054422号-7    京公网安备110108002480号    出版物经营许可证:新出发京批字第版0234号
经营许可证编号:京ICP证130369号    技术支持:云章科技