文本自动标引与自动分类研究 - 中国高校教材图书网
|
|
书名: |
文本自动标引与自动分类研究
|
ISBN: | 978-7-5641-1913-3 |
条码: | |
作者: |
章成志,白振田
相关图书
|
装订: | 平装 |
印次: | 1-1 |
开本: | 16开 |
定价: |
¥25.00
折扣价:¥23.75
折扣:0.95
节省了1.25元
|
字数: |
173千字
|
出版社: |
东南大学出版社 |
页数: |
212页
|
发行编号: | |
每包册数: |
|
出版日期: |
2010-02-01 |
|
内容简介: |
本书总结了作者近年来在文本自动标引和自动分类上所做的研究与实践。全书由四部分构成:第一部分为基础部分,介绍研究背景和研究意义,并对相关研究进展进行综述;第二部分介绍作者在自动标引方面的研究工作;第三部分介绍基于《中图法》分类知识库的文本自动分类系统;第四部分介绍基于统计与规则相结合的文本自动分类系统。本书是国内第一本比较系统地介绍文本自动标引和自动分类研究的专著,对从事信息检索、文本挖掘、知识组织、数字图书馆等研究和应用开发的科技人员有较高参考价值,可作为图书馆学、情报学、计算机科学与技术、信息管理和信息系统等专业的研究生、高年级本科生的教学参考书和技术资料。
|
作者简介: |
|
章节目录: |
第1章引言3 1.1研究背景3 1.2自动标引与自动分类的作用5 1.3本书的内容与章节安排7 第2章文本自动标引与分类研究进展10 2.1自动标引研究综述10 2.2文本分类研究综述23 2.3本章小结33 第二部分 第3章文本分词技术及抽词词典构造45 3.1文本分词技术概述45 3.2分词模式设计及其原理48 3.3原始抽词词典的构造49 3.4词典约简算法实验51 第4章基于多特征选择及权值计算57 4.1特征选择方法概述57 4.2算法设计原理62 4.3结果分析66 第5章自动标引中标引源权重方案确定68 5.1标引源权重研究综述68 5.2标引源权重方案的确定69 5.3本章小结78 第三部分 第6章分类知识库的制作83 6.1概述83 6.2关键词(串)—分类号关联研究综述85 6.3关键词(串)—分类号关联方法90 6.4分类知识库的制作93 6.5分类知识库的性能测评101 6.6篇名知识库的制作105 6.7本章小结109 第7章基于语义体系的词语相似度计算111 7.1概述111 7.2词语相似度研究综述112 7.3基于语义体系的词语相似度算法116 7.4基于语义相似度的同义词挖掘128 7.5本章小结137 第8章基于知识库的文本自动分类141 8.1文本自动系统总体设计141 8.2文本自动分类系统的测评143 8.3《全国报刊索引》自动标引与自动分类系统介绍146 8.4本章小结147 第四部分 第9章统计与决策规则双重分类算法151 9.1分类器概述151 9.2双重分类原理158 9.3分类规则提取160 9.4双重分类过程161 9.5实验结果及分析163 第10章层次分类算法实验166 10.1层次分类原理166 10.2层次分类算法设计168 10.3实验结果及分析171 第11章基于统计与规则相结合的文本分类系统的实现174 11.1系统实验用语料选择及分析174 11.2系统总体框架与模块介绍178 11.3系统测试分析181 11.4本章小结182 名称索引185 主题索引190 后记197图表目次 图11文本挖掘任务框架5 图12本书章节安排示意简图7 图21术语、主题词、标引词包含关系图12 图22信息描述的颗粒度12 图23自动标引研究路线图16 图24基于机器学习的自动抽词方法逻辑视图18 图41不同权值计算方法的实验结果66 图51统计工作流程图72 图61《中图法》分类知识库构建流程图94 图62分类知识库样例(规模:8万余条)99 图71《词林》语义空间117 图72语义距离的计算118 图73最短路径计算原型示意图119 图74词汇间的语义相似度计算流程图121 图75同义词挖掘系统流程图132 图76同义词挖掘系统结构图132 图77同义词挖掘系统界面133 图78同义词测试界面133 图79同义词挖掘界面133 图710同义词挖掘用数据库维护界面133 图81中文文本自动标引和分类系统结构图142 图82《全国报刊索引》自动标引与自动分类系统主界面147 图91基于最短距离法与规则匹配法的双重分类过程示意图162 图101类别体系的层次结构示意图167 图102多层次分类过程流程示意图170 图103分类过程示例图171 图111不同训练样本的分类结果对比176 图112取不同维数后的分类结果对比177 图113系统功能结构图178 图114系统总体流程图179 图115词典维护模块180 表21近五十年比较有代表性的自动标引方法13 表22自动标引方法的分类16 表23国外较有代表性的自动分类研究(包括相关系统)26 表24国内较有代表性的自动分类研究(包括相关系统)30 表31不同词典对分类结果的影响55 表41各权值计算方法结果示例65 表51主题表达能力的抽样统计数据来源一览表70 表52自动标引标引源统计表样例71 表53自动标引词频统计样例71 表54文章字数分布情况统计72 表55文章段落数分布情况统计73 表56自动标引词数统计73 表57标引源人工打分结果统计74 表58标引源人工打分统计(300篇经济类文本)75 表59样本标引词数分布情况表77 表61标引经验知识库中的关键词—分类对应形式举例89 表62事件A、B的可能出现频次表92 表63经去重处理后的记录样例95 表64经过分类辅助用词过滤处理后的数据样例96 表65关键词权值处理结果样例97 表66排序后结果样例97 表67相关度计算结果样例98 表68数据库规模与强规则对应表99 表69分类知识库实际标引测试对照表101 表610分类知识库数量比较101 表611分类知识库抽样统计结果表103 表612篇名知识库样例108 表71词汇语义相似度计算结果样例127 表72封闭实验结果对照表134 表73开放实验结果对照表135 表74同义词挖掘运行效率对照表(单位:秒)136 表81文本自动标引和分类(全文)、自动标引结果比较表144 表82自动分类(全文)与人工分类结果比较表145 表83文本自动标引和分类(简化)、自动标引结果比较表145 表84自动分类(简化)与人工分类结果比较表146 表85分类知识库规模147 表91知识表示例表155 表92决策表157 表93向量距离分类结果示意(片段)159 表94决策信息表161 表95修正正确的部分示例结果163 表96加入规则补充分类的测试结果164 表101非层次分类下的分类结果(片段)171 表111训练样本的分类合理性分析177 表112系统总体实验结果评估182
|
精彩片段: |
|
书 评: |
|
其 它: |
|
|
|