自然语言处理方法——使用Python基于机器学习和深度学习发掘文本数据 - 中国高校教材图书网
|
|
书名: |
自然语言处理方法——使用Python基于机器学习和深度学习发掘文本数据
|
ISBN: | 9787560660219 |
条码: | |
作者: |
王侃
相关图书
|
装订: | |
印次: | 1-1 |
开本: | 16开 |
定价: |
¥48.00
折扣价:¥45.60
折扣:0.95
节省了2.4元
|
字数: |
178千字
|
出版社: |
西安电子科技大学出版社 |
页数: |
176页
|
发行编号: | |
每包册数: |
14
|
出版日期: |
2021-04-27 |
|
内容简介: |
本书系统介绍了基于机器学习和深度学习对文本数据进行挖掘和分析的方法,从文本分类、语音识别、主题建模、文本总结、文本生成、情感分析等多个自然语言处理的应用角度出发,对自然语言处理进行了深入解读,通过大量Python代码帮助读者快速学习并实现基本的甚至较高级的自然语言处理技术。 全书共六章。第1章介绍数据的收集和提取,包括从网页、PDF、Word、HTML、JSON中收集数据;第2章介绍文本数据的处理,包括形式转换、删除标点符号、拼写校正、词干提取、词形还原等;第3章介绍文本特征工程,采用的技术包括One Hot编码、统计向量化、N-grams、哈希向量化、共生矩阵等;第4章介绍高级自然语言处理,包括文本相似度计算、词性标注、提取实体、提取主题、情感分析、语音和文本互转等;第5章介绍自然语言处理的行业应用,如多类分类、文本数据总结、文档聚类、自然语言处理在搜索引擎中的应用等;第6章介绍基于深度学习的自然语言处理,通过深度学习实现信息检索、文本分类和单词预测。 本书注重理论与实践相结合,具有较好的实用性,可为自然语言处理或机器学习的相关从业人员以及爱好者提供业务学习指导,也可为Python程序员提供技术参考,还可为高等院校相关专业的本科生和研究生提供学习参考。
|
作者简介: |
|
章节目录: |
引言 1 第1章 提取数据 5 概述 5 方法1-1 使用API收集文本数据 6 方法1-2 从PDF中收集数据 7 方法1-3 从Word文件中收集数据 8 方法1-4 从JSON中收集数据 9 方法1-5 从HTML中收集数据 11 方法1-6 使用正则表达式解析文本 14 方法1-7 处理字符串 21 方法1-8 从网页抓取文本 23 第2章 探索和处理文本数据 28 方法2-1 将文本数据转换为小写形式 29 方法2-2 删除标点符号 30 方法2-3 删除停止词 32 方法2-4 文本标准化 34 方法2-5 拼写校正 35 方法2-6 文本分词 37 方法2-7 词干提取 39 方法2-8 词形还原 40 方法2-9 探索文本数据 41 方法2-10 建立一个文本预处理流水线 45 第3章 文本特征工程 49 方法3-1 使用One Hot编码将文本转换为特征 49 方法3-2 使用统计向量器将文本转换为特征 50 方法3-3 生成N-grams 52 方法3-4 生成共生矩阵 54 方法3-5 使用哈希向量器 56 方法3-6 使用词频-逆文档频率将文本转换为特征 57 方法3-7 实现词嵌入 58 方法3-8 实现fastText 66 第4章 高级自然语言处理 69 方法4-1 提取名词短语 70 方法4-2 查找文本之间的相似度 71 方法4-3 词性标注 73 方法4-4 从文本中提取实体 75 方法4-5 从文本中提取主题 77 方法4-6 文本分类 79 方法4-7 情感分析 83 方法4-8 消除文本二义性 84 方法4-9 语音转换为文本 85 方法4-10 文本转换为语音 87 方法4-11 语言翻译 88 第5章 自然语言处理的行业应用 90 方法5-1 消费者投诉分类 90 方法5-2 实现情感分析 97 方法5-3 应用文本相似度函数 107 方法5-4 文本数据总结 117 方法5-5 文档聚类 122 方法5-6 搜索引擎中的自然语言处理 128 第6章 基于深度学习的自然语言处理 132 方法6-1 利用深度学习进行信息检索 138 方法6-2 使用深度学习对文本进行分类 143 方法6-3 对邮件使用长短时记忆预测下一个单词/序列 156
|
精彩片段: |
|
书 评: |
|
其 它: |
|
|
|