账号: 密码:
中国大学出版社协会 | 首页 | 宏观指导 | 出版社天地 | 图书代办站 | 教材图书信息 | 教材图书评论 | 在线订购 | 教材征订
搜索 新闻 图书 ISBN 作者 音像 出版社 代办站 教材征订
购书 请登录 免费注册 客服电话:010-62510665 62510769
图书查询索引 版别索引 分类索引 中图法分类 专业分类 用途分类 制品类型 读者对象 自分类 最新 畅销 推荐 特价 教材征订
综合查询
Python 3:语料库技术与应用 - 中国高校教材图书网
书名: Python 3:语料库技术与应用
ISBN:9787561577271 条码:
作者: 陆晓蕾,倪斌  相关图书 装订:0
印次:1-1 开本:16开
定价: ¥45.00  折扣价:¥42.75
折扣:0.95 节省了2.25元
字数: 232千字
出版社: 厦门大学出版社 页数: 212页
发行编号: 每包册数:
出版日期: 2021-01-01
小团购 订购 咨询 推荐 打印 放入存书架

内容简介:
本书介绍了基于Python 3的语料库相关技术与应用,内容主要包括语料自动获取与语料分析实践。全书共分为两篇:理论篇和实践篇。理论篇中,本书介绍了如何将Python 3应用到语料自动获取、存储与读取、清洗与预处理、语料检索与分析等典型应用场景。在第四章中还涉及部分自然语言处理的内容,包括情感分析和命名实体识别等。实践篇中,本书从开发环境配置出发,以IMDb为例,阐述了影评语料的自动获取和基于机器学习的文本分析方法。从语料的获取到分析的整个流程中,本书希望能够在理论和实践上传达“语言+技术”的理念

作者简介:
 
章节目录:
绪论 网络语料自动获取的法律边界
理论篇
第1章 语料自动获取
1.1 网页的基本组成
1.1.1 网页的内容:HTML
1.1.2 网页的样式:CSS
1.1.3 网络的动效:JavaScript
1.2 基本原理
1.2.1 请求
1.2.2 响应
1.3 语料自动获取的基本方法
1.3.1 Urllib
1.3.2 Requests
1.4 网页解析库的使用
1.4.1 自动获取单页网页
1.4.2 实现翻页获取网页语料
第2章 语料自动存储与读取
2.1 TXT
2.1.1 with open
2.1.2 open
2.2 DOCX
2.2.1 存储
2.2.2 读取
2.3 JSON
2.3.1 存储
2.3.2 读取和索引
2.4 CSV
2.4.1 存储
2.4.2 读取
Z.b XLSX
2.5.1 Pandas
2.5.2 XLRD
2.5.3 XLWT
2.5.4 将自动获取的语料存为多个XLSX文档
2.6 文档的批量处理
2.6.1 批量合并多个TXT文档
2.6.2 批量修改TXT文档标题和添加内容
2.6.3 批量读取并合并多个XLSX文件
2.6.4 批量转换文件格式
2.6.5 批量统计多个文件中的字符数
2.6.6 批量提取多个文件中包含关键词的段落
第3章 语料清洗与预处理
3.1 文本清洗与降噪
3.1.1 去除HTML标签
3.1.2 去除标点符号和停用词
3.2 语料预处理
3.2.1 使用NLTK分句和分词
3.2.2 大小写转换与大小写词频统计
3.2.3 词性自动标注
3.2.4 词干提取和词形还原

精彩片段:
 
书  评:
 
其  它:
 



| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网    京ICP备10054422号-7    京公网安备110108002480号    出版物经营许可证:新出发京批字第版0234号
经营许可证编号:京ICP证130369号    技术支持:云因信息