基于机器学习的文本挖掘 - 中国高校教材图书网
|
内容简介: |
《基于机器学习的文本挖掘》以R语言作为分析工具,通过详细案例介绍了文本挖掘的一般流程及如何使用贝叶斯分类器、最近邻、支持向量机、决策树等机器学习算法处理特征选择、分类、聚类文本挖掘领域经典任务。书籍第一章对机器学习与文本挖掘技术做了综述;第二章系统介绍了用于文本挖掘的主流编程语言R;第三章介绍了文本结构化表示方式;第四至十一章介绍了文本挖掘中的分类问题及如何实现机器学习算法解决分类问题;第十二章介绍了文本聚类及实践方式;第十三至十四章介绍了当前主流词嵌入方法及特征选择方法。 本书结合实际语料案例向读者介绍并实现当前机器学习的主流分类算法、聚类算法、词嵌入特征选择等技术,为人文社科领域学者理解和深入学习文本挖掘提供了明晰的解释和系统的实施路径。如果读者希望了解与文本挖掘相关的各类机器学习算法及如何用R包进行实践,相信该书能够提供明晰的解释和便捷的方案。
|
作者简介: |
作者简介 扬·茨卡,目前在机器学习和数据挖掘领域从事咨询工作,曾担任过系统程序员、高级软件开发员及研究员。他曾在捷克等地的一些大学和研究机构中工作过,撰写了大约100份国际出版物。在过去的25年中一直致力于人工智能和机器学习领域,特别是文本挖掘相关研究。 弗朗齐歇克·达雷纳,现任布尔诺孟德尔大学商业与经济学院信息学系副教授、系统工程和信息学博士学位项目保证人、文本挖掘与自然语言处理组组长。担任多本国际期刊的编委会成员,是International Journal on Foundations of Computer Science & Technology的主编,曾发表和出版过多篇国际科学期刊论文、会议论文集和专著。研究领域包括文本/数据挖掘、智能数据处理和机器学习。 阿尔诺斯特·斯沃博达,编程专家,研究领域包括编程语言和系统,如R、Assembler、Matlab、PL/1、Cobol、Fortran、Pascal等。过去20年来一直在马萨里克大学应用数学与计算机科学系担任教师和研究员,目前主要研究机器学习和数据挖掘。 译者简介 汪顺玉,二级教授,博士,博士生导师,“西外学者”领军学者,省级人才,西安外国语大学研究生院前院长。先后主持国家社科重点项目、教育部人文社科项目、省市级哲学社会科学规划课题、教改重点课题、教育考试院课题等 10 余项。在《外语教学》《英语研究》《重庆大学学报》《上海科技翻译》《天津外国语大学学报》《中国社会科学报》Health Communication等刊物发表学术论文 40 余篇,在上海外语教育出版社、西安交通大学出版社、四川大学出版社、重庆大学出版社等机构出版学术专著、译著、教材12部。学术兴趣包括语言测试与评价、学术翻译、文本挖掘话语研究、社会研究方法等。 戴钰涵,西安外国语大学在读博士,丝绸之路语言服务协同创新中心教师,陕西省高校青年创新团队“数字化外语测评研究创新团队”成员。近三年来在《外语界》《西安电子科技大学学报(社会科学版)》《佳木斯大学社会科学学报》《今传媒》等期刊上发表论文4篇,参与纵向课题3项。研究兴趣为基于机器学习方法的话语分析,大数据技术下的翻译技术教学研究。 王晓明,西安外国语大学副教授,工学博士,硕士生导师。研究方向:计算语言学、智能测评、语言认知计算。长期从事人工智能、计算语言学等领域的研究,主持并完成教育部社科项目1项(以免于鉴定结项)和省级社科项目1项(以优秀等级结项),近5年发表SCI 二区期刊论文3篇、EI检索期刊论文1篇、EI检索会议论文1篇、CSCD检索期刊论文1篇。
|
章节目录: |
|
精彩片段: |
|
书 评: |
|
其 它: |
|
|
|