数据采集技术 - 中国高校教材图书网
|
书名: |
数据采集技术
|
| ISBN: | 978-7-300-34727-1 |
责任编辑: | |
| 作者: |
安敬鑫 但雨芳 贺宁 李爱菊
相关图书
|
装订: | 平 |
| 印次: | 1-1 |
开本: | 16 |
| 定价: |
¥45.00
折扣价:¥40.50
折扣:0.90
节省了4.5元
|
字数: |
220千字
|
| 出版社: |
中国人民大学出版社 |
页数: |
200页
|
| 出版日期: |
2026-02-01 |
每包册数: |
|
| 国家规划教材: |
|
省部级规划教材: |
|
| 入选重点出版项目: |
|
获奖信息: |
|
|
|
| 内容简介: |
本书遵循校企双元育人理念,系统构建知识体系,将数据安全法规、数据伦理意识与工匠精神深度融入案例设计,着力培养学生“依法采集、科学治理、安全应用”的职业素养。依托真实项目载体,内容紧密对接大数据工程技术人员、人工智能工程技术人员等国家职业标准,融入行业前沿技术规范及职业院校技能大赛竞赛标准,通过“项目导学—任务分解—实战解析—课后拓展”的四阶递进式教学模式,实现学生技能的螺旋式提升。 本书依托真实项目载体,共规划了5个项目。项目1旨在引领读者开启数据采集世界的大门,了解其基本概念、发展历程及应用场景。项目2至项目5则分别聚焦于不同类型网页数据的爬取技术,系统讲解相关库与工具的使用方法、技巧及其应用场景,项目难度和技术深度逐步提升,符合学习规律和职业能力成长路径,突出对现代化工具的使用和解决工程问题的能力。 本书适用于职业院校大数据相关专业教学,也可作为数据采集技术爱好者的自学参考书。
|
| 作者简介: |
安敬鑫,副教授,中共党员,现任山东轻工职业学院信息工程系副主任,兼任计算机教研室党支部书记,世界职业院校技能大赛金奖指导教师。长期深耕职业教育一线,主讲《数据采集技术》《数据库管理与应用》等专业课程,主要研究领域为人工智能与大数据技术。个人获全国职业院校技能大赛一等奖、三等奖各1项,连续4年指导学生斩获山东省职业院校技能大赛一等奖,发表论文5篇,主持国家软件著作权1项、专利2项,主持或参与省级以上课题5项,主持或参与省级以上课程2门,主编或参编教材3部,其中国家规划教材1部,获评 “山东省新时代岗位建功劳动竞赛标兵”“市级优秀共产党员”“市级优秀教师”等荣誉称号。 但雨芳,浙江经贸职业技术学院,副教授,专业方向是大数据技术应用,主要讲授“大数据采集”“python基础与应用”“图像处理技术”等课程。宁波市“甬江拔尖人才”第三层次、宁波市高级人才、杭州市D类人才、大数据技术应用国赛一等奖指导教师、宁波市技术能手。主持浙江省教育厅高职教育“十四五”第二批教学改革项目、厅市级项目3项、省重点实验室项目4项目、省公益基金项目1项。公开发表专业相关论文约20篇,其中,sci论文10余篇、top期刊论文3篇,授权发明专利5项,实用新型专利20余项,参编《计算机视觉应用开发(1+X)初级》教材。 贺宁,中级讲师,常州信息职业技术学院,现任江苏省科技副总(2024年),是常州市第八批“龙城英才”和2019年、2020年“金凤凰人才”称号获得者。长期致力于大数据技术、生成式人工智能、区块链应用及职业教育创新领域的研究与实践,主持了多项省部级课题,包括江苏省自然科学基金面上项目、省职业技术教育学会研究课题、全国职业教育行指委/教指委立项课题,以及省教育科学规划课题,并深度参与市厅级科研项目。同时还担任江苏省工业和信息产业转型升级专项资金项目评审专家,深度参与全省制造业智能化升级项目的战略评估与资源分配;常州市工业和信息化局两化融合处评审专家,常州市智能化改造和数字化转型“十链突破”评审专家;常州市智能车间/智能工厂市级评审专家。 李爱菊,山东交通职业学院,博士,副教授,专业方向是大数据技术,主要讲授“商业智能与可视化”“数据采集与处理技术”“Hadoop大数据生态技术与应用”“数据仓库技术与应用”等课程。北京市青年英才教师、华北五省计算机应用大赛优秀指导教师。主持省部级课题2项,参与省部级课题2项,获批潍坊市重点实验室1项,拥有发明专利1项,实用新型5项,软件著作权4项,发表SCI论文2篇,核心期刊论文2篇。主编《项目管理》、《JavaScript+Vue.js Web开发项目教程》等教材。
|
| 章节目录: |
项目1 初探网络爬虫应用 ? 任务1.1 初识网络爬虫 ? 任务1.2 合法性与robots协议 ? 任务1.3 初识反爬虫 ? 任务1.4 Python 爬虫环境 任务1.5 数据安全 任务1.6 项目实战——编写一个简单的爬虫程序 项目2 爬取静态网页数据 任务2.1 获取静态网页源代码 任务2.2 数据采集 任务2.3 项目实战——爬取“人大芸窗数字教材”网站的静态数据 项目3 爬取动态网页数据 任务3.1 安装Selenium 与浏览器驱动程序 任务3.2 使用Selenium 自动化操作浏览器 任务3.3 使用Selenium 查找HTML 元素 任务3.4 使用Selenium 编写高级数据采集程序 任务3.5 项目实战——使用Selenium 进行动态网页页面操作 项目4 实施数据存储入库 任务4.1 文件的基本操作 任务4.2 文件的定位和管理 任务4.3 CSV 文件的应用 任务4.4 数据库的使用 任务4.5 项目实战——采集网页中的教材信息存入文件和数据库 项目5 Scrapy 爬虫框架 任务5.1 使用Scrapy 创建爬虫程序 任务5.2 编写Spider 脚本任务 任务5.3 制作爬虫及永久化存储数据 任务5.4 修改Item Pipeline 与settings 脚本 任务5.5 Scrapy 常用命令行工具 任务5.6 Scrapy 的爬虫类和模板 任务5.7 项目实战——基于Scrapy 爬取“人大芸窗数字教材”网站的 平台功能特色 参考文献
|
| 精彩片段: |
1.1.2 网络爬虫的作用 在当今大数据时代,网络爬虫有着至关重要的作用。对于搜索引擎公司而言,爬虫不断爬取网页信息,为搜索引擎构建索引,使得用户能够在搜索框中输入关键词后,快速获取相关的网页内容。例如,百度、谷歌等搜索引擎,通过爬虫持续更新和扩充其索引库,为用户提供精准的搜索结果。对于企业来说,爬虫可以用于市场调研,收集竞争对手的产品信息、价格动态,分析市场趋势等。例如,电商企业通过爬虫获取同行业其他商家的商品价格、促销活动等信息,以便调整自身的经营策略。
|
| 书 评: |
|
|
| 其 它: |
|
|
|