账号: 密码:
中国大学出版社协会 | 首页 | 宏观指导 | 出版社天地 | 图书代办站 | 教材图书信息 | 教材图书评论 | 在线订购 | 教材征订
搜索 新闻 图书 ISBN 作者 音像 出版社 代办站 教材征订
购书 请登录 免费注册 客服电话:010-62510665 62510769
图书查询索引 版别索引 分类索引 中图法分类 专业分类 用途分类 制品类型 读者对象 自分类 最新 畅销 推荐 特价 教材征订
综合查询
Spark大数据分析与实战(第二版) - 高等职业教育大数据技术专业系列教材 - 中国高校教材图书网
书名: Spark大数据分析与实战(第二版) 高等职业教育大数据技术专业系列教材
ISBN:9787560674858 条码:
作者: 郑述招  相关图书 装订:
印次:2-1 开本:16开
定价: ¥60.00  折扣价:¥57.00
折扣:0.95 节省了3元
字数: 288千字
出版社: 西安电子科技大学出版社 页数: 469页
发行编号:5606 每包册数: 8
出版日期: 2025-2-6
小团购 订购 咨询 推荐 打印 放入存书架

内容简介:
本书由教学与科研经验丰富的专任教师、企业资深工程师、全国职业技能大赛一等奖获得者共同编写。书中依据“项目引领、任务驱动”的思路,针对数据批量处理、流式处理、机器学习等Spark典型应用情境,设计了8个教学项目,涵盖Spark Core、Spark SQL、Spark Streaming、Structured Streaming、Spark Machine Learning等技术。其中每个项目细分为3~6个子任务,以保证技能提升的“平滑性”,契合初学者的认知规律。本书内容由浅入深,由实践到理论,再从理论回到实践,符合初学者的学习规律。同时,编者为了践行立德树人的时代担当,将思政元素有机融入项目教学,让读者在完成拓展项目的同时提升个人素养。
本书配套了微课视频、PPT课件、程序代码、数据集、教案、教学日历、考试样题、课程标准(大纲)等全套教学资源,以利于教师的教学。为了最大限度降低学习门槛,本书还提供了基于Linux的Spark虚拟机环境,可免去读者配置环境的烦恼。
本书可作为高等职业院校、应用型本科院校大数据相关课程的配套教材,也可作为Spark学习者的参考用书。

作者简介:
 
章节目录:
项目1 搭建Spark开发环境 1
情境导入 1
项目分解 1
学习目标 2
任务1.1 拥抱大数据时代 2
任务分析 2
知识储备 2
1.1.1 大数据时代已然来临 2
1.1.2 大数据来自哪里 3
1.1.3 大数据的处理过程 4
任务实施 5
任务1.2 搭建Hadoop基础平台 5
任务分析 5
知识储备 6
1.2.1 认识Hadoop生态圈 6
1.2.2 Hadoop环境的搭建 7
1.2.3 Hadoop平台初步体验 14
任务实施 15
任务1.3 部署Spark计算平台 15
任务分析 15
知识储备 16
1.3.1 初识Spark 16
1.3.2 Spark的运行过程 17
1.3.3 Spark与Hadoop的比较 19
1.3.4 Spark计算平台的部署 20
1.3.5 本书配套虚拟机的使用 23
任务实施 24
项目小结 25
知识检测 25
素养与拓展 26
项目2 编写Scala程序处理新能源汽车销售数据 27
情境导入 27
项目分解 27
学习目标 28
任务2.1 Scala的安装与体验 28
任务分析 28
知识储备 28
2.1.1 Scala简介 28
2.1.2 Scala的安装 29
2.1.3 编写第一个Scala程序 30
任务实施 33
任务2.2 分析某电动汽车的市场地位 33
任务分析 33
知识储备 34
2.2.1 数据类型与变量 34
2.2.2 运算符 36
2.2.3 if条件语句 39
2.2.4 Scala中的函数 41
任务实施 43
任务2.3 统计某汽车品牌的销量 45
任务分析 45
知识储备 45
2.3.1 数组的基本用法 45
2.3.2 循环结构 46
2.3.3 字符串的处理 49
2.3.4 读取文件的内容 50
任务实施 51
任务2.4 计算某热门车型的月均销量 52
任务分析 52
知识储备 53
2.4.1 元组 53
2.4.2 列表List 54
2.4.3 集合Set 55
2.4.4 Map映射 56
2.4.5 高阶函数 57
任务实施 59
任务2.5 计算各大品牌的市场占有率 60
任务分析 60
知识储备 61
2.5.1 类与对象 61
2.5.2 继承与特质 62
2.5.3 单例对象与伴生对象 64
2.5.4 模式匹配与样例类 65
任务实施 66
项目小结 67
知识检测 67
素养与拓展 68
项目3 使用Spark RDD分析车辆违章记录 70
情境导入 70
项目分解 70
学习目标 71
任务3.1 根据交通违章数据创建RDD 71
任务分析 71
知识储备 72
3.1.1 认识RDD 72
3.1.2 创建RDD 73
3.1.3 屏蔽Spark Shell日志INFO 76
任务实施 77
任务3.2 找出扣分最多的违章类型 78
任务分析 78
知识储备 79
3.2.1 查看RDD中的元素 79
3.2.2 map与flatMap操作 80
3.2.3 sortBy排序操作 83
3.2.4 数值型RDD的统计操作 84
任务实施 84
任务3.3 查找某车辆的违章记录 86
任务分析 86
知识储备 87
3.3.1 filter操作过滤RDD的元素 87
3.3.2 distinct方法去除重复元素 87
3.3.3 计算两个RDD的并集、交集与差集 88
3.3.4 计算两个RDD的笛卡尔积 90
任务实施 90
任务3.4 查找违章3次以上的车辆 92
任务分析 92
知识储备 93
3.4.1 键值对RDD的创建 93
3.4.2 keys、values操作得到一个新的RDD 95
3.4.3 lookup操作查找value 95
3.4.4 ByKey相关操作 96
3.4.5 mapValues对value进行处理 97
任务实施 98
任务3.5 找出累计扣12分以上的车辆 99
任务分析 99
知识储备 100
3.5.1 join操作连接两个RDD 100
3.5.2 rightOuterJoin右外连接 101
3.5.3 leftOuterJoin左外连接 101
3.5.4 fullOuterJoin全连接 102
任务实施 102
任务3.6 将处理结果写入外部文件 104
任务分析 104
知识储备 105
3.6.1 读写文本文件 105
3.6.2 读写CSV、TSV格式文件 106
3.6.3 读写Sequence文件 108
3.6.4 读取文件进行词频统计并存储结果 108
3.6.5 Spark RDD的执行流程 109
3.6.6 RDD间的依赖关系 110
任务实施 111
项目小结 112
知识检测 112
素养与拓展 113
项目4 IDEA开发环境下分析碳排放数据 115
情境导入 115
项目分解 116
学习目标 116
任务4.1 配置IntelliJ IDEA开发环境 116
任务分析 116
知识储备 117
4.1.1 下载安装IntelliJ IDEA 117
4.1.2 创建Maven工程 119
4.1.3 编写并运行程序 122
任务实施 125
任务4.2 IDEA下编写碳排放分析程序 125
任务分析 125
知识储备 126
4.2.1 文件首行的处理 126
4.2.2 缺失值的处理 127
任务实施 128
任务4.3 使用RDD持久化提升运行效率 129
任务分析 129
知识储备 130
4.3.1 RDD的缓存 130
4.3.2 RDD的检查点机制 133
4.3.3 缓存与检查点机制的区别 134
任务实施 135
任务4.4 认识RDD共享变量 135
任务分析 135
知识储备 136
4.4.1 广播变量 136
4.4.2 累加器 137
任务实施 138
项目小结 139
知识检测 139
素养与拓展 140
项目5 Spark SQL处理健康监测数据 141
情境导入 141
项目分解 141
学习目标 142
任务5.1 初识Spark SQL及其数据抽象 142
任务分析 142
知识储备 143
5.1.1 Spark SQL的产生 143
5.1.2 Spark SQL的数据抽象 144
5.1.3 体验Spark SQL编程 145
任务实施 146
任务5.2 查看健康监测数据 147
任务分析 147
知识储备 148
5.2.1 由数据文件创建DataFrame 148
5.2.2 查看DataFrame中的数据 151
5.2.3 重复值、缺失值的处理方法 152
5.2.4 将DataFrame数据保存到文件中 154
任务实施 154
任务5.3 使用DSL方式分析健康监测数据 155
任务分析 155
知识储备 156
5.3.1 数据的查询与筛选 156
5.3.2 数据的排序 158
5.3.3 DataFrame的连接 158
5.3.4 DataFrame的交集、并集和差集 159
5.3.5 聚合与分组统计 160
5.3.6 操作DataFrame中的列 161
任务实施 161
任务5.4 使用SQL方式分析健康监测数据 163
任务分析 163
知识储备 164
5.4.1 创建临时视图 164
5.4.2 按条件查询信息 164
5.4.3 分组统计信息 165
5.4.4 用户自定义函数UDF 165
任务实施 166
任务5.5 将DataFrame数据写入MySQL 168
任务分析 168
知识储备 169
5.5.1 MySQL相关准备工作 169
5.5.2 读取MySQL创建DataFrame 169
5.5.3 将DataFrame数据写入MySQL 171
5.5.4 RDD、DataFrame和Dataset三者间的相互转换 172
任务实施 175
项目小结 176
知识检测 176
素养与拓展 177
项目6 Spark Streaming处理用户行为数据 179
情境导入 179
项目分解 179
学习目标 180
任务6.1 初探用户点击行为 180
任务分析 180
知识储备 181
6.1.1 认识流数据与Spark Streaming 181
6.1.2 Spark Streaming的工作原理 182
6.1.3 编写第一个Spark Streaming程序 183
任务实施 184
任务6.2 识别无效的用户点击 186
任务分析 186
知识储备 186
6.2.1 DStream无状态转换操作 186
6.2.2 DStream有状态转换操作 188
6.2.3 有状态转换操作示例 189
任务实施 192
任务6.3 统计1 min内的订单量 193
任务分析 193
知识储备 194
6.3.1 由文件流创建DStream 194
6.3.2 利用RDD队列流创建DStream 195
6.3.3 Kafka的安装与初步体验 197
任务实施 199
任务6.4 电商用户的行为分析 201
任务分析 201
知识储备 202
6.4.1 将DStream数据保存到文件中 202
6.4.2 foreach操作的使用 203
6.4.3 将DStream写入MySQL 204
任务实施 206
项目小结 210
知识检测 211
素养与拓展 212
项目7 基于Structured Streaming的智慧交通数据处理 214
情境导入 214
项目分解 214
学习目标 215
任务7.1 统计正常工作的监控设备数 215
任务分析 215
知识储备 216
7.1.1 Spark Streaming的不足 216
7.1.2 Structured Streaming编程模型 216
7.1.3 编写第一个Structured Streaming程序 218
7.1.4 在IDEA下编写结构化流处理程序 220
任务实施 221
任务7.2 找出超速通过卡口的车辆 223
任务分析 223
知识储备 224
7.2.1 由文件生成Structured Streaming 224
7.2.2 由Kafka生成Structured Streaming 226
7.2.3 Structured Streaming的操作 227
7.2.4 输出模式的选择 229
任务实施 229
任务7.3 计算车辆通过的平均速度 230
任务分析 230
知识储备 231
7.3.1 基于窗口的聚合 231
7.3.2 迟到数据与水印 233
7.3.3 重复数据的处理 235
任务实施 236
任务7.4 将数据处理的结果写入MySQL 237
任务分析 237
知识储备 238
7.4.1 将数据输出到File文件 238
7.4.2 将数据输出到Kafka主题 239
7.4.3 使用foreachBatch和foreach方法输出数据 240
任务实施 242
项目小结 244
知识检测 244
素养与拓展 245
项目8 借助Spark ML预测森林植被种类 247
情境导入 247
项目分解 247
学习目标 248
任务8.1 初识Spark ML机器学习 248
任务分析 248
知识储备 248
8.1.1 了解机器学习及其应用场景 248
8.1.2 Spark机器学习库 250
8.1.3 数据类型与特征处理 250
任务实施 254
任务8.2 利用决策树探究植被种类 254
任务分析 254
知识储备 255
8.2.1 聚类算法 255
8.2.2 分类算法 257
8.2.3 推荐算法 263
任务实施 265
任务8.3 进一步提升预测准确率 267
任务分析 267
知识储备 268
8.3.1 机器学习流水线 268
8.3.2 模型的调优与保存 270
8.3.3 随机森林算法 272
任务实施 273
项目小结 276
知识检测 276
素养与拓展 277
参考文献 279
精彩片段:
 
书  评:
 
其  它:
 



| 我的帐户 | 我的订单 | 购书指南| 关于我们 | 联系我们 | 敬告 | 友情链接 | 广告服务 |

版权所有 © 2000-2002 中国高校教材图书网    京ICP备10054422号-7    京公网安备110108002480号    出版物经营许可证:新出发京批字第版0234号
经营许可证编号:京ICP证130369号    技术支持:云因信息