Hadoop大数据基础应用教程 - 高等学校计算机类专业系列教材 - 中国高校教材图书网
|
书名: |
Hadoop大数据基础应用教程
高等学校计算机类专业系列教材
|
ISBN: | 9787560676951 |
条码: | 5606 |
作者: |
陈建峡
相关图书
|
装订: | |
印次: | 1-1 |
开本: | 16开 |
定价: |
¥33.00
折扣价:¥31.35
折扣:0.95
节省了1.65元
|
字数: |
262千字
|
出版社: |
西安电子科技大学出版社 |
页数: |
180页
|
发行编号: | |
每包册数: |
13
|
出版日期: |
2025-9-4 |
|
内容简介: |
本书将理论和实践相结合,深入浅出地介绍了Hadoop海量数据处理平台的主要技术和相关应用。全书共10章,其中:第1~6章主要介绍Hadoop平台的基础理论知识,涉及云计算与大数据概述、Hadoop平台概述、分布式文件系统HDFS、Hadoop的I/O操作、分布式编程模型MapReduce及其作业运行机制;第7~10章介绍基于Hadoop平台的相关应用组件,包括数据分析技术Pig、数据仓库Hive、分布式数据库HBase以及分布式协调服务ZooKeeper。本书旨在帮助读者掌握Hadoop的核心技术,使读者能够完成在Hadoop平台上的基础程序开发,并不是学习Hadoop的全部知识。希望全面了解Hadoop知识的读者,建议学习后续进阶课程。 本书可作为高等院校数据科学专业的核心专业基础课程教材,也可作为高等院校计算机相关专业的教材,还可作为对大数据技术学习感兴趣的读者的自学参考书。
|
作者简介: |
|
章节目录: |
第1章 云计算与大数据概述 1
1.1 云计算概述 1
1.1.1 云计算的特点 2
1.1.2 云计算服务类型 5
1.1.3 云计算的部署方式 7
1.1.4 云计算的发展现状 8
1.2 大数据技术概述 11
1.2.1 大数据的基本概念 11
1.2.2 大数据处理流程 14
1.3 大数据处理系统 15
1.3.1 批数据处理系统 15
1.3.2 流数据处理系统 16
1.3.3 交互式数据处理系统 16
1.3.4 图数据处理系统 17
1.4 大数据的应用 17
1.4.1 批数据处理系统的典型应用 18
1.4.2 流数据处理系统的典型应用 18
1.4.3 交互式数据处理系统的
典型应用 19
1.4.4 图数据处理系统的典型应用 20
本章小结 22
习题 22
第2章 Hadoop平台概述 23
2.1 Hadoop生态系统 23
2.1.1 Hadoop的发展史 23
2.1.2 Hadoop与其他系统的关联 25
2.2 Hadoop系统的架构与组件 27
2.3 Hadoop系统的安装和配置 30
2.3.1 Hadoop系统的安装 30
2.3.2 Hadoop的配置 32
2.4 Hadoop网络拓扑与管理 33
2.4.1 Hadoop网络拓扑结构 33
2.4.2 Hadoop网络节点动态管理 35
本章小结 37
习题 37
第3章 分布式文件系统HDFS 38
3.1 文件系统简介 38
3.1.1 目录与目录树 38
3.1.2 文件管理器 39
3.2 分布式文件系统 40
3.2.1 NFS协议 41
3.2.2 NFS文件操作 41
3.3 HDFS体系结构 43
3.3.1 HDFS常用概念 43
3.3.2 HDFS系统架构 45
3.4 HDFS常用操作 46
3.5 HDFS数据流 47
3.5.1 文件的读取流程 48
3.5.2 文件的写入流程 49
本章小结 50
习题 50
第4章 Hadoop的I/O操作 51
4.1 数据完整性 51
4.1.1 HDFS数据完整性 51
4.1.2 本地文件系统 53
4.1.3 校验和文件系统 53
4.2 基于文件的数据结构 53
4.2.1 序列文件 53
4.2.2 镜像文件 54
4.3 压缩文件 55
4.3.1 压缩与解压缩 55
4.3.2 压缩格式的处理 56
4.4 对象序列化 57
4.4.1 序列化的作用和功能 57
4.4.2 Writable类 58
4.4.3 自定义Writable类型 60
4.4.4 序列化API 60
本章小结 61
习题 61
第5章 分布式编程模型MapReduce 62
5.1 MapReduce的体系架构 62
5.1.1 MapReduce的物理架构 62
5.1.2 Map Task的执行过程 64
5.1.3 Reduce Task的执行过程 64
5.2 MapReduce编程模型和计算流程 64
5.3 MapReduce数据流 65
5.4 MapReduce的编程方法 67
5.4.1 MapReduce的编程接口 67
5.4.2 分片与格式化数据源 68
5.4.3 Map Task 69
5.5 shuffle过程 70
5.5.1 Map端的shuffle过程 70
5.5.2 Reduce端的shuffle过程 72
5.6 MapReduce程序的编写 74
5.6.1 Word Count程序 74
5.6.2 Map端处理 75
5.6.3 Reduce端处理 75
5.6.4 本地测试 76
本章小结 77
习题 77
第6章 MapReduce作业运行机制 78
6.1 开发环境的配置 78
6.1.1 配置API 78
6.1.2 配置管理 80
6.1.3 用于简化的辅助类 81
6.2 MapReduce程序运行实例 82
6.2.1 程序打包 83
6.2.2 本地模式运行程序 84
6.2.3 集群模式运行程序 85
6.3 MapReduce程序性能调优方法 86
6.4 复杂MapReduce编程 87
6.4.1 MapReduce Job全局数据共享 87
6.4.2 MapReduce Job链接 88
6.5 MapReduce作业执行流程 91
6.6 错误处理机制 93
6.6.1 任务运行失败处理 93
6.6.2 Application Master失败 94
6.6.3 NodeManager失败 94
6.6.4 ResourceManager失败 95
6.7 MapReduce作业调度器 95
本章小结 96
习题 96
第7章 数据分析技术Pig 98
7.1 Pig的安装与运行 98
7.1.1 Pig的运行模式 99
7.1.2 Pig程序的运行方式 100
7.1.3 Grunt 101
7.1.4 Pig Latin编辑器 101
7.2 Pig Latin语言 102
7.2.1 Pig Latin结构 102
7.2.2 Pig Latin语句 102
7.2.3 Pig Latin表达式 103
7.2.4 Pig Latin数据类型 104
7.2.5 Pig Latin模式 104
7.2.6 Pig Latin函数 105
7.2.7 Pig Latin宏 107
7.3 用户自定义函数 108
7.3.1 过滤UDF 108
7.3.2 计算UDF 109
7.3.3 加载UDF 110
7.4 数据处理操作 113
7.4.1 数据的加载和存储 113
7.4.2 数据的过滤方法 113
7.4.3 数据的分组与连接 114
7.4.4 数据的排序 115
7.4.5 数据的组合和切分 116
7.5 Pig的应用技巧 116
7.5.1 并行处理 116
7.5.2 匿名关系 117
7.5.3 参数代换 117
本章小结 117
习题 117
第8章 数据仓库Hive 119
8.1 Hive简介 119
8.1.1 Hive的数据存储 119
8.1.2 Hive的元数据存储 120
8.2 Hive的基本操作 120
8.2.1 在集群上安装Hive 120
8.2.2 配置MySQL存储Hive
元数据 122
8.2.3 配置Hive 123
8.3 HiveQL 124
8.3.1 数据类型 124
8.3.2 操作与函数 125
8.4 Hive表 125
8.4.1 内部表和外部表 125
8.4.2 分区表和桶表 126
8.4.3 存储格式 127
8.4.4 数据导入方式 128
8.4.5 表的修改 129
8.4.6 表的丢弃 129
8.5 查询数据 130
8.5.1 排序和聚集 130
8.5.2 MapReduce脚本 130
8.5.3 连接 131
8.5.4 子查询 132
8.5.5 视图 132
8.6 用户定义函数 133
8.6.1 写UDF 133
8.6.2 写UDAF 134
本章小结 137
习题 137
第9章 分布式数据库HBase 138
9.1 安装HBase 138
9.1.1 HBase的安装与配置 138
9.1.2 HBase的运行步骤 140
9.1.3 HBase Shell命令 140
9.1.4 HBase参数的配置 141
9.2 HBase体系结构 142
9.2.1 Hregion 142
9.2.2 Hregion服务器 143
9.2.3 HBaseMaster服务器 143
9.2.4 ROOT表和META表 143
9.3 HBase数据模型 144
9.3.1 模型构成 144
9.3.2 概念视图 144
9.3.3 物理视图 145
9.4 HBase API 145
9.4.1 HBaseConfiguration类 146
9.4.2 HBaseAdmin类 146
9.4.3 HTableDescriptor类 147
9.4.4 HcolumnDescriptor类 148
9.4.5 Htable类 148
9.4.6 Put类 149
9.4.7 Get类 149
9.4.8 Result类 150
9.4.9 ResultScanner类 150
9.5 HBase编程 151
9.5.1 Hbase编程配置 151
9.5.2 HBase编程示例 151
9.5.3 HBase与MapReduce结合使用
示例 154
9.6 模式设计 157
9.6.1 模式设计原则 157
9.6.2 学生表 157
9.6.3 事件表 158
本章小结 158
习题 158
第10章 分布式协调服务ZooKeeper 160
10.1 ZooKeeper概述 160
10.2 ZooKeeper数据模型 161
10.2.1 ZNode 161
10.2.2 ZooKeeper的记录时间方式 162
10.2.3 ZooKeeper节点属性 162
10.2.4 Watch触发器 163
10.3 ZooKeeper集群的安装和配置 164
10.4 ZooKeeper主要的Shell操作 167
10.5 ZooKeeper的典型运用场景 169
10.5.1 数据发布与订阅 169
10.5.2 统一命名服务 169
10.5.3 分布式协调/通知 170
本章小结 170
习题 170
参考文献 172
|
精彩片段: |
|
书 评: |
|
其 它: |
|
|
|