【推荐语】
适读人群 :本书可以作为高校大数据技术类专业教材,也可作为大数据技术爱好者的自学用书。

1. 以任务为导向,讲解Spark基础知识

2. 随书附带案例数据及代码,方便读者系统学手实践

3. 实战案例丰富

4. 配有微课,学便

5. “十三五”职业教育国家规划教材改版
【目录】
第 1章 Spark概述pan>
任务1.1 认识Spark pan>
1.1.1 了解Spark的发展历史 pan>
1.1.2 了解Spark的特点 2
1.1.3 认识Spark的生态圈 4
1.1.4 了解Spark的应用场景 5
任务1.2 搭建Spark集群 6
1.2.1 搭建单机版集群 6
1.2.2 搭建单机伪分布式集群 6
1.2.3 搭建分布式集群 7
任务1.3 了解Spark运行架构与原理 1pan>
1.3.1 了解Spark架构 1pan>
1.3.2 了解Spark作业运行流程 12
1.3.3 了解Spark核心数据集RDD 15
1.3.4 了解Spark核心原理 17
小结 19
课后19
第 2章 Scala基础
任务2.1 安装与运行Scala 2pan>
2.1.1 了解Scala语言 2pan>
2.1.2 了解Scala特 2pan>
2.1.3 安装Scala 22
2.1.4 运行Scala 24
任务2.2 定义函数识别号码类型 24
2.2.1 了解数据类型 25
2.2.2 定义与使用常量、变量 25
2.2.3 使用运算符 26
2.2.4 定义与使用数组 27
2.2.5 定义与使用函数 30
2.2.6 任务实现 32
任务2.3 统计广州号码段数量 33
2.3.1 使用if判断 34
2.3.2 使用for循环 35
2.3.3 任务实现 36
任务2.4 根据归属地对行分组 37
2.4.1 定义与使用列表 37
2.4.2 定义与使用集合 39
2.4.3 定义与使用映射 39
2.4.4 定义与使用元组 40
2.4.5 使用函数组合器 40
2.4.6 任务实现 4pan>
任务2.5 编写归属地信息查询程序 42
2.5.1 定义Scala类 42
2.5.2 使用Scala单例模式 44
2.5.3 使用Scala模式匹配 45
2.5.4 读写文件 46
2.5.5 任务实现 46
小结 47
实训 47
实训1 使用Scala编写函数过滤文本中的回文单词 47
实训2 使用Scala编程输出九九乘法表 48
课后49
第3章 Spark编程基础 5pan>
任务3.1 读取员工薪资数据创建RDD 52
3.1.1 从内存中读取数据创建RDD 52
3.1.2 从外部存储系统中读取数据创建RDD 53
3.1.3 任务实现 54
任务3.2 查询上半年实际薪资排名前3的员工信息 55
3.2.1 使用map()方法转换数据 55
3.2.2 使用sortBy()方行排序 55
3.2.3 使用collect()方法查询数据 56
3.2.4 使用flatMap()方法转换数据 57
3.2.5 使用take()方法查询某几个值 57
3.2.6 任务实现 58
任务3.3 查询上半年或下半年实际薪资大于万元的员工姓名 59
3.3.1 使用union()方法合并多个RDD 59
3.3.2 使用filter()方行过滤 60
3.3.3 使用distinct()方行去重 60
3.3.4 使用简单的集合操作 60
3.3.5 任务实现 62
任务3.4 输出每位员工年实际薪资 63
3.4.1 了解键值对RDD 63
3.4.2 创建键值对RDD 64
3.4.3 使用键值对RDD的keys和values方法 64
3.4.4 使用键值对RDD的reduceByKey()方法 65
3.4.5 使用键值对RDD的groupByKey()方法 66
3.4.6 任务实现 66
任务3.5 查询每位员工年的月均实际薪资 67
3.5.1 使用join()方法连接两个RDD 67
3.5.2 使用zip()方法组合两个RDD 69
3.5.3 使用combineByKey()方法合并相同键的值 70
3.5.4 使用lookup()方法查找指定键的值 7pan>
3.5.5 任务实现 7pan>
任务3.6 存储后的员工薪资为文本文件 72
3.6.1 读取与存储JSON文件 72
3.6.2 读取与存储CSV文件 75
3.6.3 读取与存储SequenceFile文件 78
3.6.4 读取与存储文本文件 79
3.6.5 任务实现 80
小结 82
实训 82
实训1 通过Spark编程统计某月份的客消费金额 82
实训2 通过Spark编程计算各城市均气温 82
课后83
第4章 Spark编阶 86
任务4.1 搭建Spark开发环境 87
4.1.1 下载与安装IntelliJ IDEA 87
4.1.2 Scala插件安装与使用 89
4.1.3 配置Spark运行环境 94
4.1.4 运行Spark程序 96
任务4.2 统计分析竞赛网站用户访问日志数据 104
4.2.1 设置RDD持久化 104
4.2.2 设置数据分区 105
4.2.3 计算竞赛网站每月的访问量 109
4.2.4 任务实现 11pan>
小结 112
实训 自定义分区器实现按人物标行数据区分 112
课后113
第5章 Spark SQL—结构化数据文件处理 116
任务5.1 认识Spark SQL 117
5.1.1 了解Spark SQL基本概念 117
5.1.2 配置Spark SQL 117
5.1.3 了解Spark SQL与Shell交互 119
任务5.2 掌握DataFrame基础操作 1
5.2.1 创建DataFrame对象 1
5.2.2 查看DataFrame数据 122
5.2.3 掌握DataFrame查询操作 125
5.2.4 掌握DataFrame输出操作 134
任务5.3 探索分析房屋售价数据 136
5.3.1 获取数据 136
5.3.2 探索字段值分布 137
5.3.3 统计各季度房屋销量和销售额 139
5.3.4 探索分析房屋评分 14pan>
5.3.5 探索修缮过的房屋房龄分布 142
5.3.6 任务实现 143
小结 145
实训 146
实训1 基于DataFrame实现老师教学质量统计分析 146
实训2 基于DataFrame实现学生成绩统计分析 147
课后148
第6章 Spark Streaming—实时计算框架 150
任务6.1 初识Spark Streaming 15pan>
6.1.1 了解Spark Streaming基本概念 15pan>
6.1.2 了解Spark Streaming运行原理 15pan>
6.1.3 初步使用Spark Streaming 152
任务6.2 掌握DStream基础操作 155
6.2.1 了解DStream编程模型 155
6.2.2 使用DStream转换操作 155
6.2.3 使用DStream窗口操作 157
6.2.4 使用DStream输出操作 160
任务6.3 实现书籍热度实时计算 165
6.3.1 获取输入数据源 165
6.3.2 计算用户评分次数均评分 168
6.3.3 计算书籍被评分次数均评分 169
6.3.4 实时计算书籍热度 17pan>
6.3.5 任务实现 172
小结 174
实训 174
实训1 使用Spark Streaming实现课程实时查找 174
实训2 使用Spark Streaming实时统计广告点击量前3名 175
课后176
第7章 Spark GraphX—图计算框架 179
任务7.1 认识Spark GraphX 180
7.1.1 了解图的基本概念 180
7.1.2 了解图计算的应用 18pan>
7.1.3 了解GraphX的基础概念 18pan>
7.1.4 了解GraphX的发展历程 18pan>
任务7.2 了解GraphX常用API 182
7.2.1 创建与存储图 182
7.2.2 查询与转换数据 188
7.2.3 转换结构与关联聚合数据 195
任务7.3 统计网页价值排名前10的网页 3
7.3.1 构建网页结构图 3
7.3.2 计算网页得分 4
7.3.3 找出排名前10的网页 4
7.3.4 任务实现 5
小结 7
实训 7
实训1 使用Spark GraphX实现家庭关系网络图构建及查询 7
实训2 使用Spark GraphX统计具影响力用户 8
课后210
第8章 Spark MLlib能强大的算法库 213
任务8.1 了解MLlib算法库 215
8.1.1 了解机器学 215
8.1.2 使用MLlib 216
任务8.2 使用决策树算法实现网络攻击类型识别 232
8.2.1 分析思路 232
8.2.2 探索分析数据 233
8.2.3 数据特征处理 236
8.2.4 MLlib实现决策树 238
8.2.5 任务实现 240
小结 243
实训 243
实训1 使用K-Means划分电影热度等级 243
实训2 使用逻辑回归算法实现提升员工工作满意度 244
课后245
第9章 项目案例—广告检测的流量作弊识别 248
任务9.1 分析需求 248
9.1.1 常见的广告流量作弊方式 249
9.1.2 分析需求 249
任务9.2 探索分析广告流量数据 250
9.2.1 数据说明 250
9.2.2 基础探索数据 25pan>
9.2.3 探索作弊流量的数据特征 255
任务9.3 预处理数据并构建特征 259
9.3.1 删除缺失值字段 259
9.3.2 构建广告流量作弊识别特征 260
任务9.4 构建与评估分类模型 265
9.4.1 构建与评估逻辑回归模型 265
9.4.2 构建与评估森林模型 267
9.4.3 模型加载 269
小结 270
返回顶部