基于云计算的数据科学中国电力出版社-当当网

店铺推荐

【内容】

在本书中，你将学到：
使用AppEngine应用实现自动化定期数据摄取。
在GoogleDataStudio中创建并生成数据仪表板。
构建实时数据分析管道，实现流式数据分析。
使用GoogleBigQuery实现可交互式数据探索。
在CloudDataproc群集上创建贝叶斯模型。
使用Spark构建逻辑回归机器学习模型。
使用CloudDataflow数据管道计算时间聚合特征。
使用TensorFlow构建高性能预测模型。
将你的模型部署为微服务，并且从批处理和实时数据管道中使用它。

【目录】

前言1
第1章用数据做出更好的决策9
许多相似的决策11
数据工程师的角色12
云计算让数据工程师成为可能14
云计算使数据科学能力得到倍增18
用案例研究揭示难解的真相20
基于概率的决策21
数据和工具27
代码入门28
本章总结30
第2章将数据摄取到云端31
航空公司准点数据31
可知性33
训练–服务偏差34
下载程序35
数据集属性36
为什么不就地存储数据？38
向上扩展40
水平扩展42
使用Colossus和Jupiter让数据存放在原位44
摄取数据47
对Web表单进行反向工程48
下载数据集51
数据探索和清理53
将数据上传到Google云端存储55
每月下载计划58
使用Python摄取数据61
FlaskWebApp68
在AppEngine上运行69
确保URL的安全70
计划Cron任务70
本章总结73
代码实验74
第3章创建引人注目的仪表板76
使用数据仪表板对模型进行解释77
为什么要先构建数据仪表板？79
准确、忠实于数据且良好的设计80
将数据加载到GoogleCloudSQL83
创建GoogleCloudSQL实例83
与Google云计算平台交互84
控制对MySQL的访问86
创建表87
向表中填充数据89
建立第一个模型90
应急表91
阈值优化92
机器学习93
构建数据仪表板94
DataStudio入门94
创建图表96
为最终用户添加控件98
用饼图显示所占比例100
解释应急表105
本章总结107
第4章流数据：发布和摄取109
设计事件馈送109
时间校正112
ApacheBeam/CloudDataflow113
解析机场数据115
添加时区信息116
将时间转换为UTC117
修正日期120
创建事件121
在云中运行数据管道122
将事件流发布到CloudPub/Sub126
获取要发布的数据记录129
对数据记录进行分页130
构建事件集合130
发布事件集合131
实时流式处理132
JavaDataflow中的流式数据133
执行流数据处理138
使用BigQuery分析流式数据140
实时数据仪表板141
本章总结144
第5章交互式数据探索145
探索性数据分析146
将航班数据加载到BigQuery中148
无服务器列式数据库的优点148
访问控制151
联合查询156
摄取CSV文件158
CloudDatalab中的探索性数据分析164
Jupyter笔记本165
CloudDatalab166
在CloudDatalab中安装软件包169
适用于Google云计算平台的Jupyter魔术命令170
质量控制176
反常的数值176
清除异常数据：大数据是不同的178
不同出发延误条件下的抵达延误182
概率决策阈值的应用184
经验概率分布函数185
答案187
评估模型188
随机乱序分组188
按日期分割189
训练和测试191
本章总结196
第6章CloudDataproc上的贝叶斯分类器197
MapReduce和Hadoop生态系统197
MapReduce的工作原理198
ApacheHadoop200
GoogleCloudDataproc200
需要更高级的工具202
关注任务，而不是集群204
初始化操作205
使用SparkSQL进行量化206
CloudDataproc上的GoogleCloudDatalab208
使用BigQuery进行独立检查209
GoogleCloudDatalab中的SparkSQL211
直方图均衡化215
动态调整群集大小219
使用Pig实现贝叶斯分类222
在CloudDataproc上运行Pig任务224
将日期在训练数据集中225
决策标准226
对贝叶斯模型进行评估229
本章总结231
第7章机器学习：Spark上的逻辑回归233
逻辑回归234
Spark机器学习库237
开始使用Spark机器学习238
Spark逻辑回归239
创建训练数据集241
处理边界情况243
创建训练示例245
训练246
使用模型进行预测249
对模型进行评估250
特征工程253
实验框架254
创建保留数据集257
特性点的选择258
特征点的缩放和剪切261
特征转换263
变量分类267
可扩展、可重复和实时性269
本章总结270
第8章时间窗化的聚合特征272
平均时间的需求272
Java中的Dataflow274
建立开发环境275
使用Beam过滤数据276
数据管道的控制选项和文本I/O280
在云端运行281
解析为对象283
计算平均时间286
分组及合并286
并行执行和侧面输入289
调试291
BigQueryIO292
对航班对象进行转换294
批处理模式下的滑动窗口计算295
在云端运行297
监控、故障排除和性能调整299
数据管道的故障排除301
侧面输入的302
重新设计数据管道305
删除重复项307
本章总结310
第9章使用TensorFlow的机器学习分类器312
使用更复杂的模型313
将数据读入TensorFlow317
建立实验322
线性分类器323
训练和评估的输入函数325
服务输入函数326
创建实验326
执行训练327
云中的分布式训练329
对ML模型进行改进331
深度神经网络模型332
嵌入335
宽深模型337
超参数调整341
部署模型349
使用模型预测350
对该模型的解释351
本章总结353
第10章实时机器学习355
调用预测服务356
用于服务请求和响应的Java类357
发送请求并解析响应359
预测服务的客户端360
将预测结果添加到航班信息361
批量输入和输出361
数据处理管道363
识别无效的服务响应364
批量处理服务请求365
流式数据管道367
扁平化PCollections368
执行流式数据管道369
延迟的和无序的数据记录371
水印和触发器376
事务，吞吐量和延迟378
几种可选的流式接收器379
CloudBigtable380
设计表382
设计行键383
流式传输至CloudBigtable384
查询CloudBigtable中的数据386
评估模型的性能387
持续训练的必要性388
评估管道389
性能评估391
边际分布391
检查模型的行为393
识别行为变化396
本章总结398
全书总结398
附录有关机器学习数据集中敏感数据的注意事项401