构建Apache Kafka流数据应用-当当网

【推荐语】

Apache Kafka是一个流行的分布式流平台，它充当消息队列或企业消息系统。它允许你发布和订阅记录流，并以容错的方式处理它们。

本书是使用Apache Kafka集成其他大数据工具设计和构建企业级流应用程序的综合指南。它包括构建此类应用程序的*实践，并解决了一些常见的挑战性问题，例如如何有效地使用Kafka来轻松处理高容量数据。本书首先介绍了消息系统类型，然后详细介绍了Apache Kafka及其内部细节。本书的第二部分介绍了如何使用各种框架和工具（如Apache Spark、Apache Storm等）设计流应用程序。一旦你掌握了基础知识，我们将带你理解Apache Kafka中更高级的概念，例如容量规划和安全性。

到本书结束时，你将掌握使用Apache Kafka时所需要的所有信息，并使用它设计高效的流数据应用。

【内容】

Apache Kafka是一个流行的分布式流平台，充当消息队列或企业消息传递系统。它用来发布和订阅数据流，并在发生错误时以容错方式处理它们。本书共13章，全面介绍使用Apache Kafka等大数据工具设计和构建企业级流应用方面的内容，包括构建流应用程序的*实践，并解决了一些常见的挑战，例如如何高效地使用Kafka轻松处理高容量数据。完成本书的学习后，读者能使用Kafka设计高效的流数据应用程序。本书既适合Kafka初学者、大数据应用开发人员、大数据应用运维人员阅读，也适合高等院校与培训学校相关专业的师生教学参考。

【目录】

其他生产者配置   40
Java编程语言：Kafka生产者示例   42
常见的消息发布模式   44
实践   46
总结   48
第4章深入研究Kafka消费者   49
Kafka消费者内部机制   50
理解Kafka消费者的职责   50
Kafka消费者API   52
消费者配置   52
订阅和轮询   54
提交和轮询   56
其他配置   59
利用Java实现Kafka消费者   60
利用Scala实现Kafka消费者   62
Rebalance listeners   64
常用的消息消费模式   64
实践   67
总结   68
第5章集成Kafka 构建Spark Streaming应用   69
Spark介绍   70
Spark架构   70
Spark的核心   72
Spark生态系统   73
Spark Streaming   75
Receiver-based集成   75
Receiver-based approach的缺点   77
Receiver-based集成的Java示例   77
Receiver-based集成的Scala示例   79
Direct approach   80
Direct approach的Java示例   82
Direct approach的Scala示例   83
日志处理用例—欺诈IP检测   84
Maven   85
生产者   89
Reader属性   89
生产者代码   90
欺诈IP查找   92
暴露Hive表   93
Streaming代码   94
总结   97
第6章集成Kafka构建Storm应用   98
Apache Storm介绍   98
Storm集群架构   99
Storm应用程序的概念   100
Apache Heron介绍   101
Heron架构   102
Heron topology架构   103
集成Apache Kafka与Apache Storm - Java   104
示例   105
集成Apache Kafka与Apache Storm - Scala   110
用例—使用Storm、Kafka和Hive处理日志   114
生产者   118
生产者代码   119
欺诈IP查找   122
Storm应用程序   123
运行项目   132
总结   133
第7章使用Kafka与 Confluent Platform   134
Confluent Platform介绍   135
深入Confluent Platform架构   136
理解Kafka Connect 和 Kafka Stream   139
Kafka Streams   139
使用Schema Registry与Avro交互   140
将Kafka数据移动到HDFS   142
Camus   142
运行Camus   143
Gobblin   144
Gobblin架构   144
Kafka Connect   146
Flume   147
总结   150
第8章使用Kafka构建ETL管道   151
在ETL管道中使用Kafka   151
介绍Kafka Connect   153
深入研究Kafka Connect   154
介绍使用Kafka Connect示例   155
Kafka Connect常见的用例   159
总结   160
第9章使用Kafka Streams 构建流应用程序   161
介绍Kafka Streams   161
在流处理中使用Kafka   162
Kafka Stream—轻量级流处理库   163
Kafka Stream架构   164
集成框架的优势   166
理解Tables和Streams   167
Maven依赖   167
Kafka Stream单词计数   168
KTable   170
Kafka Stream使用案例   171
Kafka Streams的Maven依赖   171
reader属性   172
IP记录生产者   173
IP查询服务   176
欺诈检测应用程序   177
总结   179
第10章 Kafka集群部署   180
Kafka集群的内部结构   180
Zookeeper角色   181
复制   182
元数据（Metadata）请求处理   184
生产者（Producer）请求处理   184
消费者（Consumer）请求处理   185
容量规划   186
容量规划的目标   186
复制因子   186
内存   187
硬盘驱动器   187
网络   188
CPU   188
Kafka单集群部署   189
Kafka多集群部署   190
退役brokers   192
数据迁移   192
总结   193
第11章在大数据应用中使用Kafka   194
管理Kafka的高容量   195
适当的硬件选择   195
生产者读取和消费者写入的选择   197
Kafka消息传递语义   198
至少一次传递   199
最多一次传递   202
正好一次传递   203
大数据和Kafka常见的使用模式   204
Kafka和数据治理   206
报警和监控   207
有用的Kafka指标   208
Kafka生产者指标   208
Kafka broker指标   209
Kafka消费者指标   209
总结   210

第12章 Kafka安全   211
Kafka安全的概述   211
SSL有线加密   212
Kafka启用SSL的步骤   213
为Kafka broker配置SSL   214
为Kafka客户端配置SSL   214
Kerberos SASL认证   215
在Kafka中启用SASL/GSSAPI的步骤   217
为Kafka broker配置SASL   217
为Kafka客户端配置SASL―生产者和消费者   219
理解ACL和授权   220
常见的ACL操作   221
ACLs列表   222
Zookeeper身份验证   223
Apache Ranger授权   224
为Ranger添加Kafka服务   224
添加策略（policies）   225
实践   227
总结   229
第13章流应用程序设计的考虑   230
延迟和吞吐量   231
数据和状态的持久性   232
数据源   232
外部数据查询   233
数据格式   233
数据序列化   234
并行度   234
无序的事件   235
消息处理语义   235
总结   236

显示全部信息