Storm技术内幕与大数据实践

出版日期:2015-5
ISBN:9787115388539
作者:陈敏敏,王新春,黄奉线 著
页数:192页

内容概要

陈敏敏 1号店个性精准化部门资深架构师,在此之前曾服务于微软和三星电子等公司,长期从事大数据、搜索和推荐平台相关工作。目前主要关注于NoSQL、实时计算框架、推荐、广告投放等相关技术。
王新春 大众点评网数据平台资深工程师,负责点评实时计算平台相关工作,推动流式计算和实时计算在点评的应用和推广,一直致力于大数据和分布式系统的研究和应用。目前主要从事NoSQL、实时分布式系统的研究与开发。
黄奉线 1号店基础架构部分布式存储团队负责人,推动流式计算在1号店的应用,获得CTO特别奖,长期从事基础架构相关工作。目前主要关注于NoSQL、开源、流式计算、分布式存储等相关技术。

书籍目录

第1章 绪论 1
1.1 Storm的基本组件 2
1.1.1 集群组成 2
1.1.2 核心概念 3
1.1.3 Storm的可靠性 5
1.1.4 Storm的特性 6
1.2 其他流式处理框架 6
1.2.1 Apache S4 6
1.2.2 Spark Streaming 6
1.2.3 流计算和Storm的应用 7
第2章 实时平台介绍 11
2.1 实时平台架构介绍 11
2.2 Kafka架构 13
2.2.1 Kafka的基本术语和概念 13
2.2.2 Kafka在实时平台中的应用 14
2.2.3 消息的持久化和顺序读写 15
2.2.4 sendfile系统调用和零复制 15
2.2.5 Kafka的客户端 17
2.2.6 Kafka的扩展 17
2.3 大众点评实时平台 17
2.3.1 相关数据 18
2.3.2 实时平台简介 18
2.3.3 Blackhole 19
2.4 1号店实时平台 20
第3章 Storm集群部署和配置 23
3.1 Storm的依赖组件 23
3.2 Storm的部署环境 24
3.3 部署Storm服务 24
3.3.1 部署ZooKeeper 24
3.3.2 部署Storm 25
3.3.3 配置Storm 25
3.4 启动Storm 28
3.5 Storm的守护进程 28
3.6 部署Storm的其他节点 30
3.7 提交Topology 30
第4章 Storm内部剖析 33
4.1 Storm客户端 33
4.2 Nimbus 36
4.2.1 启动Nimbus服务 36
4.2.2 Nimbus服务的执行过程 38
4.2.3 分配Executor 44
4.2.4 调度器 46
4.2.5 默认调度器DefaultScheduler 47
4.2.6 均衡调度器EvenScheduler 50
4.3 Supervisor 53
4.3.1 ISupervisor接口 54
4.3.2 Supervisor的共享数据 54
4.3.3 Supervisor的执行过程 56
4.4 Worker 61
4.4.1 Worker中的数据流 61
4.4.2 创建Worker的过程 62
4.5 Executor 65
4.5.1 Executor的创建 66
4.5.2 创建Spout的Executor 69
4.5.3 创建Bolt的Executor 74
4.6 Task 76
4.6.1 Task的上下文对象 77
4.6.2 Task的创建 82
4.7 Storm中的统计 84
4.7.1 stats框架 85
4.7.2 metric框架 90
4.8 Ack框架 91
4.8.1 Ack的原理 92
4.8.2 Acker Bolt 94
4.9 Storm总体架构 95
第5章 Storm运维和监控 97
5.1 主机信息监控 97
5.1 日志和监控 98
5.2 Storm UI和NimbusClient 99
5.3 Storm Metric的使用 100
5.4 Storm ZooKeeper的目录 102
5.5 Storm Hook的使用 104
第6章 Storm的扩展 107
6.1 Storm UI的扩展 107
6.1.1 Storm UI原生功能 108
6.1.2 Storm UI新功能需求 108
6.1.3 Storm的Thrift接口 109
6.2 资源隔离 110
6.2.1 CGroup测试 111
6.2.2 基于CGroup的资源隔离的实现 119
第7章 Storm开发 121
7.1 简单示例 121
7.2 调试和日志 122
7.3 Storm Trident 124
7.4 Strom DRPC 128
第8章 基于Storm的实时数据平台 129
8.1 Hadoop到Storm的代码迁移经验 129
8.2 实时用户画像 130
8.2.1 简单实时画像 130
8.2.2 实时画像优化 131
8.2.3 实时画像的毫秒级更新 133
8.3 其他场景画像 135
8.4 画像的兴趣度模型构建 136
8.5 外部画像融合经验分享 138
8.6 交互式查询和分析用户画像 142
8.7 实时产品和店铺信息更新 143
第9章 大数据应用案例 145
9.1 实时DAU计算 145
9.2 实时个性化推荐 150
9.2.1 推荐系统介绍 150
9.2.2 实时推荐系统的方法 153
9.2.3 基于Storm的实时推荐系统 156
9.3 广告投放的精准化 158
9.3.1 点击率预测 158
9.3.2 搜索引擎营销 161
9.3.3 精准化营销与千人千面 161
9.4 实时意图和搜索 164
9.4.1 用户意图预测 165
9.4.2 搜索比价 167
9.4.3 搜索排序 168
第10章 Storm使用经验和性能优化 171
10.1 使用经验 171
10.1.1 使用rebalance命令动态调整并发度 171
10.1.2 使用tick消息做定时器 172
10.1.3 使用组件的并行度代替线程池 174
10.1.4 不要用DRPC批量处理大数据 174
10.1.5 不要在Spout中处理耗时的操作 174
10.1.6 log4j的使用技巧 175
10.1.7 注意fieldsGrouping的数据均衡性 176
10.1.8 优先使用localOrShuffleGrouping 176
10.1.9 设置合理的MaxSpoutPending值 177
10.1.10 设置合理的Worker数 177
10.1.11 平衡吞吐量和时效性 178
10.2 性能优化 179
10.2.1 找到Topology的性能瓶颈 179
10.2.2 GC参数优化 181
10.3 性能优化原则 181
附录A Kafka原理 183
附录B 将Storm源码导入Eclipse 191

作者简介

汇集作者在大众点评和1号店实时平台的大数据实践
讲解基于Storm的流数据处理的整体解决方案
《Storm技术内幕与大数据实践》内容主要围绕实时大数据系统的各个方面展开,从实时平台总体介绍到集群源码、运维监控、实时系统扩展、以用户画像为主的数据平台,最后到推荐、广告、搜索等具体的大数据应用。书中提到的不少问题是实际生产环境中因为数据量增长而遇到的一些真实问题,对即将或正在运用实时系统处理大数据问题的团队会有所帮助。


 Storm技术内幕与大数据实践下载 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     书中3.7节,原文如下“建议将该Topology所有依赖的JAR包和业务源代码都打成一个JAR”。我打JAR包的时候没有选择所有的依赖包,只选择了在storm的lib包里面没有的包,这样好像不行,最后还是把所有依赖的包放到storm的lib中才好的。。加入我们需要依赖一个新的包,就一定要加到storm的lib中,然后重启么?

精彩短评 (总计5条)

  •     实践丰富,讲解细致,受益匪浅。
  •     没啥东西
  •     对学习storm还是很有帮助,比一些其它storm类的书讲解得更好
  •     内容少,且编排不合理
  •     这本书到底是以storm技术内幕为主还是以大数据实践为主呢?Storm讲的不怎么样,大数据也不怎么样。本来就很薄的一本书,随便翻下发现图片占了不少的内容。
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024