Hadoop技术内幕

出版社:机械工业出版社
出版日期:2013-11-30
ISBN:9787111445340
作者:董西成
页数:396页

书籍目录

前 言
第一部分 准备篇
第1章 环境准备 2
1.1 准备学习环境 2
1.1.1 基础软件下载 2
1.1.2 如何准备Linux环境 3
1.2 获取Hadoop源代码 5
1.3 搭建Hadoop源代码阅读环境 5
1.3.1 创建Hadoop工程 5
1.3.2 Hadoop源代码阅读技巧 8
1.4 Hadoop源代码组织结构 10
1.5 Hadoop初体验 12
1.5.1 搭建Hadoop环境 12
1.5.2 Hadoop Shell介绍 15
1.6 编译及调试Hadoop源代码 16
1.6.1 编译Hadoop源代码 17
1.6.2 调试Hadoop源代码 18
1.7 小结 20
第2章 YARN设计理念与基本架构 21
2.1 YARN产生背景 21
2.1.1 MRv1的局限性 21
2.1.2 轻量级弹性计算平台 22
2.2 Hadoop基础知识 23
2.2.1 术语解释 23
2.2.2 Hadoop版本变迁 25
2.3 YARN基本设计思想 29
2.3.1 基本框架对比 29
2.3.2 编程模型对比 30
2.4 YARN 基本架构 31
2.4.1 YARN基本组成结构 32
2.4.2 YARN通信协议 34
2.5 YARN工作流程 35
2.6 多角度理解YARN 36
2.6.1 并行编程 36
2.6.2 资源管理系统 36
2.6.3 云计算 37
2.7 本书涉及内容 38
2.8 小结 38
第二部分 YARN核心设计篇
第3章 YARN基础库 40
3.1 概述 40
3.2 第三方开源库 41
3.2.1 Protocol Buffers 41
3.2.2 Apache Avro 43
3.3 底层通信库 46
3.3.1 RPC通信模型 46
3.3.2 Hadoop RPC的特点概述 48
3.3.3 RPC总体架构 48
3.3.4 Hadoop RPC使用方法 49
3.3.5 Hadoop RPC类详解 51
3.3.6 Hadoop RPC参数调优 57
3.3.7 YARN RPC实现 57
3.3.8 YARN RPC应用实例 61
3.4 服务库与事件库 65
3.4.1 服务库 66
3.4.2 事件库 66
3.4.3 YARN服务库和事件库的使用方法 68
3.4.4 事件驱动带来的变化 70
3.5 状态机库 72
3.5.1 YARN状态转换方式 72
3.5.2 状态机类 73
3.5.3 状态机的使用方法 73
3.5.4 状态机可视化 76
3.6 源代码阅读引导 76
3.7 小结 77
3.8 问题讨论 77
第4章 YARN应用程序设计方法 78
4.1 概述 78
4.2 客户端设计 79
4.2.1 客户端编写流程 80
4.2.2 客户端编程库 84
4.3 ApplicationMaster设计 84
4.3.1 ApplicationMaster编写流程 84
4.3.2 ApplicationMaster编程库 92
4.4 YARN 应用程序实例 95
4.4.1 DistributedShell 95
4.4.2 Unmanaged AM 99
4.5 源代码阅读引导 100
4.6 小结 100
4.7 问题讨论 100
第5章 ResourceManager剖析 102
5.1 概述 102
5.1.1 ResourceManager基本职能 102
5.1.2 ResourceManager内部架构 103
5.1.3 ResourceManager事件与事件处理器 106
5.2 用户交互模块 108
5.2.1 ClientRMService 108
5.2.2 AdminService 109
5.3 ApplicationMaster管理 109
5.4 NodeManager管理 112
5.5 Application管理 113
5.6 状态机管理 114
5.6.1 RMApp状态机 115
5.6.2 RMAppAttempt状态机 119
5.6.3 RMContainer状态机 123
5.6.4 RMNode状态机 127
5.7 几个常见行为分析 129
5.7.1 启动ApplicationMaster 129
5.7.2 申请与分配Container 132
5.7.3 杀死Application 134
5.7.4 Container超时 135
5.7.5 ApplicationMaster超时 138
5.7.6 NodeManager超时 138
5.8 安全管理 139
5.8.1 术语介绍 139
5.8.2 Hadoop认证机制 139
5.8.3 Hadoop授权机制 142
5.9 容错机制 144
5.9.1 Hadoop HA基本框架 145
5.9.2 YARN HA实现 148
5.10 源代码阅读引导 149
5.11 小结 151
5.12 问题讨论 152
第6章 资源调度器 153
6.1 资源调度器背景 153
6.2 HOD调度器 154
6.2.1 Torque资源管理器 154
6.2.2 HOD作业调度 155
6.3 YARN资源调度器的基本架构 157
6.3.1 基本架构 157
6.3.2 资源表示模型 160
6.3.3 资源调度模型 161
6.3.4 资源抢占模型 164
6.4 YARN层级队列管理机制 169
6.4.1 层级队列管理机制 169
6.4.2 队列命名规则 171
6.5 Capacity Scheduler 172
6.5.1 Capacity Scheduler的功能 172
6.5.2 Capacity Scheduler实现 176
6.6 Fair Scheduler 179
6.6.1 Fair Scheduler功能介绍 180
6.6.2 Fair Scheduler实现 182
6.6.3 Fair Scheduler与Capacity Scheduler对比 183
6.7 其他资源调度器介绍 184
6.8 源代码阅读引导 185
6.9 小结 186
6.10 问题讨论 187
第7章 NodeManager剖析 188
7.1 概述 188
7.1.1 NodeManager基本职能 188
7.1.2 NodeManager内部架构 190
7.1.3 NodeManager事件与事件处理器 193
7.2 节点健康状况检测 194
7.2.1 自定义Shell脚本 194
7.2.2 检测磁盘损坏数目 196
7.3 分布式缓存机制 196
7.3.1 资源可见性与分类 198
7.3.2 分布式缓存实现 200
7.4 目录结构管理 203
7.4.1 数据目录管理 203
7.4.2 日志目录管理 203
7.5 状态机管理 206
7.5.1 Application状态机 207
7.5.2 Container状态机 210
7.5.3 LocalizedResource状态机 213
7.6 Container生命周期剖析 214
7.6.1 Container资源本地化 214
7.6.2 Container运行 218
7.6.3 Container资源清理 222
7.7 资源隔离 224
7.7.1 Cgroups介绍 224
7.7.2 内存资源隔离 228
7.7.3 CPU资源隔离 230
7.8 源代码阅读引导 234
7.9 小结 235
7.10 问题讨论 236
第三部分 计算框架篇
第8章 离线计算框架MapReduce 238
8.1 概述 238
8.1.1 基本构成 238
8.1.2 事件与事件处理器 240
8.2 MapReduce客户端 241
8.2.1 ApplicationClientProtocol协议 242
8.2.2 MRClientProtocol协议 243
8.3 MRAppMaster工作流程 243
8.4 MR作业生命周期及相关状态机 246
8.4.1 MR作业生命周期 246
8.4.2 Job状态机 249
8.4.3 Task状态机 253
8.4.4 TaskAttempt状态机 255
8.5 资源申请与再分配 259
8.5.1 资源申请 259
8.5.2 资源再分配 262
8.6 Container启动与释放 263
8.7 推测执行机制 264
8.7.1 算法介绍 265
8.7.2 推测执行相关类 266
8.8 作业恢复 267
8.9 数据处理引擎 269
8.10 历史作业管理器 271
8.11 MRv1与MRv2对比 273
8.11.1 MRv1 On YARN 273
8.11.2 MRv1与MRv2架构比较 274
8.11.3 MRv1与MRv2编程接口兼容性 274
8.12 源代码阅读引导 275
8.13 小结 277
8.14 问题讨论 277
第9章 DAG计算框架Tez 278
9.1 背景 278
9.2 Tez数据处理引擎 281
9.2.1 Tez编程模型 281
9.2.2 Tez数据处理引擎 282
9.3 DAG Master实现 284
9.3.1 DAG编程模型 284
9.3.2 MR到DAG转换 286
9.3.3 DAGAppMaster 288
9.4 优化机制 291
9.4.1 当前YARN框架存在的问题 291
9.4.2 Tez引入的优化技术 292
9.5 Tez应用场景 292
9.6 与其他系统比较 294
9.7 小结 295
第10章 实时/内存计算框架Storm/Spark 296
10.1 Hadoop MapReduce的短板 296
10.2 实时计算框架Storm 296
10.2.1 Storm编程模型 297
10.2.2 Storm基本架构 302
10.2.3 Storm On YARN 304
10.3 内存计算框架Spark 307
10.3.1 Spark编程模型 308
10.3.2 Spark基本架构 312
10.3.3 Spark On YARN 316
10.3.4 Spark/Storm On YARN比较 317
10.4 小结 317
第四部分 高级篇
第11章 Facebook Corona剖析 320
11.1 概述 320
11.1.1 Corona的基本架构 320
11.1.2 Corona的RPC协议与序列化框架 322
11.2 Corona设计特点 323
11.2.1 推式网络通信模型 323
11.2.2 基于Hadoop 0.20版本 324
11.2.3 使用Thrift 324
11.2.4 深度集成Fair Scheduler 324
11.3 工作流程介绍 324
11.3.1 作业提交 325
11.3.2 资源申请与任务启动 326
11.4 主要模块介绍 327
11.4.1 ClusterManager 327
11.4.2 CoronaJobTracker 330
11.4.3 CoronaTaskTracker 333
11.5 小结 335
第12章 Apache Mesos剖析 336
12.1 概述 336
12.2 底层网络通信库 337
12.2.1 libprocess基本架构 338
12.2.2 一个简单示例 338
12.3 Mesos服务 340
12.3.1 SchedulerProcess 341
12.3.2 Mesos Master 342
12.3.3 Mesos Slave 343
12.3.4 ExecutorProcess 343
12.4 Mesos工作流程 344
12.4.1 框架注册过程 344
12.4.2 Framework Executor注册过程 345
12.4.3 资源分配到任务运行过程 345
12.4.4 任务启动过程 347
12.4.5 任务状态更新过程 347
12.5 Mesos资源分配策略 348
12.5.1 Mesos资源分配框架 349
12.5.2 Mesos资源分配算法 349
12.6 Mesos容错机制 350
12.6.1 Mesos Master容错 350
12.6.2 Mesos Slave容错 351
12.7 Mesos应用实例 352
12.7.1 Hadoop On Mesos 352
12.7.2 Storm On Mesos 353
12.8 Mesos与YARN对比 354
12.9 小结 355
第13章 YARN总结与发展趋势 356
13.1 资源管理系统设计动机 356
13.2 资源管理系统架构演化 357
13.2.1 集中式架构 357
13.2.2 双层调度架构 358
13.2.3 共享状态架构 358
13.3 YARN发展趋势 359
13.3.1 YARN自身的完善 359
13.3.2 以YARN为核心的生态系统 361
13.3.3 YARN周边工具的完善 363
13.4 小结 363
附录A YARN安装指南 364
附录B YARN配置参数介绍 367
附录C Hadoop Shell命令介绍 371
附录D 参考资料 374

作者简介

本书从应用角度系统讲解了YARN的基本库和组件用法、应用程序设计方法、YARN上流行的各种计算框架(MapReduce、Tez、Storm、Spark),以及多个类YARN的开源资源管理系统(Corona和Mesos);从源代码角度深入分析YARN的设计理念与基本架构、各个组件的实现原理,以及各种计算框架的实现细节。
全书共四部分13章:第一部分(第1~2章)主要介绍了如何获取、阅读和调试Hadoop的源代码,以及YARN的设计思想、基本架构和工作流程;第二部分(第3~7章)结合源代码详细剖析和讲解了YARN的第三方开源库、底层通信库、服务库、事件库的基本使用和实现细节,详细讲解了YARN的应用程序设计方法,深入讲解和分析了ResourceManager、资源调度器、NodeManager等组件的实现细节;第三篇(第8~10章)则对离线计算框架MapReduce、DAG计算框架Tez、实时计算框架Storm和内存计算框架Spark进行了详细的讲解;第四部分(第11~13章)首先对Facebook Corona和Apache Mesos进行了深入讲解,然后对YARN的发展趋势进行了展望。附录部分收录了YARN安装指南、YARN配置参数以及Hadoop Shell命令等非常有用的资料。


 Hadoop技术内幕下载 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     现在大数据在互联网领域可谓是如日中天,本人作为一名涉足大数据领域的博士,对华章科技的赠书,表示感谢。看完本书之后,首先作者对现在的大数据领域理解非常深入,但本书不适合初学者,适合有一定基础的人观看,由于我涉及的领域需要对Hadoop 的底层代码进行分析和改造,本书在这一方面做得工作很多,如果单学学如何编写MapReduce的程序,不建议看本书,毕竟本书分析的是机制而不是代码。虽然技术过硬,但写作方式上,难免有些是工科男的惯性,看起这本书难免在很难理解的地方,让人有种昏昏欲睡的感觉。不过总体来说很好,对于YARN的分析真得很深入。我总结下,对看完本书的整体印象,由于大数据的快速发展,使得Hadoop也快速的更新,对于程序员来说,接触到新的事物,也无疑是一种挑战。本书的Hadoop版本是2.2.0版本,而当我写这篇读后感的时候,Hadoop已经更新到2.7.0,而且新版本不仅在对java的支持上改变和MapReduce的优化都有了些许的改进,不过我根据书中描述,查看了作者的博客,发现其相应的对新的技术进行了更新,这样做可以让广大读者对新版本有个更新的认识,逐步去适应。本书对Yarn的运行机制进行了详细的分析,同时也对MR1和MR2进行了详细的对比。同时也对MR的不足进行了总结,并引入了现在的几个非常流行的框架Storm和Spark。但没有对其进行深入的探讨,可能是因为写书时候,这两个框架还不是很流行,现在Flink也算是顶级的项目,或许当作者再次写一本关于大数据的书时,就会将重心偏移了。毕竟流的实时分析才是大数据的未来发展趋势。下面谈下我接触YARN,对它的认识。书中有很少的代码,大篇幅的展示了整个2.0版本的Hadoop的优势和底层的运行机制,以及由于Yarn的到来,给Hadoop上的各种类型的框架带来了飞速的发展,这是Yarn得以有强大生命力的必要因素。把Job Tracker的两个主要功能(资源管理和作业调度/监控)分成了两个独立的服务程序——全局的资源管理(RM)和针对每个应用的应用 Master(AM),实现了框架的集中管理。其思想:将JobTracker和TaskTacker进行分离,它由下面几大构成组件:a. 一个全局的资源管理器 ResourceManagerb.ResourceManager的每个节点代理 NodeManagerc. 表示每个应用的 ApplicationMasterd. 每一个ApplicationMaster拥有多个Container在NodeManager上运行。而新版本的2.7版本对Yarn上也有比较大的改动。首先是,YARN的授权模块变成插拔式的,用户可根据需要编写授权模块。其次是,对DistributedCache功能增强,DistributedCache模块拥有独立的服务,可以独立升级,也可以通过命令显式地预先cache文件。不过本书就内容和深度而言,无疑是上乘之作。本书个人认为的不足之处,对于每一个初学者来说,几乎不会得到真实的集群环境,所以需要搭建hadoop的集群环境,虽说本书用一章的篇幅来诉说hadoop的环境搭建,但仍有些很关键的地方没有注明为何这么做,这让初学者很难找到门路,如果搭建不成功环境,对后来的学习会有一个很消极的态度。虽说本书的环境搭建已经很简洁,但毕竟每个人使用的Linux和hadoop版本不同,因此有些地方真的需要注明。另外即使按照本书所说的环境搭建过程中,仍会遇到很多关于环境变量的配置,远比书中所提到的必要的java的环境变量和Hadoop的环境变量要多得多,甚至要修改配置文件,这对本身就有可能不熟悉linux的学习者来说,有点过于困难。其实可以附录一些Linux的必要命令,比如在安装linux系统时,安装vim编辑器也是很重要的,虽说这些关于集群环境的事,不是本书的重点,但初学者,看完第一章之后,配了很久环境,同时对于初学不太会看日志的人来说,根本不知道问题出在哪里,会打退堂鼓的。因此觉得,在此,本书就对阅读者的水平有了一定的限制,至少是熟悉linux的命令和能够读懂hadoop的日志,才能在此基础上,实现本书的阅读工作。写作模式上,既然作者是很用心在写一本机制和原理的书,我觉得有些细节可以忽略,比如作者对ApplicationMaster等管理介绍的很形象,但有些地方给出了大量的服务配置参数,我认为,既然是高谈底层和机制的书籍,不需要太接地气,毕竟能够读懂的人都是专业人士,列出参考文献和出处,将大量篇幅都放在形象描述机制和对框架的个人看法更好。以上是本人的拙见,忘有兴趣的网友相互探讨。

精彩短评 (总计12条)

  •     看完书再去研究一下代码会比较好,特别是一堆状态机
  •     讲的比较详细
  •     这是国内第一本介绍Hadoop 2.0的书,值得一读。
  •     最早的入门图书了,思路很清晰,但是代码太少,感觉不够深入,点到为止了
  •     重复内容很多。。。
  •     解答了我的很多疑问。但我不是很喜欢在书里大段贴代码的做法,好在本身组织的还不错
  •     hadoop入门书籍,精彩
  •      前面看着还可以,后面重复比较多,特别是一堆状态机,干货就比较少了。
  •     直接是在前一本上面扩写 而且写的非常混乱 可见作者只是在混
  •     对的时候是想了解yarn是怎样一个过程。可以一本参考书。
  •     还行吧,感觉董西城的书很多是抄的别人的。
  •     状态机一块的内容解析很好
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024