Spark大数据处理技术

出版日期:2014-1-15
ISBN:9787121250810
作者:夏俊鸾,刘旭晖,邵赛赛,程浩,史鸣飞,黄洁
页数:365页

内容概要

夏俊鸾 现任阿里巴巴数据平台部高级技术专家,Apache Spark项目Committer,曾就职于英特尔亚太研发中心,微博账号@Andrew-Xia。
刘旭晖 现任蘑菇街数据平台资深架构师(花名天火),曾就职于英特尔亚太研发中心大数据软件部,Spark/Hadoop/Hbase/Phoenix等众多大数据相关开源项目的积极贡献者。乐于分享,著有CSDN博客blog.csdn.net/colorant。
邵赛赛 英特尔亚太研发有限公司开发工程师,专注于大数据领域,开源爱好者,现从事Spark相关工作,Spark代码贡献者。
程浩 英特尔大数据技术团队软件工程师,Shark和Spark SQL活跃开发者,致力于SQL on Big Data的性能调优与优化。
史鸣飞 英特尔亚太研发有限公司大数据软件部工程师,专注于大数据领域,主要从事Spark及相关项目的开发及应用,Spark及Shark代码贡献者,现在主要投身于Tachyon项目的开发。
黄洁 目前就职于英特尔亚太研发中心大数据技术中心,担任高级软件工程师,致力于大数据技术的性能优化及开发工作,涉及 Hadoop 、 Spark 、 HBase 等开源项目。在多年的工作过程中,积累了一定的分布式大数据框架性能调优经验,并且是 Apache Chukwa 项目的 PMC 成员和 Committer 。在此之前,毕业于上海交通大学并获硕士及学士学位。

书籍目录

第1章 Spark系统概述 1
1.1 大数据处理框架 1
1.2 Spark大数据处理框架 3
1.2.1 RDD表达能力 3
1.2.2 Spark子系统 4
1.3 小结 7
第2章 Spark RDD及编程接口 9
2.1 Spark程序“Hello World” 9
2.2 Spark RDD 12
2.2.1 RDD分区(partitions) 13
2.2.2 RDD优先位置(preferredLocations) 13
2.2.3 RDD依赖关系(dependencies) 15
2.2.4 RDD分区计算(compute) 19
2.2.5 RDD分区函数(partitioner) 20
2.3 创建操作 23
2.3.1 集合创建操作 23
2.3.2 存储创建操作 23
2.4 转换操作 26
2.4.1 RDD基本转换操作 26
2.4.2 键值RDD转换操作 35
2.4.3 再论RDD依赖关系 43
2.5 控制操作(control operation) 46
2.6 行动操作(action operation) 47
2.6.1 集合标量行动操作 47
2.6.2 存储行动操作 52
2.7 小结 56
第3章 Spark运行模式及原理 57
3.1 Spark运行模式概述 57
3.1.1 Spark运行模式列表 57
3.1.2 Spark基本工作流程 58
3.1.3 相关基本类 59
3.2 Local模式 62
3.2.1 部署及程序运行 62
3.2.2 内部实现原理 63
3.3 Standalone模式 64
3.3.1 部署及程序运行 64
3.3.2 内部实现原理 67
3.4 Local cluster模式 68
3.4.1 部署及程序运行 68
3.4.2 内部实现原理 69
3.5 Mesos模式 69
3.5.1 部署及程序运行 69
3.5.2 内部实现原理 70
3.6 YARN standalone / YARN cluster模式 72
3.6.1 部署及程序运行 72
3.6.2 内部实现原理 75
3.7 YARN client模式 76
3.7.1 部署及程序运行 76
3.7.2 内部实现原理 77
3.8 各种模式的实现细节比较 78
3.8.1 环境变量的传递 78
3.8.2 JAR包和各种依赖文件的分发 80
3.8.3 任务管理和序列化 82
3.8.4 用户参数配置 83
3.8.5 用户及权限控制 84
3.9 Spark 1.0版本之后的变化 85
3.10 小结 86
第4章 Spark调度管理原理 87
4.1 Spark作业调度管理概述 87
4.2 Spark调度相关基本概念 88
4.3 作业调度模块顶层逻辑概述 89
4.4 作业调度具体工作流程 92
4.4.1 调度阶段的拆分 94
4.4.2 调度阶段的提交 97
4.4.3 任务集的提交 99
4.4.4 完成状态的监控 99
4.4.5 任务结果的获取 101
4.5 任务集管理模块详解 102
4.6 调度池和调度模式分析 104
4.7 其他调度相关内容 106
4.7.1 Spark应用之间的调度关系 106
4.7.2 调度过程中的数据本地性问题 106
4.8 小结 107
第5章 Spark的存储管理 109
5.1 存储管理模块整体架构 109
5.1.1 通信层架构 110
5.1.2 通信层消息传递 112
5.1.3 注册存储管理模块 113
5.1.4 存储层架构 114
5.1.5 数据块 (Block) 116
5.2 RDD 持久化 116
5.2.1 RDD分区和数据块的关系 117
5.2.2 内存缓存 118
5.2.3 磁盘缓存 119
5.2.4 持久化选项 120
5.2.5 如何选择不同的持久化选项 122
5.3 Shuffle数据持久化 122
5.4 广播(Broadcast)变量持久化 125
5.5 小结 126
第6章 Spark监控管理 127
6.1 UI管理 127
6.1.1 实时UI管理 128
6.1.2 历史UI管理 132
6.2 Metrics管理 133
6.2.1 Metrics系统架构 133
6.2.2 Metrics系统配置 135
6.2.3 输入源(Metrics Source)介绍 136
6.2.4 输出方式(Metrics Sink)介绍 138
6.3 小结 139
第7章 Shark架构与安装配置 141
7.1 Shark架构浅析 142
7.2 Hive/Shark各功能组件对比 143
7.2.1 MetaStore 143
7.2.2 CLI/ Beeline 143
7.2.3 JDBC/ODBC 144
7.2.4 Hive Server/2 与 Shark Server/2 144
7.2.5 Driver 145
7.2.6 SQL Parser 146
7.2.7 查询优化器(Query Optimizer) 147
7.2.8 物理计划与执行 147
7.3 Shark安装配置与使用 148
7.3.1 安装前准备工作 149
7.3.2 在不同运行模式下安装Shark 149
7.4 Shark SQL命令行工具(CLI) 152
7.5 使用Shark Shell命令 155
7.6 启动Shark Server 155
7.7 Shark Server2配置与启动 156
7.8 缓存数据表 157
7.8.1 数据缓存级别 158
7.8.2 创建不同缓存级别的Shark数据表 158
7.8.3 指定数据表缓存策略 159
7.8.4 使用Tachyon 160
7.9 常见问题分析 160
7.9.1 OutOfMemory异常 160
7.9.2 数据处理吞吐量低 161
7.9.3 Shark查询比Hive慢 161
7.10 小结 162
第8章 SQL程序扩展 163
8.1 程序扩展并行运行模式 164
8.2 Evaluator和ObjectInspector 164
8.3 自定义函数扩展 168
8.3.1 自定义函数扩展分类 168
8.3.2 CLI中的用户自定义函数扩展相关命令 170
8.3.3 用户自定义函数(UDF) 171
8.3.4 通用用户自定义函数(Generic UDF) 175
8.3.5 用户自定义聚合函数(UDAF) 178
8.3.6 通用用户自定义聚合函数(Generic UDAF) 182
8.3.7 通用用户自定义表函数(Generic UDTF) 186
8.4 自定义数据存取格式 190
8.4.1 SerDe 190
8.4.2 StorageHandler 197
8.5 小结 198
第9章 Spark SQL 199
9.1 Spark SQL逻辑架构 199
9.1.1 Catalyst功能边界 200
9.1.2 SQL解析阶段 201
9.1.3 逻辑计划元数据绑定和语义分析阶段 202
9.1.4 逻辑计划优化阶段 202
9.1.5 物理计划生成阶段 202
9.1.6 Shark和Spark SQL对比 203
9.2 Catalyst上下文(Context) 204
9.2.1 SQLContext 204
9.2.2 HiveContext 205
9.3 SQL DSL API 206
9.3.1 数据源管理 206
9.3.2 SchemaRDD 208
9.3.3 Row API 210
9.3.4 数据类型 211
9.3.5 DSL API举例 213
9.3.6 表达式计算 214
9.3.7 Parquet列式存储文件 218
9.3.8 代码演示 218
9.4 Java API 221
9.5 Python API 224
9.6 Spark SQL CLI 225
9.7 Thrift服务 225
9.8 小结 225
第10章 Spark Streaming流数据处理框架 227
10.1 快速入门 227
10.2 Spark Streaming基本概念 229
10.2.1 链接和初始化 229
10.2.2 时间和窗口概念 231
10.2.3 DStream原理 232
10.2.4 DStream输入源 234
10.2.5 DStream 操作 235
10.2.6 DStream持久化 237
10.3 性能调优 238
10.3.1 运行时间优化 238
10.3.2 内存使用优化 238
10.4 容错处理 239
10.4.1 工作节点失效 239
10.4.2 驱动节点失效 240
10.5 DStream作业的产生和调度 242
10.5.1 作业产生 242
10.5.2 作业调度 243
10.5.3 Streaming作业与Spark作业之间的关系 244
10.6 DStream与RDD关系 246
10.7 数据接收原理 248
10.8 自定义数据输入源 251
10.9 自定义监控接口(StreamingListener) 253
10.10 Spark Streaming案例分析 254
10.11 小结 256
第11章 GraphX计算框架 259
11.1 图并行计算 259
11.1.1 数据并行与图并行计算 259
11.1.2 图并行计算框架简介 260
11.1.3 GraphX简介 264
11.2 GraphX模型设计 264
11.2.1 数据模型 264
11.2.2 图计算接口 265
11.3 GraphX模型实现 269
11.3.1 图的分布式存储 269
11.3.2 图操作执行策略 278
11.3.3 图操作执行优化 280
11.3.4 序列化和反序列化 283
11.3.5 GraphX内置算法库 284
11.4 GraphX应用 285
11.4.1 Pregel模型 285
11.4.2 N维邻接关系计算 288
11.5 小结 291
第12章 Tachyon存储系统 293
12.1 设计原理 294
12.1.1 高效的内存读写 294
12.1.2 无副本的可靠性实现——Lineage 297
12.2 框架设计 299
12.2.1 主节点 300
12.2.2 工作节点 304
12.2.3 客户端 306
12.2.4 读写工作流程 307
12.3 Tachyon的部署 313
12.3.1 单机部署 313
12.3.2 分布式部署 316
12.3.3 Tachyon的配置 317
12.4 Tachyon应用 321
12.4.1 Shark原始表(RawTable) 321
12.4.2 Spark的堆外RDD 325
12.4.3 Tachyon用户接口(API) 327
12.5 相关项目讨论 335
12.6 小结 336

作者简介

《Spark大数据处理技术》以Spark 0.9版本为基础进行编写,是一本全面介绍Spark及Spark生态圈相关技术的书籍,是国内首本深入介绍Spark原理和架构的技术书籍。主要内容有Spark基础功能介绍及内部重要模块分析,包括部署模式、调度框架、存储管理以及应用监控;同时也详细介绍了Spark生态圈中其他的软件和模块,包括SQL处理引擎Shark和Spark SQL、流式处理引擎Spark Streaming、图计算框架Graphx以及分布式内存文件系统Tachyon。《Spark大数据处理技术》从概念和原理上对Spark核心框架和生态圈做了详细的解读,并对Spark的应用现状和未来发展做了一定的介绍,旨在为大数据从业人员和Spark爱好者提供一个更深入学习的平台。
《Spark大数据处理技术》适合任何大数据、Spark领域的从业人员阅读,同时也为架构师、软件开发工程师和大数据爱好者展现了一个现代大数据框架的架构原理和实现细节。相信通过学习《Spark大数据处理技术》,读者能够熟悉和掌握Spark这一当前流行的大数据框架,并将其投入到生产实践中去。


 Spark大数据处理技术下载 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     总体来说,内容很粗糙,基本没法看,觉得作者没有用心。还是spark亚太研究院王家林的《大数据spark企业级实战》内容更详实(虽然印刷质量不太好),推荐有兴趣的同学可以买那本,或者直接看官方文档。

精彩短评 (总计19条)

  •     只能算一本手册,堆砌了一堆代码(连格式还都不一样)作为书实在没有可读性,多人编著是雷区
  •     没有实用价值
  •     入个门,缺少一个总体的介绍,缺乏条理。
  •     这是我看过所有Spark的书里面写的最好,对Spark各个模块的理解相当深入,但是这本书不适合入门.比较适合想要深入,用来参考的读物,如果结合这本书和源码一起阅读是就会感觉相当不错.强烈建议想要进阶的买一本.
  •     我觉得挺适合入门学习的,读了几章还不错(2015-08-29)。基本看完了,由于我是买了三本 Spark的书(另外:Spark 快速大数据分析,Spark技术内幕),而这本是第一本,作为入门书还是很适合的。我在没有大数据基础上看的时候很轻松,累计 18 个小时左右的阅读时间。看 Hadoop 相关的技术书,一定要结合着官方文档看(英文没那么复杂),某个特性、方法的实现,官网说的很清楚。但本书的缺点是内容略老(hadoop 下的技术迭代都非常快,不怪作者),书里面是 0.9 版本前后的,现在是 1.5.2 了,像里面的 Shark SQL 现在都不用了。但大部分内容都是新版本也适用的。不明白评分为啥这么低。。。(2015-12-21)
  •     试图用300多页的书罗列Spark的生态圈,不适合用来学习.
  •     不适合初学者,感觉只是讲了个皮毛。我只给两颗
  •     spark现在市面上实在是没什么好书,求推荐。
  •     今天拿到书,准备读起来
  •     确实比较粗糙,入门看不适合,进阶看又太粗。有些地方表达不清楚,不知所云,看着费脑筋。
  •     对于入门来说太厚, 要从一堆层次不清的信息中找到对初学者来说关键的知识点; 对于进阶来说太粗, 应用场景讲的少, 而内部实现随着版本的推进很容易过时.
  •     我当时怎么就买的这本,写的这是个什么几把玩意儿,堆代码,内容混乱,国人写书就这逼德行,负无穷滚粗!!!
  •     比网上的文章好。但讲原理不如论文和源码,讲用法不如文档。
  •     内容碎片化,缺少系统性
  •     入门spark 的话,用这本书,真的是不合适
  •     感觉上入门的时候看一下还行,基本上就是源码分析和概念介绍了。讲scheduler一章,竟然把 local, yarn, mesos都讲了一遍,有点凑字数的感觉。shark sql已经过时了,没有介绍ml。在国内还没有比较好的spark相关的书的情况,还是可以作为入门书看一下。不
  •     读完之后, 感觉内容比较水, 没什么所得. 认真读几遍 spark 最新的 doc, 看几篇写的比较好的 blog, 帮助还要大一些.
  •     糟糕
  •     讲的很全,能对spark有个整体的了解。
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024