Spark机器学习

出版日期:2015-9-1
ISBN:9787115399832
作者:彭特里思 (Nick Pentreath)
页数:224页

内容概要

Nick Pentreath
是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲最大的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。

书籍目录

第1章 Spark的环境搭建与运行  1
1.1 Spark的本地安装与配置  2
1.2 Spark集群  3
1.3 Spark编程模型  4
1.3.1 SparkContext类与SparkConf 类  4
1.3.2 Spark shell  5
1.3.3 弹性分布式数据集  6
1.3.4 广播变量和累加器  10
1.4 Spark Scala编程入门  11
1.5 Spark Java编程入门  14
1.6 Spark Python编程入门  17
1.7 在Amazon EC2上运行Spark  18
1.8 小结  23
第2章 设计机器学习系统  24
2.1 MovieStream介绍  24
2.2 机器学习系统商业用例  25
2.2.1 个性化  26
2.2.2 目标营销和客户细分  26
2.2.3 预测建模与分析  26
2.3 机器学习模型的种类  27
2.4 数据驱动的机器学习系统的组成  27
2.4.1 数据获取与存储  28
2.4.2 数据清理与转换  28
2.4.3 模型训练与测试回路  29
2.4.4 模型部署与整合  30
2.4.5 模型监控与反馈  30
2.4.6 批处理或实时方案的选择  31
2.5 机器学习系统架构  31
2.6 小结  33
第3章 Spark上数据的获取、处理与准备  34
3.1 获取公开数据集  35
3.2 探索与可视化数据  37
3.2.1 探索用户数据  38
3.2.2 探索电影数据  41
3.2.3 探索评级数据  43
3.3 处理与转换数据  46
3.4 从数据中提取有用特征  48
3.4.1 数值特征  48
3.4.2 类别特征  49
3.4.3 派生特征  50
3.4.4 文本特征  51
3.4.5 正则化特征  55
3.4.6 用软件包提取特征  56
3.5 小结  57
第4章 构建基于Spark的推荐引擎  58
4.1 推荐模型的分类  59
4.1.1 基于内容的过滤  59
4.1.2 协同过滤  59
4.1.3 矩阵分解  60
4.2 提取有效特征  64
4.3 训练推荐模型  67
4.3.1 使用MovieLens 100k数据集训练模型  67
4.3.2 使用隐式反馈数据训练模型  68
4.4 使用推荐模型  69
4.4.1 用户推荐  69
4.4.2 物品推荐  72
4.5 推荐模型效果的评估  75
4.5.1 均方差  75
4.5.2 K值平均准确率  77
4.5.3 使用MLlib内置的评估函数  81
4.6 小结  82
第5章 Spark构建分类模型  83
5.1 分类模型的种类  85
5.1.1 线性模型  85
5.1.2 朴素贝叶斯模型  89
5.1.3 决策树  90
5.2 从数据中抽取合适的特征  91
5.3 训练分类模型  93
5.4 使用分类模型  95
5.5 评估分类模型的性能  96
5.5.1 预测的正确率和错误率  96
5.5.2 准确率和召回率  97
5.5.3 ROC曲线和AUC  99
5.6 改进模型性能以及参数调优  101
5.6.1 特征标准化  101
5.6.2 其他特征  104
5.6.3 使用正确的数据格式  106
5.6.4 模型参数调优  107
5.7 小结  115
第6章 Spark构建回归模型  116
6.1 回归模型的种类  116
6.1.1 最小二乘回归  117
6.1.2 决策树回归  117
6.2 从数据中抽取合适的特征  118
6.3 回归模型的训练和应用  123
6.4 评估回归模型的性能  125
6.4.1 均方误差和均方根误差  125
6.4.2 平均绝对误差  126
6.4.3 均方根对数误差  126
6.4.4 R-平方系数  126
6.4.5 计算不同度量下的性能  126
6.5 改进模型性能和参数调优  127
6.5.1 变换目标变量  128
6.5.2 模型参数调优  132
6.6 小结  140
第7章 Spark构建聚类模型  141
7.1 聚类模型的类型  142
7.1.1 K-均值聚类  142
7.1.2 混合模型  146
7.1.3 层次聚类  146
7.2 从数据中提取正确的特征  146
7.3 训练聚类模型  150
7.4 使用聚类模型进行预测  151
7.5 评估聚类模型的性能  155
7.5.1 内部评价指标  155
7.5.2 外部评价指标  156
7.5.3 在MovieLens数据集计算性能  156
7.6 聚类模型参数调优  156
7.7 小结  158
第8章 Spark应用于数据降维  159
8.1 降维方法的种类  160
8.1.1 主成分分析  160
8.1.2 奇异值分解  160
8.1.3 和矩阵分解的关系  161
8.1.4 聚类作为降维的方法  161
8.2 从数据中抽取合适的特征  162
8.3 训练降维模型  169
8.4 使用降维模型  172
8.4.1 在LFW数据集上使用PCA投影数据  172
8.4.2 PCA和SVD模型的关系  173
8.5 评价降维模型  174
8.6 小结  176
第9章 Spark高级文本处理技术  177
9.1 处理文本数据有什么特别之处  177
9.2 从数据中抽取合适的特征  177
9.2.1 短语加权表示  178
9.2.2 特征哈希  179
9.2.3 从20新闻组数据集中提取TF-IDF特征  180
9.3 使用TF-IDF模型  192
9.3.1 20 Newsgroups数据集的文本相似度和TF-IDF特征  192
9.3.2 基于20 Newsgroups数据集使用TF-IDF训练文本分类器  194
9.4 评估文本处理技术的作用  196
9.5 Word2Vec 模型  197
9.6 小结  200
第10章 Spark Streaming在实时机器学习上的应用  201
10.1 在线学习  201
10.2 流处理  202
10.2.1 Spark Streaming介绍  202
10.2.2 使用Spark Streaming缓存和容错  205
10.3 创建Spark Streaming应用  206
10.3.1 消息生成端  207
10.3.2 创建简单的流处理程序  209
10.3.3 流式分析  211
10.3.4 有状态的流计算  213
10.4 使用Spark Streaming进行在线学习  215
10.4.1 流回归  215
10.4.2 一个简单的流回归程序  216
10.4.3 流K-均值  220
10.5 在线模型评估  221
10.6 小结  224

作者简介

本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。


 Spark机器学习下载 精选章节试读 更多精彩书评



发布书评

 
 


精彩书评 (总计2条)

  •     深入浅出Spark机器学习实战(用户行为分析)课程观看地址:http://www.xuetuwuyou.com/course/144课程出自学途无忧网:http://www.xuetuwuyou.com一、课程目标熟练掌握SparkSQL的各种操作,深入了解Spark内部实现原理深入了解SparkML机器学习各种算法模型的构建和运行熟练Spark的API并能灵活运用能掌握Spark在工作当中的运用二、适合人群适合给,有java,scala基础,想往大数据spark机器学习这块发展适合给想学习spark,往数据仓库,大数据挖掘机器学习,方向发展的学员三、课程用到的软件及版本:Spark2.0,Spark1.6.2,STS,maven,Linux Centos6.5,mysql,mongodb3.2四、课程目录:课时1:Spark介绍 课时2:Spark2集群安装 课时3:Spark RDD操作 课时4:SparkRDD原理剖析 课时5:Spark2sql从mysql中导入 课时6:Spark1.6.2sql与mysql数据交互 课时7:SparkSQL java操作mysql数据 课时8:Spark统计用户的收藏转换率 课时9:Spark梳理用户的收藏以及订单转换率 课时10:最终获取用户的收藏以及订单转换率 课时11:Spark Pipeline构建随机森林回归预测模型 课时12:Spark 随机森林回归预测结果并存储进mysql课时13:Spark的决策树算法实现收藏转换率预测课时14:Spark机器学习各种分类算法介绍课时15:Spark机器学习协同过滤算法,构建用户与产品模型课时16:Spark协同算法完成给用户推荐产品。课时17:Spark与mongodb整合课时18:Spark的随机森林算法预测产品收藏购买结果存储进mongodb课时19:Spark操作RDD需要注意点,以及Spark资源参数调优课时20:Spark整个学习过程及其总结
  •     正如这本书的前言所说,这本书“注重技术实际”,预备知识是“已有基本的scala、java或python编程基础以及机器学习、统计学和数据分析方面的基础知识”。所以书里面对语言的学习和机器学习的理论介绍很少,也很简洁。要是细节太多,作者直接简单粗暴地让你参考《spark编程指南》,也就是官方文档。后面全是实例,挺不错。代码解释的很清楚,而且对整个工业界机器学习的应用有系统的说明。这本书给我最大的惊喜就是,书里面很多python代码,而不是通篇的scala代码。作为一个scala小白,看到很多地方把python和scala代码写在一起,对后面理解scala也大有裨益。综上所述,这本书最大的特点就是简单粗暴,干货多。看完即用,用完即扔。

精彩短评 (总计20条)

  •     然并卵
  •     花了两星期读完 觉得本书适合python熟练而又对机器学习不太入门的人 书中很没有节操的花了一半的篇幅介绍了什么是机器学习 还用一部分python数据分析库的内容做了一章demo 真正对spark的剖析却太少了 读此书只收获了一些scala的语法 不够痛快
  •     简平快
  •     对不知道怎么进行数据挖掘的同学来说,还是有用的,至少例子代码都能跑通,用的数据集都能够下载,作为入门书可以了
  •     覆盖了大部分机器学习的内容,也能给予很多启发,对于入门来说足够了
  •     作为scala 和spark的入门书籍来用的。
  •     简单翻了一遍,应到的时候在仔细看吧。
  •     #机器学习#
  •     可操性不错
  •     译的不错.Mlib里常用的都讲了. 虽然不会scala但是看得出比python优雅的多.
  •     结构太乱,代码和算法逻辑讲解也不是很清楚
  •     这本书给我最大的惊喜是有例子python代码,而不是像其他书,通篇都是的scala。
  •     涉及的东西很多,比较全面,推荐,但仅限于入门,可以按照这本书的提示找资料深入学习
  •     如果想要scala和python例子代码的可以买,可以跑通.
  •     确实没什么卵用
  •     草草的过了一遍,对于用Spark进行机器学习,帮助不大。
  •     毕业设计靠它了。。
  •     就是一份简单粗暴的tutorial
  •     必须给五星,正适合我这种刚对机器学习了解一点理论却不知道如何下手实践的人,讲了特征抽取,推荐系统,分类聚类回归,文本处理等很多实践技巧。。。
  •     理论方面(不管是机器学习原理还是较深入的Spark架构)几乎没有讲解,因此应该不会成为一本五年后还有很大价值的书。好处在于里面Spark、Pyspark的代码可以拿来熟一边手。同时也可以顺藤摸瓜去了解一下kaggle比赛等等行业背景知识。 另外中文翻译难得靠谱一回,加一星。
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024