机器学习系统设计

出版日期:2014-7-1
ISBN:9787115356823
作者:[德] Willi Richert,Luis Pedro Coelho
页数:210页

内容概要

作者简介：

Willi Richert

机器学习和机器人学博士，目前任职于微软Bing搜索核心研发团队。他从事多种机器学习领域的研究，包括主动学习和统计机器翻译。

Luis Pedro Coelho

计算生物学家，主要关注生物图像信息学和大规模图像数据的处理，致力于生物标本图像分析中机器学习技术的应用，他还是Python计算机视觉库mahotas的主要开发人员。他于1998年开始开发开源软件，2004年起从事Python开发，并为多个Python开源库贡献了代码。另外，Luis拥有机器学习领域世界领先的卡内基-梅隆大学的博士学位，并发表过多篇科学论文。

译者简介：

刘峰

百度LBS地图基础业务部资深研发工程师，新加坡南洋理工大学计算机工程系博士，研究领域包括机器学习、模糊神经网络等。2010年加入百度，主要从事大数据分析和挖掘方面的工作，近年来专注于无线定位、用户轨迹等LBS大数据的挖掘及机器学习应用。

书籍目录

第1章　Python机器学习入门　　1

1.1 　梦之队：机器学习与Python　　1

1.2 　这本书将教给你什么（以及不会教什么）　　2

1.3 　遇到困难的时候怎么办　　3

1.4 　开始　　4

1.4.1 　NumPy、SciPy和Matplotlib简介　　4

1.4.2 　安装Python　　5

1.4.3 　使用NumPy和SciPy智能高效地处理数据　　5

1.4.4 　学习NumPy　　5

1.4.5 　学习SciPy　　9

1.5 　我们第一个（极小的）机器学习应用　　10

1.5.1 　读取数据　　10

1.5.2 　预处理和清洗数据　　11

1.5.3 　选择正确的模型和学习算法　　12

1.6 　小结　　20

第2章　如何对真实样本分类　　22

2.1 　Iris数据集　　22

2.1.1 　第一步是可视化　　23

2.1.2 　构建第一个分类模型　　24

2.2 　构建更复杂的分类器　　28

2.3 　更复杂的数据集和更复杂的分类器　　29

2.3.1 　从Seeds数据集中学习　　29

2.3.2 　特征和特征工程　　30

2.3.3 　最邻近分类　　30

2.4 　二分类和多分类　　33

2.5 　小结　　34

第3章　聚类：寻找相关的帖子　　35

3.1 　评估帖子的关联性　　35

3.1.1 　不应该怎样　　36

3.1.2 　应该怎样　　36

3.2 　预处理：用相近的公共词语个数来衡量相似性　　37

3.2.1 　将原始文本转化为词袋　　37

3.2.2 　统计词语　　38

3.2.3 　词语频次向量的归一化　　40

3.2.4 　删除不重要的词语　　41

3.2.5 　词干处理　　42

3.2.6 　停用词兴奋剂　　44

3.2.7 　我们的成果和目标　　45

3.3 　聚类　　46

3.3.1 　K均值　　46

3.3.2 　让测试数据评估我们的想法　　49

3.3.3 　对帖子聚类　　50

3.4 　解决我们最初的难题　　51

3.5 　调整参数　　54

3.6 　小结　　54

第4章　主题模型　　55

4.1 　潜在狄利克雷分配（LDA）　　55

4.2 　在主题空间比较相似度　　59

4.3 　选择主题个数　　64

4.4 　小结　　65

第5章　分类：检测劣质答案　　67

5.1 　路线图概述　　67

5.2 　学习如何区分出优秀的答案　　68

5.2.1 　调整样本　　68

5.2.2 　调整分类器　　68

5.3 　获取数据　　68

5.3.1 　将数据消减到可处理的程度　　69

5.3.2 　对属性进行预选择和处理　　70

5.3.3 　定义什么是优质答案　　71

5.4 　创建第一个分类器　　71

5.4.1 　从k邻近（kNN）算法开始　　71

5.4.2 　特征工程　　72

5.4.3 　训练分类器　　73

5.4.4 　评估分类器的性能　　74

5.4.5 　设计更多的特征　　74

5.5 　决定怎样提升效果　　77

5.5.1 　偏差?方差及其折中　　77

5.5.2 　解决高偏差　　78

5.5.3 　解决高方差　　78

5.5.4 　高偏差或低偏差　　78

5.6 　采用逻辑回归　　81

5.6.1 　一点数学和一个小例子　　81

5.6.2 　在帖子分类问题上应用逻辑回归　　83

5.7 　观察正确率的背后：准确率和召回率　　84

5.8 　为分类器瘦身　　87

5.9 　出货　　88

5.10 　小结　　88

第6章　分类II：情感分析　　89

6.1 　路线图概述　　89

6.2 　获取推特（Twitter）数据　　89

6.3 　朴素贝叶斯分类器介绍　　90

6.3.1 　了解贝叶斯定理　　90

6.3.2 　朴素　　91

6.3.3 　使用朴素贝叶斯进行分类　　92

6.3.4 　考虑未出现的词语和其他古怪情况　　94

6.3.5 　考虑算术下溢　　95

6.4 　创建第一个分类器并调优　　97

6.4.1 　先解决一个简单问题　　97

6.4.2 　使用所有的类　　99

6.4.3 　对分类器的参数进行调优　　101

6.5 　清洗推文　　104

6.6 　将词语类型考虑进去　　106

6.6.1 　确定词语的类型　　106

6.6.2 　用SentiWordNet成功地作弊　　108

6.6.3 　我们第一个估算器　　110

6.6.4 　把所有东西融合在一起　　111

6.7 　小结　　112

第7章　回归：推荐　　113

7.1 　用回归预测房价　　113

7.1.1 　多维回归　　116

7.1.2 　回归里的交叉验证　　116

7.2 　惩罚式回归　　117

7.2.1 　L1和L2惩罚　　117

7.2.2 　在Scikit-learn中使用Lasso或弹性网　　118

7.3 　P大于N的情形　　119

7.3.1 　基于文本的例子　　120

7.3.2 　巧妙地设置超参数（hyperparameter）　　121

7.3.3 　评分预测和推荐　　122

7.4 　小结　　126

第8章　回归：改进的推荐　　127

8.1 　改进的推荐　　127

8.1.1 　使用二值推荐矩阵　　127

8.1.2 　审视电影的近邻　　129

8.1.3 　组合多种方法　　130

8.2 　购物篮分析　　132

8.2.1 　获取有用的预测　　133

8.2.2 　分析超市购物篮　　134

8.2.3 　关联规则挖掘　　136

8.2.4 　更多购物篮分析的高级话题　　137

8.3 　小结　　138

第9章　分类III：音乐体裁分类　　139

9.1 　路线图概述　　139

9.2 　获取音乐数据　　139

9.3 　观察音乐　　140

9.4 　用FFT构建第一个分类器　　143

9.4.1 　增加实验敏捷性　　143

9.4.2 　训练分类器　　144

9.4.3 　在多分类问题中用混淆矩阵评估正确率　　144

9.4.4 　另一种方式评估分类器效果：受试者工作特征曲线（ROC）　　146

9.5 　用梅尔倒频谱系数（MFCC）提升分类效果　　148

9.6 　小结　　152

第10章　计算机视觉：模式识别　　154

10.1 　图像处理简介　　154

10.2 　读取和显示图像　　155

10.2.1 　图像处理基础　　156

10.2.2 　加入椒盐噪声　　161

10.2.3 　模式识别　　163

10.2.4 　计算图像特征　　163

10.2.5 　设计你自己的特征　　164

10.3 　在更难的数据集上分类　　166

10.4 　局部特征表示　　167

10.5 　小结　　170

第11章　降维　　171

11.1 　路线图　　171

11.2 　选择特征　　172

11.2.1 　用筛选器检测冗余特征　　172

11.2.2 　用封装器让模型选择特征　　178

11.3 　其他特征选择方法　　180

11.4 　特征抽取　　181

11.4.1 　主成分分析（PCA）　　181

11.4.2 　PCA的局限性以及LDA会有什么帮助　　183

11.5 　多维标度法（MDS）　　184

11.6 　小结　　187

第12章　大数据　　188

12.1 　了解大数据　　188

12.2 　用Jug程序包把你的处理流程分解成几个任务　　189

12.2.1 　关于任务　　189

12.2.2 　复用部分结果　　191

12.2.3 　幕后的工作原理　　192

12.2.4 　用Jug分析数据　　192

12.3 　使用亚马逊Web服务（AWS）　　194

12.3.1 　构建你的第一台机器　　195

12.3.2 　用starcluster自动创建集群　　199

12.4 　小结　　202

附录A 　更多机器学习知识　　203

A.1 　在线资源　　203

A.2 　参考书　　203

A.2.1 　问答网站　　203

A.2.2 　博客　　204

A.2.3 　数据资源　　205

A.2.4 　竞争日益加剧　　205

A.3 　还剩下什么　　205

A.4 　小结　　206

索引　　207

作者简介

如今，机器学习正在互联网上下掀起热潮，而Python则是非常适合开发机器学习系统的一门优秀语言。作为动态语言，它支持快速探索和实验，并且针对Python的机器学习算法库的数量也与日俱增。本书最大的特色，就是结合实例分析教会读者如何通过机器学习解决实际问题。

本书将向读者展示如何从原始数据中发现模式，首先从Python与机器学习的关系讲起，再介绍一些库，然后就开始基于数据集进行比较正式的项目开发了，涉及建模、推荐及改进，以及声音与图像处理。通过流行的开源库，我们可以掌握如何高效处理文本、图片和声音。同时，读者也能掌握如何评估、比较和选择适用的机器学习技术。

举几个例子，我们会介绍怎么把StackOverflow的回答按质量高低进行分类，怎么知道某个音乐文件是爵士风格，还是重金属摇滚风格。另外，本书还涵盖了主题建模、购物习性分析及云计算等高级内容。总之，通过学习本书，读者可以掌握构建自己所需系统的各方面知识，并且学以致用，解决自己面临的现实问题。

读者只要具有一定的Python编程经验，能够自己安装和使用开源库，就足够了，即使对机器学习一点了解都没有也没关系。本书不会讲机器学习算法背后的数学。

机器学习系统设计下载更多精彩书评

发布书评

精彩书评 (总计1条)

如果想要系统的学习机器学习算法，就别翻这本书了。这本书是为那些看完统计学习方法这类偏理论书籍，但依然不知道怎么下手写代码解决实际问题的新手准备的；这本书是为那些学会了几个机器学习算法就自诩掌握机器学习和数据挖掘的脑残小白准备的；这本书是为有一定编程经验，想快速进入数据挖掘领域的开发工程师们准备的；真实的数据挖掘工作中，数据科学家90%以上的时间投入在分析商业问题、解读和清洗数据、设计和选择特征、模型评估这个loop中，这些是决定模型效果的关键，而使用算法进行训练和预测，通常情况下一两行代码即可搞定。本书的实例在一定程度上体现了真实工作中的这些内容，比较务实；此外得益于scipy和scikit-learn强大的功能，实例代码非常简洁，易于上手操练。对于想进入数据挖掘领域折腾的同学，翻翻这本书，打开python控制台，试着写一二十行代码去解决一个具体的分类问题，这大抵可以消除你对机器学习各种高大上的心理障碍了。有志于玩大数据的同学们，快行动起来吧！

精彩短评 (总计16条)

偏重讲述算法之外而又关键的细节，从目标出发，包括特征选择，模型间对比等，和实战篇互补学习刚刚好
一个case都没有动手去实现的我最后还是忍不住mark一个已读…
各种理论工具（机器学习算法、python、scikit-learn、nltk、numpy）过了一遍之后，看这本书的实际应用，指导思路，非常舒心。因为这本书既不讲理论算法，也不系统介绍工具应用，就是讲怎么用工具、算法一系列的武器去解决问题，解决问题过程中碰到问题，再怎么思考变换方法，力求达到解决问题的效果。所以感觉起来，不是用来入个门的书，而是在一定基础之后，将各个板块（算法、工具）串一串，了解解决问题的思路。
翻译有点扯,入门必备
主要依赖scikit-learn、numpy、scipy、matplotlib这些库，分类的评估写的比较细致
hands-on, entry-level
非常in action，适合做工具缩影，摸清楚理论还是算了吧。
例子设计的很好，但是对照书本和代码看有些乱
比较偏向算法的思路与实现，具体代码不多
hands on的书，实践派，基本无理论，适合enable。
结合实例用到工作上实践，效果尤佳
本来以为这本书是边干边学性质的，在学习第一章、第二章的时候有这种错觉，觉得自己能跟得上。后来发现，后面的章节升级曲线非常扯淡，一会儿特别难，一些地方又简单的，作者真的指望读者看他后面的代码能熟练掌握、灵活运用么？有些简单的部分直接是抄的sklearn官方的包库讲解。所以，虽然我很差，但这本书这样写的话，也很不负责任啦
学之前最好把numpy,scipy和sklearn看懂，否则学的比较困难
简单过了一遍，主要是了解有哪些纬度和实现了什么效果。这本书没有涉及任何理论行的东西，如果不是照着例子来实验的话，价值不大。关键问题之一：了解每种方法的适用场景、效果、优点和缺点
回归介绍的全是线性回归…
写得过于简略，不如机器学习实践+gensim资料来得实用。这些书真是越来越水。

机器学习系统设计

发布书评

精彩书评 (总计1条)

精彩短评 (总计16条)

类似图书

相关图书推荐