机器学习

出版社:机械工业出版社
出版日期:2013-4-1
ISBN:9787111417316
作者:（美）Drew Conway,John Myles White
页数:320页

章节摘录

版权页：   插图：   在图11—7中，我们专注于网络的左半部分，并且把边都删除了，以便于更容易观察节点的标签。快速浏览一遍这部分聚类的Twitter用户名，很明显Drew的这部分网络包含了Drew在Twitter上关注的数据专家。首先我们看到的是知名的数据专家，比如浅绿色的蒂姆·奥莱利（timoreilly）和Nathan Yau（flowingdata），因为他们都是自成一体的。紫色和红色的组也很有趣，因为它们都含有数据黑客，但是被一个关键因子分成两部分：Drew的紫色好友都是数据圈子的杰出成员，例如：HilaryMason（hmason）、PeteSkomoroch（peteskomoroch）、Jake Hofman（jakehofman），但是他们没有一位是R语言圈子的活跃成员。另一方面，红色的节点都是R语言圈子的活跃成员，包括HadlevWickham（hadleywickham）、David Smith（revodavid）、Gary King（kinggary）。此外，力导向算法成功地把这些圈子成员放到一起，并且把属于这两个圈子的那些节点放到圈子的边缘。我们可以看到John（johnmyleswhite）是紫色的，但是他被放到很多红色节点中间。这是因为John在这两个圈子中都是杰出成员，而且数据也反映了这一点。其他的这类例子包括：JD Long（cmastication）和Josh Reich（i2pi）。 尽管Drew花了很长时间和数据圈子成员交流（包括R用户和非R用户数据圈子成员），但是Drew也使用Twitter与满足其他兴趣的圈子交流。其中一个特别的兴趣是他的学术职业生涯，他关注国家安全技术和政策。在图11—8中，我们突出了Drew网络的右半部分，它包含了来自这些兴趣相关的圈子的成员。和数据专家组类似，这部分包含了2个子组，一个是蓝色的，另外一个是绿色的。和前面的例子一样，节点的分割颜色和摆放位置可以反映出他们在网络中扮演的角色。 蓝色分割中的Twitter用户铺得很开：一部分离Drew很近，在网络的左边，而另外一些在网络的右边，接近绿色的组。那些靠近左边的用户与技术在国家安全中的角色这一话题有关，这些用户包括：Sean Gourley（sgourley）、Lewis Shepherd（1ewisshepherd）和Jeffrey Carr（Jeffrey Carr）。那些靠近绿色组的用户更加关注国家安全政策，和绿色组中的成员相似。在绿色组中，我们看到很多Twitter上著名的国家安全圈子成员，包括：AndrewExum（abumuqawama）、Joshua Foust（joshua Foust）和Daveed Gartenstein—Ross（daveedgr）。和前面一样，有趣的是，那些属于两个组的人被放置到聚类边缘，例如：Chris Albon（chrisalbon），他在两个圈子中都很杰出。

前言

【译者序】当今各行业，尤其是互联网，数据规模越来越大，要从中有效地发现模式来提高生产力，用传统的方式已经几乎不可能，只能借助计算机来完成诸多使命。因此，机器学习这一新兴的学科变得越来越重要，它已经在搜索、推荐、数据挖掘等多个领域闪耀光芒。机器学习是一门交叉学科，内容涉及概率论、统计学、高等数学、计算机科学等多门学科。该学科致力于设计一种让计算机具有“学习”能力的算法，通过发现经验数据中隐藏的模式，实现对未知数据的预测。大数据时代是机器学习最美好的时代，因为数据不再是问题，各类问题都可以收集到海量的数据。但是，对于很多人来说，这一门交叉学科本身却神秘而陌生，对于没有系统学习过相关基础学科的人来说尤其感到“高不可攀”。如今已出版的机器学习相关书籍中，很多都有这个特点：公式多，晦涩难懂。这让很多程序员出身的人望而却步。然而，在第一次读到本书的英文版时，译者就彻底相信：机器学习完全可以讲解得通俗易懂，让知识的传递实现“润物细无声”。本书秉承的原则是：实践出真知，只要多动手，没有攻克不了的技术难题。因此作者预期的阅读对象是如电脑黑客般的人，要求对技术有发自内心的求知欲和好奇心，愿意自己动手而非纸上谈兵。全书精心选择了12个机器学习案例，由浅入深，面面俱到，既有基础知识（如数据分析），也有当前热门的社交网站推荐案例。书中的每一个案例都由作者娓娓道来，逐一剖析关键算法的代码，没有丝毫学究气息，触动每个机器学习初学者的内心最深处。书中所有算法都采用R语言实现。R语言是一门用于统计学的开源脚本语言，基于它的开源性，有来自世界各地的开源拥护者贡献的各种统计学相关的程序包，稳定且方便，尤其是它对数据可视化的支持，更是一柄利器，既轻巧又实用。书中所有源代码和数据在原书的官方网站上都可以免费下载。在阅读过程中，犹如作者亲至身侧，为你讲解代码和思路，为你排除错误和优化效果。全书案例既有分类问题，也有回归问题；既包含监督学习，也涵盖无监督学习。所选择的案例妙趣横生，如分析UFO目击记录、破译密码、预测股票、分析美国参议员“结党”的情况，等等，这里就不“剧透”了，大家自己去享受学习的乐趣吧。书中12个案例之间的依赖关系不是特别强（除R语言基础知识外，其余某几章仅有个别知识点之间存在依赖性），可以像连续剧一样，逐一播放，也可以像一个个小品一般，挑感兴趣的内容分别播放。学习完这些案例之后，相信你会窥见机器学习的一斑，然后再根据自己的实际情况更深入地学习。本书翻译工作由三位来自互联网世界的工程师通力协作完成，其中，来自新浪微博的陈开江负责完成前言及第1～4章的翻译；来自阿里B2B的刘逸哲负责完成第5、8、9和11章的翻译；来自阿里一淘的孟晓楠负责完成第6、7、10和12章的翻译；同时，全书审校工作由来自北京理工大学的罗森林教授义务承担。本书能够得以出版，首先要感谢机械工业出版社的吴怡编辑，是她给了我们三位工程师这个学习知识并传递知识的机会，她经验丰富，在翻译过程中给予了我们许多建设性的指导意见。其次，要感谢罗森林教授，他在百忙之中为我们担任全书的审校工作，从而让国内的机器学习者能感受到这本书应有的魅力。最后，我们要感谢互联网，因为译者与本书的缘分始于互联网，从看到原书、报名翻译、组成翻译团队、翻译过程中的讨论，所有这样都是通过互联网完成的。虽然经过罗森林教授认真审校并且给我们提出了宝贵意见，但是由于译者本身水平有限，书中译文势必还存在不妥甚至错误之处，恳请机器学习界的广大前辈、同仁们不吝赐教，促使我们继续为大家更好地传递先进技术，让更多机器学习爱好者成为机器学习的黑客。我们坚信集体智慧是再高的个人智慧都无法企及的，因此真诚希望大家一起来贡献自己的智慧。无论是对翻译本身有任何意见或建议，还是对机器学习方面有心得，都欢迎大家到我们的微博上交流、切磋，我们一起贡献自己的智慧，在集体智慧中互相学习，共同进步。

名人推荐

O’Reilly Radar博客有口皆碑。——WiredO’Reilly凭借一系列（真希望当初我也想到了）非凡想法建立了数百万美元的业务。——Business 2.0O’Reilly Conference是聚集关键思想领袖的绝对典范。——CRN一本O’Reilly的书就代表一个有用、有前途、需要学习的主题。——Irish TimesTim是位特立独行的商人，他不光放眼于最长远、最广阔的视野并且切实地按照Yogi Berra的建议去做了：‘如果你在路上遇到岔路口，走小路（岔路）。’回顾过去Tim似乎每一次都选择了小路，而且有几次都是一闪即逝的机会，尽管大路也不错。——Linux Journal

媒体关注与评论

“O’ReillyRadar博客有口皆碑。”——Wired“O’Reilly凭借一系列（真希望当初我也想到了）非凡想法建立了数百万美元的业务。”——Business2.0“O’ReillyConference是聚集关键思想领袖的绝对典范。”——CRN“一本O’Reilly的书就代表一个有用、有前途、需要学习的主题。”——IrishTimes“Tim是位特立独行的商人，他不光放眼于最长远、最广阔的视野并且切实地按照YogiBerra的建议去做了：‘如果你在路上遇到岔路口，走小路（岔路）。’回顾过去Tim似乎每一次都选择了小路，而且有几次都是一闪即逝的机会，尽管大路也不错。”——LinuxJournal

内容概要

【作者介绍】

Drew Conway 机器学习专家，拥有丰富的数据分析与处理工作经验。目前主要利用数学、统计学和计算机技术研究国际关系、冲突和恐怖主义等。他曾作为研究员在美国情报和国防部门供职数年。他拥有纽约大学政治系博士学位，曾为多种杂志撰写文章，是机器学习领域的著名学者。

John Myles White 机器学习专家，拥有丰富的数据分析与处理工作经验。目前主要从理论和实验的角度来研究人类如何做出决定，同时还是几个流行的R语言程序包的主要维护者，包括ProjectTemplate和log4r。他拥有普林斯顿大学哲学系博士学位，曾为多家技术杂志撰稿，发表过许多关于机器学习的论文，并在众多国际会议上发表演讲。

【译者介绍】

罗森林 博士，教授，博导。现任北京理工大学信息系统及安全对抗实验中心主任、专业责任教授。国防科技工业局科学技术委员会成员；《中国医学影像技术杂志》、《中国介入影像与治疗学》编委会委员；全国大学生信息安全技术专题邀请赛专家组副组长；中国人工智能学会智能信息安全专业委员会委员等。主要研究方向为信息安全、数据挖掘、媒体计算、中文信息处理等。负责或参加完成国家自然科学基金、国家科技支撑计划、863计划、国家242计划等省部级以上项目40余项。已发表学术论文90余篇，出版著作8部，出版译著1部，获授权专利3项。

陈开江　新浪微博搜索部研发工程师，曾独立负责微博内容反垃圾系统、微博精选内容挖掘算法、自助客服系统（包括自动回复、主动挖掘、舆情监测）等项目，目前主要从事社交挖掘、推荐算法研究、机器学习、自然语言处理相关工作，研究兴趣是社交网络的个性化推荐。

刘逸哲　阿里巴巴，CBU基础平台部搜索与推荐团队核心技术与query分析方向负责人，机器学习技术领域及圈子负责人。曾任中国雅虎相关性团队、自然语言处理团队算法工程师；AvePoint.inc开发工程师，从事企业级搜索引擎开发。研究兴趣是机器学习、自然语言处理及个性化推荐等算法在大规模数据上的应用。

孟晓楠　一淘广告技术，阿里非搜索广告算法负责人，负责用户行为分析、建模与细分，RTB竞价算法，展示广告CTR预估与SEM优化。曾工作于网易杭州研究院，参与过分布式全文检索系统和网易博客产品的数据挖掘算法开发。研究兴趣是计算广告技术、机器学习、大数据技术、信息检索等。

书籍目录

前言
1

第1章 使用R语言
9

R与机器学习
10

第2章 数据分析
36

分析与验证
36

什么是数据
37

推断数据的类型
40

推断数据的含义
42

数值摘要表
43

均值、中位数、众数
44

分位数
46

标准差和方差
47

可视化分析数据
49

列相关的可视化
68

第3章 分类：垃圾过滤
77

非此即彼：二分类
77

漫谈条件概率
81

试写第一个贝叶斯垃圾分类器
82

第4章 排序：智能收件箱
97

次序未知时该如何排序
97

按优先级给邮件排序
98

实现一个智能收件箱
102

第5章 回归模型：预测网页访问量
128

回归模型简介
128

预测网页流量
142

定义相关性
152

第6章 正则化：文本回归
155

数据列之间的非线性关系：超越直线
155

避免过拟合的方法
164

文本回归
174

第7章 优化：密码破译
182

优化简介
182

岭回归
188

密码破译优化问题
193

第8章 PCA：构建股票市场指数
203

无监督学习
203

主成分分析
204

第9章 MDS：可视化地研究参议员相似性
212

基于相似性聚类
212

如何对美国参议员做聚类
219

第10章 kNN：推荐系统
229

k近邻算法
229

R语言程序包安装数据
235

第11章 分析社交图谱
239

社交网络分析
239

用黑客的方法研究Twitter的社交关系图数据
244

分析Twitter社交网络
252

第12章 模型比较
270

SVM：支持向量机
270

算法比较
280

参考文献
287

编辑推荐

《机器学习:实用案例解析》编辑推荐：1.《机器学习:实用案例解析》是机器学习和数据挖掘领域的经典图书，基础理论与实践完美的结合，是一部逻辑紧密、内容详实，适合所有相关技术人员的参考书。2.《机器学习:实用案例解析》两名作者都具有丰富的数据分析、处理工作经验，是机器学习实践技术方面的积极实践者。

作者简介

这本书为机器学习技术提供了一些非常棒的案例研究。它并不想成为一本关于机器学习的工具书或者理论书籍，它注重的是一个学习的过程，因而对于任何有一些编程背景和定量思维的人来说，它都是不错的选择。

——Max Shron OkCupid

机器学习是计算机科学和人工智能中非常重要的一个研究领域，近年来，机器学习不但在计算机科学的众多领域中大显身手，而且成为一些交叉学科的重要支撑技术。本书比较全面系统地介绍了机器学习的方法和技术，不仅详细阐述了许多经典的学习方法，还讨论了一些有生命力的新理论、新方法。

全书案例既有分类问题，也有回归问题；既包含监督学习，也涵盖无监督学习。本书讨论的案例从分类讲到回归，然后讨论了聚类、降维、最优化问题等。这些案例包括分类：垃圾邮件识别，排序：智能收件箱，回归模型：预测网页访问量，正则化：文本回归，最优化：密码破解，无监督学习：构建股票市场指数，空间相似度：用投票记录对美国参议员聚类，推荐系统：给用户推荐R语言包，社交网络分析：在Twitter上感兴趣的人，模型比较：给你的问题找到最佳算法。各章对原理的叙述力求概念清晰、表达准确，突出理论联系实际，富有启发性，易于理解。在探索这些案例的过程中用到的基本工具就是R统计编程语言。R语言非常适合用于机器学习的案例研究，因为它是一种用于数据分析的高水平、功能性脚本语言。

本书主要内容：

·开发一个朴素贝叶斯分类器，仅仅根据邮件的文本信息来判断这封邮件是否是垃圾邮件；

·使用线性回归来预测互联网排名前1000网站的PV；

·利用文本回归理解图书中词与词之间的关系；

·通过尝试破译一个简单的密码来学习优化技术；

·利用无监督学习构建股票市场指数，用于衡量整体市场行情的好坏；

·根据美国参议院的投票情况，从统计学的角度对美国参议员聚类；

·通过K近邻算法构建向用户推荐R语言包；

·利用Twitter数据来构建一个“你可能感兴趣的人”的推荐系统；

·模型比较：给你的问题找到最佳算法。

机器学习下载更多精彩书评

发布书评

精彩书评 (总计2条)

对于机器学习，一直困惑于缺乏实践，缺少可操作的入手点。也一直在读理论理论，有种总是在打敲边鼓的感觉。本书举了不少例子，基于R语言的，终于看到一些实际的例子了。或许以后可以找出其中一个例子进行学习。总体来说，这本书还行，还是有可读性的。
对于机器学习，一直困惑于缺乏实践，缺少可操作的入手点。也一直在读理论理论，有种总是在打敲边鼓的感觉。本书举了不少例子，基于R语言的，终于看到一些实操的例子了。或许以后可以找出其中一个例子进行学习。总体来说，这本书还行，还是有可读性的。

精彩短评 (总计49条)

这本书真是骗钱的厉害，重新排个版，去掉废话，能减少三分之一的页数。
翻译的不算完美，有的地方读起来蛮吃力，总的来说不错。
因为人需要洞悉多因素的相关性，所以教会机器干最无聊的收集（行为数据）、分析、（初步）结论。因此，这里汉语“学习”应当理解为“记住”并“认识到”。
用R做机器学习，这种手把手做案例的书就很好啊。
很好！
随书的程序和数据没有地方下载，不利于学习
: TP181/0250
非常不错，推荐。实用举例，不蔓不枝。
需要这样的案例，毕竟刚刚接触
写给统计学家的机器学习书，写给MLer的统计分析书，写给R语言初学者的实践进阶书，写给开发工程师的算法入门书。这本书把所有的公式都忽略掉了，比大名鼎鼎的集体智慧编程还要夸张和简单....
标题说是机器学习-实用案例解析，而实际上原标题是Machine Learning for Hacker。内容基本是实践，点到为止，不深入，较泛。另外翻译质量也不太满意
举一反三！！再来两遍~
应该叫 machine learning for statistics idiots
基本上把代码试了一遍，虽然英文名字里面有个hacker，但里面讲的东西倒是step by step ,适合入门，里面对机器学习讲的不多，主要讲了回归，分类，聚类，最后还捎着讲了SVM，基于R的实操，亲手试一下，有好处的。
了解个大概，原理解释的比较少（不过可能也不用），唯一就是对R无感。
与集体智慧编程是一类的书
还是比较适合研发同学
很不错也很实用，可以入手。送的速度很快第二天就到了！
非常好的机器学习入门课程，以案例讲解算法，分析深入详细，对于希望学习该课程的人员来说，非常值得阅读。中文版的我已经买了。。。
内容有一定价值，但是实在不实用
借助R语言，把机器学习算法都变成黑盒，专注于数据的整理和思路。角度蛮特别的一本书，对实干比较有启发意义。
这本书讲的比较基础，但是很清晰。我正在读，会很认真的读。
怎么没有案例中的数据下载~~！！没数据怎么分析？！不知道你们好评的评的是啥。。
案例很丰富，需要下力气来研究
讲究实用，这是最好的，使用才是极客的风范，否则就只能算是学院
都是浅出了，没有深入的感觉，看的时候还是必要有理论参考书比较好
我自己参与翻译的，不敢给最高分。但是，这本书的确是好，就是好，好好好！哈哈哈~~~
很精致，内容很有趣，正在学习
机器学习已经比较困难了，这个有范例总体来说比较方便但是范例的完整度不够，对于初学者而言最好还是“手把手”“一步一步”这样的组织形式可以节省大量的构建环境的时间
前半部分讲的非常精彩，适合入门人员，很多原理娓娓道来，虽然看不懂R，但是对于入门人员来讲，是需要了解原理的。后半部分很多理论就很复杂，又是一笔带过，就显得粗糙。继续深入挖掘吧。
。。。
准备先看完斯坦福的机器学习再看这本书，大致翻了下，感觉只是结构很好，先给4星
hackers ，算法实践
蹭风口。
看了一点。感觉很多地方翻译的不妥。还是看英文原版吧。
机器学习的常用场景讲解
比较适合初学者。
总而言之，这本书作为机器学习的入门教材还是可以的。但是要注意两点，书中所阐述的机器学习算法和概念是相对最为基础的，尽管很简单，但是已经包含了最重要最常用的思想，很多内容举重若轻，新人看和高手看绝对会获得不同的理解；另一点，书中前两章基本反应了全书中要求的R语言水平，作为复习和练习都是不错的实践，但是作为R语言的入门就有些不合适了。
基本没怎么看懂，
R确实比较强大。
实在是太浅显了
<> 适合初学者实践。特别最后一章的Twitter关系网可视化，酷炫！
想学习机器学习的，Oreilly的书都很不错。
难度中，有很多好思路
作者不懂数学，只是懂R
书名应该改，改成 R语言统计学的实用案例解析
从基础开始一步一步教的，R语言使用者而非编写者所写，角度有所不同。
当小说书看即可，当r语言的机器学习包工具书看也可。
呜呜，没看懂，但是不明觉厉。。。

机器学习

发布书评

精彩书评 (总计2条)

精彩短评 (总计49条)

类似图书

相关图书推荐