机器学习

出版日期:2016-1-1
ISBN:9787302423288
作者:周志华
页数:425页

内容概要

周志华，南京大学教授，计算机科学与技术系副主任，软件新技术国家重点实验室常务副主任，机器学习与数据挖掘研究所（LAMDA）所长，校、系学术委员会委员；ACM杰出科学家，IEEE Fellow，IAPR Fellow，中国计算机学会会士；长江学者特聘教授，国家杰出青年基金获得者。2007年创建南京大学机器学习与数据挖掘研究所（LAMDA），2010年11月任软件新技术国家重点实验室常务副主任，2013年5月任计算机系副主任。

书籍目录

目录

第1章 1

1.1 引言 1

1.2 基本术 2

1.3 假设空间 4

1.4 归纳偏好 6

1.5 发展历程 10

1.6 应用现状 13

1.7 阅读材料 16

习题 19

参考文献 20

休息一会儿 22

第2章 模型评估与选择 23

2.1 经验误差与过拟合 23

2.2 评估方法 24

2.2.1 留出法 25

2.2.2 交叉验证法 26

2.2.3 自助法 27

2.2.4 调参与最终模型 28

2.3 性能度量 28

2.3.1 错误率与精度 29

2.3.2 查准率、查全率与F1 30

2.3.3 ROC与AUC 33

2.3.4 代价敏感错误率与代价曲线 35

2.4 比较检验 37

2.4.1 假设检验 37

2.4.2 交叉验证t检验 40

2.4.3 McNemar检验 41

2.4.4 Friedman检验与后续检验 42

2.5 偏差与方差 44

2.6 阅读材料 46

习题 48

参考文献 49

休息一会儿 51

第3章 线性模型 53

3.1 基本形式 53

3.2 线性回归 53

3.3 对数几率回归 57

3.4 线性判别分析 60

3.5 多分类学习 63

3.6 类别不平衡问题 66

3.7 阅读材料 67

习题 69

参考文献 70

休息一会儿 72

第4章 决策树 73

4.1 基本流程 73

4.2 划分选择 75

4.2.1 信息增益 75

4.2.2 增益率 77

4.2.3 基尼指数 79

4.3 剪枝处理 79

4.3.1 预剪枝 80

4.3.2 后剪枝 82

4.4 连续与缺失值 83

4.4.1 连续值处理 83

4.4.2 缺失值处理 85

4.5 多变量决策树 88

4.6 阅读材料 92

习题 93

参考文献 94

休息一会儿 95

第5章 神经网络 97

5.1 神经元模型 97

5.2 感知机与多层网络 98

5.3 误差逆传播算法 101

5.4 全局最小与局部极小 106

5.5 其他常见神经网络 108

5.5.1 RBF网络 108

5.5.2 ART网络 108

5.5.3 SOM网络 109

5.5.4 级联相关网络 110

5.5.5 Elman网络 111

5.5.6 Boltzmann机 111

5.6 深度学习 113

5.7 阅读材料 115

习题 116

参考文献 117

休息一会儿 120

第6章 支持向量机 121

6.1 间隔与支持向量 121

6.2 对偶问题 123

6.3 核函数 126

6.4 软间隔与正则化 129

6.5 支持向量回归 133

6.6 核方法 137

6.7 阅读材料 139

习题 141

参考文献 142

休息一会儿 145

第7章 贝叶斯分类器 147

7.1 贝叶斯决策论 147

7.2 极大似然估计 149

7.3 朴素贝叶斯分类器 150

7.4 半朴素贝叶斯分类器 154

7.5 贝叶斯网 156

7.5.1 结构 157

7.5.2 学习 159

7.5.3 推断 161

7.6 EM算法 162

7.7 阅读材料 164

习题 166

参考文献 167

休息一会儿 169

第8章 集成学习 171

8.1 个体与集成 171

8.2 Boosting 173

8.3 Bagging与随机森林 178

8.3.1 Bagging 178

8.3.2 随机森林 179

8.4 结合策略 181

8.4.1 平均法 181

8.4.2 投票法 182

8.4.3 学习法 183

8.5 多样性 185

8.5.1 误差--分歧分解 185

8.5.2 多样性度量 186

8.5.3 多样性增强 188

8.6 阅读材料 190

习题 192

参考文献 193

休息一会儿 196

第9章 聚类 197

9.1 聚类任务 197

9.2 性能度量 197

9.3 距离计算 199

9.4 原型聚类 202

9.4.1 k均值算法 202

9.4.2 学习向量量化 204

9.4.3 高斯混合聚类 206

9.5 密度聚类 211

9.6 层次聚类 214

9.7 阅读材料 217

习题 220

参考文献 221

休息一会儿 224

第10章 降维与度量学习 225

10.1 k近邻学习 225

10.2 低维嵌入 226

10.3 主成分分析 229

10.4 核化线性降维 232

10.5 流形学习 234

10.5.1 等度量映射 234

10.5.2 局部线性嵌入 235

10.6 度量学习 237

10.7 阅读材料 240

习题 242

参考文献 243

休息一会儿 246

第11章 特征选择与稀疏学习 247

11.1 子集搜索与评价 247

11.2 过滤式选择 249

11.3 包裹式选择 250

11.4 嵌入式选择与L$_1$正则化 252

11.5 稀疏表示与字典学习 254

11.6 压缩感知 257

11.7 阅读材料 260

习题 262

参考文献 263

休息一会儿 266

第12章 计算学习理论 267

12.1 基础知识 267

12.2 PAC学习 268

12.3 有限假设空间 270

12.3.1 可分情形 270

12.3.2 不可分情形 272

12.4 VC维 273

12.5 Rademacher复杂度 279

12.6 稳定性 284

12.7 阅读材料 287

习题 289

参考文献 290

休息一会儿 292

第13章 半监督学习 293

13.1 未标记样本 293

13.2 生成式方法 295

13.3 半监督SVM 298

13.4 图半监督学习 300

13.5 基于分歧的方法 304

13.6 半监督聚类 307

13.7 阅读材料 311

习题 313

参考文献 314

休息一会儿 317

第14章 概率图模型 319

14.1 隐马尔可夫模型 319

14.2 马尔可夫随机场 322

14.3 条件随机场 325

14.4 学习与推断 328

14.4.1 变量消去 328

14.4.2 信念传播 330

14.5 近似推断 331

14.5.1 MCMC采样 331

14.5.2 变分推断 334

14.6 话题模型 337

14.7 阅读材料 339

习题 341

参考文献 342

休息一会儿 345

第15章 规则学习 347

15.1 基本概念 347

15.2 序贯覆盖 349

15.3 剪枝优化 352

15.4 一阶规则学习 354

15.5 归纳逻辑程序设计 357

15.5.1 最小一般泛化 358

15.5.2 逆归结 359

15.6 阅读材料 363

习题 365

参考文献 366

休息一会儿 369

第16章 强化学习 371

16.1 任务与奖赏 371

16.2 $K$-摇臂赌博机 373

16.2.1 探索与利用 373

16.2.2 $\epsilon $-贪心 374

16.2.3 Softmax 375

16.3 有模型学习 377

16.3.1 策略评估 377

16.3.2 策略改进 379

16.3.3 策略迭代与值迭代 381

16.4 免模型学习 382

16.4.1 蒙特卡罗强化学习 383

16.4.2 时序差分学习 386

16.5 值函数近似 388

16.6 模仿学习 390

16.6.1 直接模仿学习 391

16.6.2 逆强化学习 391

16.7 阅读材料 393

习题 394

参考文献 395

休息一会儿 397

附录 399

A 矩阵 399

B 优化 403

C 概率分布 409

后记 417

索引 419

作者简介

机器学习是计算机科学与人工智能的重要分支领域. 本书作为该领域的入门教材，在内容上尽可能涵盖机器学习基础知识的各方面。 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用数学知识. 然而, 少量的概率、统计、代数、优化、逻辑知识似乎不可避免. 因此, 本书更适合大学三年级以上的理工科本科生和研究生, 以及具有类似背景的对机器学 习感兴趣的人士. 为方便读者, 本书附录给出了一些相关数学基础知识简介.

全书共16 章，大致分为3 个部分：第1 部分（第1～3 章）介绍机器学习的基础知识；第2 部分（第4～10 章）讨论一些经典而常用的机器学习方法（决策树、神经网络、支持向量机、贝叶斯分类器、集成学习、聚类、降维与度量学习）；第3 部分（第11～16 章）为进阶知识，内容涉及特征选择与稀疏学习、计算学习理论、半监督学习、概率图模型、规则学习以及强化学习等.前3章之外的后续各章均相对独立, 读者可根据自己的兴趣和时间情况选择使用. 根据课时情况, 一个学期的本科生课程可考虑讲授前9章或前10章; 研究生课程则不妨使用全书.

书中除第1章外, 每章都给出了十道习题. 有的习题是帮助读者巩固本章学习, 有的是为了引导读者扩展相关知识. 一学期的一般课程可使用这些习题, 再辅以两到三个针对具体数据集的大作业. 带星号的习题则有相当难度, 有些并无现成答案, 谨供富有进取心的读者启发思考.

本书可作为高等院校计算机、自动化及相关专业的本科生或研究生教材，也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考。

机器学习下载精选章节试读更多精彩书评

发布书评

精彩书评 (总计8条)

1. 这个书最好的地方在于他很多地方解释了某某模型或者参数为什么的问题：也就是某个东西的用途优点和动机intuition。而一般的计算机类的机器学习书则侧重告诉你"是什么"的问题，而不知道所以然。这个优点是和一些机器学习书包括李航老师的，还有一些机器学习实战之类的书不太一样的地方。2. 当然这是本教科书，提到的很多都是经典理论的东西，不会出现那么热门新潮的东西，深度学习还没有定型的时候，周老师也没有说那么多。3. 另外教科书的推导也是教科书式的，图和例子不是很多，更多是公式，不太直观。
开个坑，慢慢填第一章绪论： http://wangzhinan.com/2017/01/08/zzh-machinelearning-exercise-1/第二章模型评估与选择: http://wangzhinan.com/2017/01/21/zzh-machinelearning-exercise-2/
写的比较深入浅出,原来自学过机器学习课程.同时实践过一个简单的机器学习算法来预估广告点击率(逻辑回归算法),取得了一定效果.但是很多基本原理也只是照搬硬套.看了这本书后有一种豁然开朗的感觉例如为什么参数时,明明是两种情况,为什么要设置三个(一个默认为空). 还有怎么校验一个学习算法的优劣,为什么这么校验.这本书告诉了你为什么,不错.目前还只看了前两章,就感觉很爽....如果早几年有这种书就好了

精彩短评 (总计50条)

SVM讲的特好，大家可以读读看
机器学习重要的算法差不多都囊括了，通过一个西瓜主题贯穿全书，只可惜看的有些匆忙，很多数学公式推导没有自己去求证，二刷好好细品。
看完评论想作为入门读物，可是发现有点难。。。
深入浅出，浅显易懂，文字流畅，好书。唯一缺点是对深度学习的介绍太少。
内容简洁，概念清晰，大家风范
略显虎头蛇尾。作为绝世武功的目录还行。
偶然翻的LP的博士在啃的书，近几年断断续续在了解这个领域，对机器的前景有点不寒而栗。
覆盖主题比较多，但有些的比如SVM，通过参看其他资料理解更快。数学公式还是啃不动啊
作者在国内机器学习领域算是数得上的，序里面写的很清楚，人家就是入门教材，希望看完就一通百通的还需继续学习
内容很全面，涵盖了绝大多数热门算法与模型。可惜讲的太过粗糙，没有完整的数学推导，不适合没有基础的人看。比起教科书更像是本“导读”。用作梳理知识点，准备面试还是不错的。
M
五星推荐，最适合入门者的一本中文机器学习教材。当然英文的话UCB新的那本MLAPP、传统的Tom-Mitchell和PRML都可以用来入门，中文的话只此一家决不能错过。
经典。还需要更努力去理解，去探索，去发现。
其实作为入门书。。。真的挺难懂的。。。。可能我数学功底差？？http://blog.jobbole.com/67616/这种在线网站入门会比较方便
读完就算将将入门吧，不要想太多。理论比较多，要应用到实践还请继续看其他书和材料。
有些句子感觉读起来很别扭啊。。。。比如： P67. “再缩放的思想虽简单，但实际操作却并不平凡，主要因为"训练集是真实样本总体的无偏采样"这个假设往往并不成立” P67 “这在通常条件下是 NP 难问题” 感觉部分像翻译的，莫非有学生写的？（纯基于特征的猜测。。。）后续再补充。。。
没读完，可能是我智商有问题？感觉这本书并不适合入门
说三遍：这是一本教科书，这是一本教科书，这是一本教科书。讲了很多，一些公式推导省略了很多。自学的话，看这本得费不少功夫。
简洁而清楚，还附带一些机器学习的历史小故事。
和李航的书相比在方法层面缺少大局观，但讲得更多更具体。推荐两本书结合起来看。
在看密歇根州立出来的实习生给我的论文的时候因为有了这本书没有输太惨（围笑围笑围笑）
用精简的文字和公式推导，从方法论上科普了许多机器学习的方法，信息量挺大，需要一定的知识储备。我个人印象最深的是神经网络、集成学习、强化学习三章，总算明白了个所以然……
太浅，只适合了解入门。。不过入门的人又不一定能看懂
读不明白，什么时候再看一遍应该会好点
不错，有的地方叙述不是很清晰
书是好书，但读者也应该看看作者的序言，很多问题在序言里已经回答了的。PS:入门推荐看吴恩达，李飞飞老师的课
Machine learning is a very powerful tool .
这本书的纸张选的很怪异，装在包里很难装，放书柜也不好放。从出版至今短短一两年的时间，这本破书就改了十版，可想而知这本书里到底是有多少错误，作者对待这本书是什么个态度。我曾经很认真地看这本书，把它当作我的入门读物，一个一个公式的推导，结果发现这本书的公式定义很混乱，和前面的文字对不上，表意不明。该给读者仔细指明的公式简而又简，那种无需在意过程只需看结果的公式长的不行。内容上也是前后文有重叠，最开始告诉读者十次十折交叉验证最常用，到后文就推荐别的，也没有指明这两者孰优孰劣。不过也不是没有优点，这本书算是一个比较全的Review，想大概了解一下机器学习的技术可以大概浏览一下本书的文字部分，不能细究。西瓜的例子还是很生动的。
讲得不是很清楚，也鲜有独到见解和启发意义
排版可以
理论性比较强
干巴巴，知识树，没有叶子。排版很奢侈，空白很多。
很多人就随便翻翻几页看了个囫囵吞枣就开始评论起来，也许连作者自身的前言都没看。这本书作者定义为机器学习教科书，作为教科书，我觉得主在引导想学习机器学习或者对这领域感兴趣的同学入门，能对机器学习的起源发展现状，以及一些算法有初步的了解，而这本也正是如此做的，省去了很多公式以及推导过程，更注重对算法进行简单的阐述，以及添加一些小作业小故事来培养初学者的兴趣。这本书在每个算法后面，也列举了每个算法的阅读材料，如果一些同学对哪个算法感兴趣，自然可以网上搜索资源对某个算法进行更加深入的理解。师傅领进门，修为在个人。本书作者也说了想对算法进行又广又深的说明非上千页不能完成。作为入门教科书，不论是排版还是内容，都是很值得想学习机器学习的同学入手，在自学过程中再对感兴趣的算法进入深入会更好，加油。
拿来当入门书仿佛太难了…
不错的介绍。
语言易懂，案例切合，比李航的易懂，极其适合入门的童鞋
观其大概而已
作为一本自学书来说它是不合格的，因为知识密度很大，许多公式都没有具体解释直接座位结论放上去，看得云里雾里。但作为字典应该是个不错的选择。
确实很适合入门
确实是入门的书啊
实在太貌美于是抱回了家……印刷精良，排版上乘，纸张优质……还看到很多spss里用了无数次却不知道是啥的处理方法……
说个事(xiao)实(hua)，这书的分比CMU的那本Machine Learning还要高。
范围覆盖面很不错，如果是半路出家的人工智能从业者，很推荐阅读，但是深度有限，可以当作科普读物。
入门级教材，门外汉需要一点点统计学基础知识或者数学兴趣，只要不是一看见公式就想放弃的应该都没啥问题
讲的很简略，入门很好，能大致了解机器学习。
科普读物
作为入门书籍很好用
很厉害，可以把其它书上很啰嗦的概念讲得清楚明了。
说实话不如李航统计学习方法，更不如PRML，想比统计学习方法讲的透彻一点却还是很多东西想当然的直接拿出来，反而更加混乱了
讲的思路清楚，简单易懂。

机器学习

发布书评

精彩书评 (总计8条)

精彩短评 (总计50条)

类似图书

相关图书推荐