《深入浅出数据分析》书评

出版社:电子工业出版社
出版日期:2009
ISBN:9787121116933
作者:Michael Milton
页数:445页

不仅仅是数据分析，同时能够明白什么地方需要数据分析

稍微看了一下电子版以及中文翻译的第一章，觉得翻译很到位。有很多人评价书籍讲的太浅，看一遍之后就没有多大价值，个人不太认同这种说法，理由如下：（1）“Head First”本身就是“入门”的意思，让大家能够明白数据分析可以做什么？特别是其中数据分析方法联系具体的实例（如星巴仕咖啡），以及董事长给CEO的通牒等等，让我们明白了商业逻辑。（2）能够深入的理解数据分析的思想，比起看过的教材，没有留下任何印象，也不知道哪里会用上这些“知识”，“Head First”给我们带来了更多。（3）真正最后用数据分析的人，肯定还需要补充一些，但这表示已经有了收获。

适合对数据分析一无所知的人看着玩

内容讲得很简单，感觉像是在看故事一样，对于一些原理性强，或者比较难理解的点，又没有进行深入浅出的剖析，所以看完的感觉就是懂的还是懂的，不懂的还是不懂，没有从阅读中学到什么东西。而且排版那么多的大字与图，浪费了很多纸张。。。。。。。。

本书介绍到的一些有用的数据分析理念及方法

1.A/B Test: 控制组与实验组（随机分配实验组，最大限度避免混杂因素干扰）2.通过目标函数C₁X₁ + C₂X₂ = P解决问题（C表示约束变量，X表示决策变量，P表示期望最大化对象）3.使用二维散点图探索原因（增加平均线作为判断标准）4.当描述数据图形时，需要论述可相互换用的两种因果模型或图解。5.汇集正相关和负相关变量，构建一个具备因果关系的网络模型；提出各种假设；证伪法排除；通过证据的诊断性找出否定性最小的假设（分列+-）6.贝叶斯规则：计算条件概率（利用基础概率）；修正主观概率7.直方图与回归线的数据分析作用；8.作为一种量度方式，相对于回归线的机会误差（均方根误差）分布与相对于平均值的标准偏差具有相同用途。9.分割数据有助管理误差。

留给自己的读书笔记－深入浅出数据分析

看完的第一感觉是。。复习了一遍高中数学统计学那块儿的知识、excel的一些基本函数和sql的一点点东西～学到一些比较有用的思想：1、目标的量化；2、因果关系的反向思考；3、实验的随机性；4、将文字、数字、图片、图形全面美观的结合在一起；5、假设检验的伪证法（要注意证据的诊断性）；6、注意整个分析内容的相关性和整体性，时刻记住做分析的目的，并能简洁充分地把分析反映在报告里（这条算是贯穿整个分析地原则了吧=。=）。还有就是软件R，命令行的操作方式略古老，有点技术基础的人会比较好上手～可以继续寻找一下更好的软件，个人觉得，google docs和excel都还挺好的～最后，提醒自己最近有空可以复习下正则表达式，在做数据整理的时候可以省事儿很多 over～

数据分析的入门读物

如果以前没接触过数据分析，不知道该从何入手，那么推荐这本书。老手的话，肯定不会看的。不过，这本书本来就是深入浅出吗。所以我还是很推荐的，尤其是Head First系列的写作风格更是推荐的理由之一。

基于实践事例的数据分析书

第一章化妆品公司提出了增加销量的需求，经过商谈补充更多的数据资料，最后得出建议http://book.douban.com/annotation/37016494/第二章星巴克需要分析销量下降的原因，通过对比实验避免混杂因素。第三章产品生产线得出最优解的需求，使用excel的solver功能，逻辑上输入约束条件，业务上要结合历史数据第四章需要分析网站设计AB测试，通过点图对比浏览时间、浏览页数和回访率来比较第五章需要分析竞争对手或者相关对手发布时间通过各种新闻、信息资料，找出诊断性证据，最后判定出最强的假设第六章对事件预测，用贝叶斯算出概率第七章评估成就业绩时使用快省树启发法第八章、第九章、第十章用直方图和点图预测涨薪幅度，需要细分数据来分析，回归线来预测，均方根误差说明，不能超出数据本身的范围（不进行外插）。第十一章需要分析出最优秀的作家，通过不同表之间通过key建立数据库，用lattice散点图对比出优秀的作家。

关于本书《整理数据》一章--正则表达式

最后一章的数据整理，印象深刻。之前为论文处理数据时候，数据烦杂无规则，由于不具有数据处理经验，弄的十分头疼。最后一章也讲，数据分析的一个不可告诉的秘密是：作为数据分析师，你画在数据整理上的时间多过数据分析上的时间，到手的数据往往算不算上井井有条，因此需要做一些繁重的文字处理工作，使数据格式符合分析的需要。最后一章节介绍了用正则表达式的方法，通过寻找数据的模式，进行提取数据，印象深刻，是一个值得深入学习的好工具~

浅出但不深入的数据分析入门书

一句话评论：只有浅出，没有深入。不过还有几个地方非常有启发意义，分章节介绍1. 第一章介绍数据分析的基本流程。确定——分解——评估——决策。虽然看过的几本书的表述方式不太一致，不过基本的思路还是一样的。a. 确定：及了解及确定问题。b. 分解：分解问题及数据。这本书里没写如何分解，可借鉴《金字塔原理》一书中的方法。即利用不同诊断框架，结构性分析问题。c. 评估：解决、分析分解后的问题，得出结论。基本方式是比较。d. 决策：把各个分解后问题的结论，重新组合，做出决策。2. 还有一个名词：心智模型。你对外界的假设和你确信的观点就是你的心智模型。我们所有的分析都是建立在这个的基础之上的。从小了说，是具体问题涉及到的背景知识；从大了说，包括世界观方法论、宏观经济条件、和行业现状趋势的了解。3. 第二章介绍设计一个实验的基本理论。需要控制组（对照组）、实验组。4. 第三章是高中时代的最优化问题。介绍了solver这个excel插件5. 第四章介绍图形的重要意义。散点图、多元图形6. 第五章介绍了一种非常好的定性分析方法。作者命名为假设检验（此假设检验非统计学里的假设检验）。a. 对一个问题或趋势提出几种可能的假设，用手头掌握的证据一个一个的检验。去除最不可能的。b. 核心是证伪法，而不是满意法（线性、直觉）。c. 对于不能排除的假设。用诊断性证据，找出否定性最小的假设。d. 对不同的假设的支持力度不同，即为证据具有诊断性。可以通过定性的方式表示（+，-），也可以有定量的方式（+++，++，+，-,--,---)7. 第六章介绍最基本的贝叶斯定理。一个收获是贝叶斯规则可以反复使用，前面一次实验结果，成为后面这次的基础概率，即新信息会改变基础概率。8. 主观概率。用定量的主管概率代替定性的描述词。a. 对可能性定量。比如很可能，有可能，不可能，非常可能的可能性是：70%，50%，15%，90%等等，这又是一种定量分析的途径。b. 对新的证据，用贝叶斯规则修正主管概率。而不是又给出一个新的主观概率。9. 第八章介绍了启发法。从直觉走向最优化a. 直觉——启发法——最优化。大家都希望可以用最优化，不过大多数情况下最优化都是不可能的。（太高的时间、成本、技术要求）b. 启发法：利用快省树（决策树），去除不重要不易测量的因素，而用可观测的，有说服力的因素代替。10. 直方图是进行探索性分析的有用工具。11. 第十和第十一章通过介绍最简单的线性回归，引出了误差的概念。a. 慎重对待外插法b. 平衡模型的解释性和预测性c. 机会误差（残差）=实际结果与模型预测间的偏差12. 最后两章是sql和数据整理知识的简单介绍

不必苛求深入

head first 系列本来就是更注重读者大脑对知识的接受程度，避免枯燥的概念和公式，从这 head first 这两个词完全看不出要深入的意思，所以感觉不必苛求这一点。相信大家选 head first 系列也不是冲着深入来的。就这本书而言，用案例的方式引入了数据分析需要了解的基本概念，工具，以及规范化的思维方式，感觉对初学而言还是比较合适的。真的把书里说的东西应用好了，感觉也能解决一部分问题，需要解决更复杂的问题时候，再去了解其他高级的概念和工具，这样水平和能力才能螺旋上升。一开始就去了解一些深入的概念和高级的工具，平时又用不到，感觉其实用处也不大。

初学者有钱应该入一本

本来想找点深度一点的书，不过当时到了书店后看了两眼发现书的写法很有意思就买下了。很多人抱怨书的内容不够深入，这点我不反对。不过在我看来，数据分析与其说是理论或技术，倒不如说是一门手艺，仅仅是拿着几个范例数据按照固定的套路算算，看再多的模型，也是没有用的。多多思考模型的优劣，多多接触数据，把握数据的特点和质量，依据数据的特点去选择合适的模型才是数据分析的精髓。从这一点上看，这本书向读者说明了数据分析的几个基本思想和原则。用让人较为容易理解的方式来展示内容是这本书最大的优点，读起来很轻松，也很快。本人自己看书+自己动手演示书上的例子也就花了2天。如果不怕书贵，初学者还是可以放心的掏钱的。

教育的悲哀

阅读时间:2013年11月12日 --2013年11月13日忙完双十一之后,收集到了很多数据,之前也做了数据统计图.找来,这本书,想试试从收集到的数据中可以深层的得到什么更多的信息,于是花了2天的时间把之前小怪兽推荐的这本书浏览了一遍,这个系列的图书写作风格很有意思.其中介绍的内容,很多在高中甚至初中就学过,但是那个时候从来没有把这些东西想过用在实际中,想想如果老师用这本书做教材,效果肯定不一样了.其实想想初中和高中的大部分科目都是抱着应试的心态去学的,老师也有很多是抱着应试的心态去教的.教育的悲哀...至于这本书的内容,还是比较浅显易懂的,需要在实践中慢慢尝试着去运用,去体会.

基础入门书籍

比较基础的数据分析数据，主要是建立些基本的概念，里面的公式得自己多多推导联系才能加深印象，不过好像有些公式有问题，像第182页的P(L)P(+|L)P(L|+) = -----------------------P(L)P(+|L)+P(-)P(+|~L)原书勘误中说要改成下面的公式， P(L)P(+|L)P(L|+) = -----------------------P(L)P(+|L)+P(~L)P(+|~L)但是我算了算不太正确，P(~L)表示未感染人群，按照例子中计算出应该是1000*(1-1%)=990,再乘以后面的P(+|~L)假阳性 89，乘出来的分母太大了，根本算不出9%，感觉公式应该是P(L)P(+|L)P(L|+) = -----------------------P(L)P(+|L)+P(L)P(+|~L)不知道有没有人算过，一起验证验证

很好的书，体现了统计的思想

看到很多书评说书写的浅，只是简单介绍了一些基本统计的方法。我却不这么认为。虽然和国内的统计学教程比起来，这本书没有那么多公式和理论的完整介绍和推导，但其中对于统计的基本原理以及统计问题的来源场景介绍的非常通透，可以说是国内著作所没有的。我看的是英文版，不知道中文版翻译的如何。但看完之后感觉，作者对于统计本质的理解，要远超过书上介绍的简单公式。透彻的理解一个东西要比死记硬背更重要。另外补充，该书更适合希望运用统计方法去解决实际问题的人读。统计的思想要比记住具体方法更重要!

讲的真的很简单

因为数学功底不深的原因把，通过这本书重温了一些数学概念，比如方差、标准差、相关系数、均方根误差。也学到了几个分析数据的方法，主要是散点图建立两个变量之间的关系，回归线进行预测、误差分析等学会了R的一些用法。因为平时工作接触到数据库比较多，看到数据库那一章节才知道这本书讲得有多浅。这本书文字不多，基本上都是图形，就当是扩充一下知识吧

真正的Head First

这是一本很棒的，不对，是非常棒的数据分析的入门的书，前面有书友说评论这本书说得太简单了，但我觉得作为做来一本非常好的入门的书，也就是真正意义上的深入浅出，要做到两点，一是简单易懂，二是系统全面，而这本书确实很好的做到了这两点的平衡。简单易懂就不多说了，整个书的排版样式虽然有人说占用的空间很大，但是图片和表格确实更容易让人理解。而且在每一章节里面都采用了三折式的表达方式，即引入问题->初步解决->解决不对(或者有新的问题)->再次解决。这种类似侦探小说的写法确实很容易吸引人看下去。其它更多的细节也体现了这一点，读者可以用心体会，其中对我收获最大的是动动笔，建议大家都先自己做做再看答案，收获会更大一些。关于系统全面，整个书从数据分析的基本过程：确定问题->分解问题和数据->评估数据和问题->组合产生结论开始。比较系统全面的介绍了数据分析基本概念以及做数据分析的一些理念和主要方法，如实验、假设校验，启发式的做法，合理的误差。虽然每一部分都很简单，如优化只有线性规划，图形表示也只有散点、直方等常见的图，回归也是主要介绍了线性回归，好像数学都只介绍到了线性这个级别。不过这本书最系统的在于培养或者说希望介绍的数据分析的系统性在于，让你知道什么是数据分析，数据分析能够采用哪些方法(数学的、非数学的)，而且不是为了数据分析而分析，关键在于心智模型，在很多时候，数据分析是为了解决实际问题，在无法做到理想的分析时，如何退而求其次来转化并解决实际问题。这部分内容在我看来是这本书当得起深入浅出这四个的真正关键所在。书的主要内容fitree已经介绍过了，就不再一一详述，说一些各章节的主要感受，以供后来者参考。第3章，最优化里面提到的最优化的结果出来以后，市场上根本卖不动。启示：1 数学最优的东西并不一定是实际最优的，在优化的过程中，实际的因素远比数学本身重要，适度可行的优化比数学上最优更有意义2 优化模型本身一般来说很难完全与现实世界一致，那么优化更重要的不断将结果与现实做比较，从而校正本身，能用的才是好的。第5章启示：1 实际问题的分析可以简单并凑效2 更多的信息收集才是王道第8章启示：在无法采用大量的数据来证明自己的观点时，采用简单的启发式效果可以以一种简单的方式达成目标第9-11章：这本书里面最不适合的案例可能就是这个了，感觉与实际情况很不符合，不过瑕不掩瑜，只是为简单的说明线性回归和误差的问题。其它的就没有什么了，总之，这是一本好书，哪怕你看完一遍以后再也不看了，也值得花一两个小时好好读一读。

很好的入门书

本身工作涉及到数据分析相关的内容最大感觉就是分析问题，通过数据解决问题的思想和统计学的理论知识联系在了一起。这个正是自己欠缺的。第一.分解数据（数据是如何收集（数据不仅仅是数字，还包括其他信息）确定问题 -分解问题-评估分析（自己介入，心智模型）-给出结论随时会有新的数据来到第二.最优化理论的最优化（问题？）模型不是完美的，是最有用的。根据实际情况给理论模型加上约束条件第三.数据图形化比较，数据，变量第四.假设检验1.假设各种预期情况2.列出证据3.联系情况和证据4.证伪法5.诊断性的证据6.证明预期情况强弱第五贝叶斯统计 p(ab)=p(a)*p(b/a)=p(b)*p(a/b)p(b/a)=p(b)*p(a/b)/p(a)p(a)=p(a全）=p(a（b1+b2.。。bi))=p(ab1)+p(ab2)...p(abi)1.根据已知的情况，和普遍的规律推到未知的概率随时加入新情况1.已经发生的情况2.普遍的规律3.新的条件出现了4.预测

不值得买

书中有一个讲条件概率的地方,其中的公式看了半天就是看不懂,我怀疑这里有很大的印刷或翻译错误我自己是对条件概率比较熟悉的,才会发现有bug,如果看书的人本生不熟悉条件概率的话,会被误导的还有这本书讲解的东西比较简单,其中只有几个关键点挺有价值,但是却用了这么长的篇幅,推荐快速阅读即可,看完这本书学到的东西并不多.head first 的书里我个人还是觉得只有讲设计模式的那本很不错, 除此之外我还买了一本html的和一个软件工程的,这两本都还行,但是这本数据分析的相比起来就不怎么样了,而且发现多处错误的地方.总结是,如果你能看懂设计模式的那一本,那么就不要买这一本~

深入不够，浅出做的不错。适合技术人员与业务人员作为统计学入门读物来阅读

《深入浅出数据分析》是美国O’REILLY出版社的“深入浅出”系列之一。这个系列的特点是花了不少心思琢磨如何让读者更舒服地阅读、记住书中更多内容，书虽然都比较厚，但是插图非常多。插图与正文经常混在一起，没有明显的界限。读起来确实比较轻松，相对文字多图少的书来说，也确实更容易记住书中的内容。由于图多字少，读起来很快，也能让人感觉比较有成就感。不过这个系列的书都比较贵。这本书的主要内容我认为是统计学入门。不懂技术但是用过excel的人就可以看。讲了讲统计学的基本概念和贝叶斯统计、直方图、回归、误差等概念，使用了excel和一个专门的统计工具R做演示。作者比较推荐R。因为这个工具在统计学应用方面比excel更灵活。是一个开源软件，还有相关的社区在为这个软件不停的增加功能。如果愿意继续学习统计学，作者推荐同系列的《Head First Statistics》也就是“深入浅出统计学”，不过目前还没有中译本。

总体来说还可以

head first的名头很大, 相信原本应该不错翻译的总体来说还可以, 可以看懂但是翻译过程中存在不少问题, 没有看原版, 从字面上理解的.比如有一段对话:xx提出了第二个问题回答中有一句: 这个最后一个问题是一样的(大概是这样, 原话不记得了, 书没在身边)试想, 你和别人聊天的时候, 你一开始能知道别人的最后一个问题么?很明显这里原单词应该为last 而不应该翻译为最后一个, 应该是上一个另外在有一章计算是否得了蜥蜴流感的计算上也存在计算错误,请译者和校对能够细心一些

阅读体验十分愉悦，适合数据分析入门！

今天终于将hfda(书名简称）看完了，读完hfda后，我脑中可以回想的名词有：散点图，直方图，线性规划，线性回归，均方根，数据处理，关系数据库，假设检验，启发式分析，对照实验，合理的假设，数据可视化，方差，均值，主观概率，贝叶斯概率，R，Excel。上面这些名称，有些理解的比较深刻（平时会遇到），有些理解的不够深刻，因为平时的生活和工作中没有遇到。但是，以后如果遇见，也会觉得这些概念亲切，这也就足够了。这两本书的联系还是比较大的，内容有呼应，写得很简单。推荐作为数据处理相关工作的入门书籍。具体这两本书的阅读顺序，个人觉得没有多大关系，读者们可以评直觉和兴趣决定。接下来，需要将数据分析运用到实战中了，早就迫不及待了，吼吼~~记录一下读此书的背景本人是IT民工，平时很忙，一般抽晚上和周末阅读。从2012年12月1日分以来到今天（2012年12月25日），先后看了《Head First Statistics》（后面简称hfs）和这本书。为什么会读两本书呢？因为最近本人想转型，前面提到了本人是IT民工，主要开发公司内部的研发支撑系统，感觉不是个人兴趣所在。由于工作原因，接触到了数据分析挖掘领域，感到有兴趣(从读书时代，我就喜欢将数学理论应用到实践中），所以抽业余时间学习相关内容，希望不久的将来可以转型进入数据分析挖掘领域，做相关系统开发。

信息的价值

这个月因为数学建模的原因，看了几本数理统计的书和学习了一些知识。看的书是《深入浅出统计学》、《R语言实战》和《深入浅出数据分析》，都是head first 系列。当年初学html和设计模式也是看《Head First HTML and CSS》和《深入浅出设计模式》。对于head first系列，本人不是很喜欢，style不太适合我。最一开始看的是设计模式，貌似它也是以这本书兴家，理所当然这本书是很好的。但是其他于我而言，知识量太少了，加之很多冗余信息，信噪比太低。基本可以一翻而过，而且没有再读的必要，读完真的可以扔了。当然，对于完全没有基础的初学者，以轻松的方式了解些整个学科的基本名词和架构也是不错的。学习过程中，感受最深的依然是贝叶斯定理！！！早在高中时闻其大名，并在《暗时间》中不知甚解地看过，直到现在也曾在一些文章中看过有关知识及其应用，最近也看过好几本数理统计书的介绍，竟然也砍获甚少，依然不得要领。虽说本质上就是逆概问题和公式，看起来很简单，但是在自然科学领域应用范围极其广泛，尤其是在机器学习和人工智能方面，同时理论本身蕴含了深刻的思想。或者我还需要时间去让它在脑子里消化，再去看看专门介绍其理论的书,如A_First_Course_in_Bayesian_Statistical_Methods。大数据和数据挖掘（分析），是近年来热门的话题，R语言好像也因此如火中天。其实依我所见，信息（数据）从有生命开始，就至为重要。在这个世界上，不论是茹毛饮血的时候，还是信息爆炸的现代，获得了所有信息，你就可以占尽优势，主宰一切。只不过是在信息时代，寻找发现有效信息有如大海捞针，才突显信息的价值。=================================================本来没有打算这些可有可无的书也写书评的，可是翻阅以前的总结记录时，猛然发现自己所写的一条：“方法：每看一本书，摘抄，先独立思考，再写书评，读书笔记；”“书写是为了更好的思考”，自觉对一些书籍缺少了总结及反思，以至记忆不深。我觉得写文章和写代码都是愉悦的过程，在夜阑人静的时刻，轻放一首柔情似水的音乐，伴随着键盘的敲击声，细细享受与心灵的对话。写的东西得到不少人谬赞，自认为写时都只是大概在心中构思，写时随心所欲，兴致之处，倾洒而出。常觉有文不达意之处，便要苦思良久，再三删改，有时甚至不能写下去，便有好几篇中途夭折的文章。

这真的只是一本超级入门书

这真的只是一本超级入门书，主要让新人了解一些数据分析的应用、思路和方法吧。按照每一章的内容，我总结了一下（好像跟章节标题差不多:-)）1. 假设是否正确2. 细分，对照组实验3. 线性规划4. 多因素对比及展现5. 假设证伪，可能性星级评分6. 贝叶斯7. 量化可能性及展现8. 合理选择表达方式（量化、均值/方差，修正）9. 直方图统计分布10. 线性回归11. 误差量化（分段回归，降低误差）12. 数据库13. 数据整理（分隔符及多余字符处理）使用的软件环境为 Excel 及 R.

数据分析的入门极品，但真的很入门

读起来的感觉是字大行稀，到处都是图片，说起来，这也是headfirst系列的卖点。这本书，相当容易理解，哗哗哗的，几百页就过去了。如此厚的一本书，最多1，2个小时就能看完。对于之前全都是自己瞎摸瞎撞的搞数据分析的我来说，颇有醍醐灌顶之感。问题是，真的太浅了，浅到了根本没有必要读第二遍的地步，更不用说时不时的翻阅了。是本很好的书，但看过之后，这本书就真一文不值了……

十分适合且仅仅适合入门

数据分析的过程、基本技术讲的很清楚，读完之后对各种基本概念都会很明白。各种技术都有涉及，虽然不清楚但也足以显示这种技术的特性。例子比较有意思，印象比较深的是计算流行病的概率、判断俄国经济形势。浅显易懂，看过一遍就可以了。对于入门书，实在不能在要求什么了

右侧的亚马逊购买链接错了

找了很久数据分析方面的书，在知乎里看到有人推荐，所以来了，准备拜读。点进去之后是这本书《Head First PHP & MySQL(中文版) 》，大家注意。实际的链接应该是http://www.amazon.cn/%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90-%E8%BF%88%E5%85%8B%E5%B0%94%E2%80%A2%E7%B1%B3%E5%B0%94%E9%A1%BF/dp/B00A3XYY2E/ref=sr_1_1?s=books&ie=UTF8&qid=1383100954&sr=1-1&keywords=%E6%B7%B1%E5%85%A5%E6%B5%85%E5%87%BA%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90

深入浅出数据分析下载精选章节试读

《深入浅出数据分析》书评

类似图书

相关图书推荐