利用Python进行数据分析

出版社:机械工业出版社
出版日期:2013-11-18
ISBN:9787111436737
作者:Wes McKinney
页数:464页

内容概要

Wes McKinney 资深数据分析专家,对各种Python库(包括NumPy、pandas、matplotlib以及IPython等)等都有深入研究,并在大量的实践中积累了丰富的经验。撰写了大量与Python数据分析相关的经典文章,被各大技术社区争相转载,是Python和开源技术社区公认的权威人物之一。开发了用于数据分析的著名开源Python库——pandas,广获用户好评。在创建Lambda Foundry(一家致力于企业数据分析的公司)之前,他曾是AQR Capital Management的定量分析师。

书籍目录

目录
前言 1
第1章 准备工作 5
本书主要内容 5
为什么要使用Python进行数据分析 6
重要的Python库 7
安装和设置 10
社区和研讨会 16
使用本书 16
致谢 18
第2章 引言 20
来自bit.ly的1.usa.gov数据 21
MovieLens 1M数据集 29
1880—2010年间全美婴儿姓名 35
小结及展望 47
第3章 IPython:一种交互式计算和开发环境 48
IPython基础 49
内省 51
使用命令历史 60
与操作系统交互 63
软件开发工具 66
IPython HTML Notebook 75
利用IPython提高代码开发效率的几点提示 77
高级IPython功能 79
致谢 81
第4章 NumPy基础:数组和矢量计算 82
NumPy的ndarray:一种多维数组对象 83
通用函数:快速的元素级数组函数 98
利用数组进行数据处理 100
用于数组的文件输入输出 107
线性代数 109
随机数生成 111
范例:随机漫步 112
第5章 pandas入门 115
pandas的数据结构介绍 116
基本功能 126
汇总和计算描述统计 142
处理缺失数据 148
层次化索引 153
其他有关pandas的话题 158
第6章 数据加载、存储与文件格式 162
读写文本格式的数据 162
二进制数据格式 179
使用HTML和Web API 181
使用数据库 182
第7章 数据规整化:清理、转换、合并、重塑 186
合并数据集 186
重塑和轴向旋转 200
数据转换 204
字符串操作 217
示例:USDA食品数据库 224
第8章 绘图和可视化 231
matplotlib API入门 231
pandas中的绘图函数 244
绘制地图:图形化显示海地地震危机数据 254
Python图形化工具生态系统 260
第9章 数据聚合与分组运算 263
GroupBy技术 264
数据聚合 271
分组级运算和转换 276
透视表和交叉表 288
示例:2012联邦选举委员会数据库 291
第10章 时间序列 302
日期和时间数据类型及工具 303
时间序列基础 307
日期的范围、频率以及移动 311
时区处理 317
时期及其算术运算 322
重采样及频率转换 327
时间序列绘图 334
移动窗口函数 337
性能和内存使用方面的注意事项 342
第11章 金融和经济数据应用 344
数据规整化方面的话题 344
分组变换和分析 355
更多示例应用 361
第12章 NumPy高级应用 368
ndarray对象的内部机理 368
高级数组操作 370
广播 378
ufunc高级应用 383
结构化和记录式数组 386
更多有关排序的话题 388
NumPy的matrix类 393
高级数组输入输出 395
性能建议 397
附录A Python语言精要 401

作者简介

【名人推荐】
“科学计算和数据分析社区已经等待这本书很多年了:大量具体的实践建议,以及大量综合应用方法。本书在未来几年里肯定会成为Python领域中技术计算的权威指南。”
——Fernando Pérez 加州大学伯克利分校 研究科学家, IPython的创始人之一
【内容简介】
还在苦苦寻觅用Python控制、处理、整理、分析结构化数据的完整课程?本书含有大量的实践案例,你将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题。
由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。
•将IPython这个交互式Shell作为你的首要开发环境。
•学习NumPy(Numerical Python)的基础和高级知识。
•从pandas库的数据分析工具开始。
•利用高性能工具对数据进行加载、清理、转换、合并以及重塑。
•利用matplotlib创建散点图以及静态或交互式的可视化结果。
•利用pandas的groupby功能对数据集进行切片、切块和汇总操作。
•处理各种各样的时间序列数据。
•通过详细的案例学习如何解决Web分析、社会科学、金融学以及经•济学等领域的问题。


 利用Python进行数据分析下载 更多精彩书评



发布书评

 
 


精彩书评 (总计5条)

  •     看了小部分,翻译文笔还比较顺畅,具体有没错误暂没注意到。原作者写的还到位。Python在网络与科学计算等领域的发展风生水起,得益于开源,无论是Numpy, Pandas, Scipy, Matplotlib, Scikit-learn, NLTK, 还是Django.
  •     书中很多程序都已经不能用了,好在译者也作出了比较全面的标注,有些地方的标注还很幽默(如P304的译注2)。 这是软件包的作者亲自写的书,能写代码,还能写书,真是太强大了。书完整翻了一遍,不能掌握全部,但已有初步印象。工作学习中遇到要使用时还会时不时拿出来翻阅。
  •     一个入门级的介绍性书籍,涉猎的内容相对比较多,但相对较浅。建议初学者来了解书中涉及到的numpy, panda, Ipython,matlibplot,以及如何使用这个东西来进行数据处理。但所有的内容涉及的相对比较少,实际应用中需要去尝试更多的东西。书中的例子也比较易懂。

精彩短评 (总计50条)

  •     有时间会结合应用好好再读一遍。
  •     这种书,最好有数据时的再去操作效果好些,一次性读完的话容易忘记。对于numpy、pandas有一些介绍。总感觉R进行数据处理还是更和谐些。
  •     Pandas作者详实细致介绍了Python在数据处理方面的工作方式和方法,确实不同于我常用的SAS。学习期间,常常惊叹于Python的强大,后悔没有早点接触,非常认同那句话“人生苦短,我用Python”,而想要用Python进行数据处理,本书是目前的不二选择!
  •     该书很需要更新,pandas进化太快了
  •     入门书籍,pandas,numpy
  •     罗列各种工具,不具备系统性
  •     陆陆续续花了半年读了下来,实践下来发现,恩,貌似还用不着(逃。。。
  •     翻一遍学习下
  •     那种读完之后,在工作中天天当字典来查的书。但貌似pandas更新很快,rolling_mean这种写法很快不支持了。搞得我天天加代码屏蔽warnings。
  •     对于快速入门还可以
  •     写得很清楚!另外第12章回应了我的很多好奇。冲着本书作者是pandas作者本人,加一星。
  •     pd的作者写的 内容作为入门很不错 要是排版更清晰就更好了
  •     学pandas如果英文有障碍,则这本书可能是最佳的了;英文没障碍就还是官方文档最佳。pandas的官方文档也很给力,提供odf下载,打印出来看不用对屏幕,很多库都没那么厚道,非得在线看。
  •     比较实用也比较易懂
  •     pandas库的操作指南,结合ipython;不过数据分析的坑太大了,其重点不再编程语言上,我还是老老实实学python后端吧
  •     虽然这本书是讲Pandas的,但是对我印象最深刻的还是他关于NumPy的章节,比其他很多关于NumPy的资料好多了。
  •     chapter 3 主旨:ipython 很好,大家快来用啊~2333 numpy begin~ 不过听说这是pandas的实验手册? 对了,译者吐槽也是醉醉哒
  •     工具书,有点枯燥,不适合入门
  •     不错。
  •     pandas 工具书,如果手上有数据,用起来会很爽
  •     书挺不错的,算是pandas的入门吧
  •     介绍性质
  •     这本书是Pandas的模块作者写的书,比较全,也很好入门。附录中的python语言精要部分,适合多看几遍。里面言简意赅的总结了python这门语言最高频使用到的一些语言要点。
  •     pandas作者
  •     入门书,思路最重要,等到spark的时候也是df这一套。除了里边给的示例数据下载不方便外没啥毛病。
  •     入门级别的书。大概稍微懂点python都可以直接来看。其实主要就讲了两部分,numpy跟pandas,而且讲的还不全。
  •     无论是作者还是译者,一定是敲了足够多的代码,才有功底写(译)成了该书。 简单概括,IPython和pandas都值你花时间得去试试。 最后,引自本书P401 知识是一座宝库,而实践就是开启这座宝库的钥匙。----Thomas Fuller
  •     只是看书了,没有写代码。用的 不多。
  •     Pandas使用手册啊.可以一翻
  •     介绍 numpy,scipy,pandas, matplot的. 必读.
  •     2017第29本,这本书完全可以不看,pandas和canopy都改得面目全非了,完全不能使用;1. 上手就在知乎上找几个案例照着做几遍就好 2. 查函数清单去官方手册上找
  •     打吐了啊再来一遍 2017.3.6 又重新打了一遍 彻底作为工具书使用
  •     Python涉及到的,可以做的绝对不止这些,但是如果只是要学会数据分析大概也是够了。这本书最棒的一点就是有实际例子且能找到对应的源数据文件,否则都不想动手吧
  •     pandas 作者的书,当然主要都是围绕 pandas 讲的
  •     我的Pandas数据分析入门书,唯一的缺点可能是赶不上库的更新速度,纸质书的通病
  •     科普类给个大框架很给力。
  •     混乱!!!
  •     pandas作者写的。浏览过一遍,现在发现pandas数据框已经成为很多公共接口的标准或默认数据类型了。这本书非常适合后续查阅。
  •     在看的时候无时无刻都能感受到译者在翻译的时候的诚意。其实这个书更适合当做工具书来看。
  •     较为基础
  •     pandas的作者,python Data Science入门书籍
  •     作为学习数据分析入门书很不错
  •     pandas,实际过程我基本靠百度和pandas官网document 0.19.1搞定了全部,因为实在抽不出时间完整地先学再用。不过看此书收获更大,知识成体系。另外我不接受IPython的[In]、[Out]格式,使用纯python+库+Sublime
  •     读的最久最认真的一本,感觉看完这一本,知识点全部掌握的话,对于数据挖掘方向的Python知识应该够用了,力荐!
  •     不管怎么说,数据仓库与数据挖掘这门课算是告一段落了,一天写了32页论文。。。累
  •     写的不错,看完基本就会用pandas了
  •     pandas使用说明与示例, 就是版本有点老了
  •     作者是pandas作者,之前在AQR工作的
  •     不错的入门书,对各个库都有简要介绍。可作为panda库的工具书。
  •     本书作者也是pandas的作者,而在数据分析、数据处理中,pandas是使用频率非常高的一个库,于我现在的工作而言,90%都是使用它。本书主要介绍了pandas 和numpy两个库的详细用法,也涉及到一点图表的制作,但内容很。由于pandas在不断更新,所以书中的用法有些是已经被丢弃了的。在使用的时候会有提醒。书中讲到了很多各个模块、各个函数的用法。读者需要根据自己的需要去学习和研究。最后,本书是难得的少见的python数据分析方面的好书了
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024