出版社:图灵教育
出版日期:2013-5
ISBN:9787115317377
作者:Allen B.Downey
页数:160页
章节摘录
版权页: 插图: 习题3—1按照院长的方法构建这些数据的PMF,并计算均值。因为数据是分组的,所以可以用每组的中点值。 然后再从学生的角度来构建选课人数的分布,并计算均值。假设想要得到学校每门课程选课人数的分布情况,但又无法从院长那里得到可信的数据。其中一种解决办法是随机选择一组学生,然后询问他们所选课程的上课人数。然后可以根据调查的结果计算出PMF。这个结果是有偏差的。因为选修人数多的课程会被过采样,所以在估计选课人数真实分布时要对观察到的分布做一个合适的变换。编写一个UnbiasPmf函数,参数是观察值的PMF,返回据此估计出的表示选课人数分布的Pmf对象。 答案可以从http://thinkstats.corn/class—size.PY下载。习题3—2 在大部分的田径比赛中,选手都是同时出发的。如果跑得快,那么在比赛刚开始的时候会超过很多人,但在跑出几英里后你就会发现,周围都是跟你速度差不多的选手。 我第一次参加长跑(209英里)接力时,注意到一个奇怪的现象:当我超过其他选手时,我会跑得更快;当其他选手超过我时,他们通常也会跑得更快。 一开始,我觉得速度的分布是两级分化的:速度快和速度慢的人都很多,但跟我速度差不多的人应该不多。 但随后我发现我的选择是有偏差的。这个比赛有两个特点:分阶段出发,不同的队伍出发时间也不同;此外,同一个队伍中选手的水平也参差不齐。 因此,选手在比赛道路上所处的位置与其速度和名次没有什么关系。在我开始跑时,我周围的参赛选手基本上是随机的。 那这其中的偏差来自何处?在整个比赛过程中,超过其他选手或者是被其他选手超过的概率跟选手间速度差异的大小是有关的。为什么?想想最极端的情况。如果我跟另外一个比赛选手的速度完全一样,那我们就不可能超过对方,也不可能被对方超过。如果某个选手跑得特别快,在我跑的过程中跑完了全程,那这位选手肯定会在某个地方超过我。写一个BiasPmf函数,其参数是表示选手速度实际分布的Pmf和观察者的速度,返回值是一个新的Pmf,表示其他选手相对观察者的速度分布。 用一般的道路比赛(不是接力赛)的数据测试函数。我写了一个程序读取马萨诸塞州Dedham的James Joyce Ramble一万米比赛的数据,并将每个选手的速度单位转换成m/h。可以从http://thinkstats.com/relay.PY下载这个程序。运行该程序,看看速度的PMF。
内容概要
Allen B. Downey是富兰克林欧林工程学院的计算机科学副教授,曾执教于韦尔斯利学院、科尔比学院和加州大学伯克利分校。他先后获麻省理工学院计算机科学硕士学位和加州大学伯克利分校计算机科学博士学位。Downey已出版十余本技术书,内容涉及Java、Python、C++、概率统计等,深受专业读者喜爱。他的最新Think系列书还有Think Complexity: Complexity Science and Computational Modeling、Think Python。
书籍目录
版权声明
O'Reilly Media, Inc.介绍
译者序
阅读
前言
阅读
第1章 程序员的统计思维
第2章 描述性统计量
第3章 累积分布函数
第4章 连续分布
第5章 概率
阅读
第6章 分布的运算
第7章 假设检验
第8章 估计
第9章 相关性
索引
作者及封面简介
编辑推荐
大数据革命风起云涌。数据分析成为每个浪尖上的舞者的必杀技。而统计思维是数据分析和数据挖掘的根基。每个程序员都应该具备统计思维,看到统计思维:程序员数学之概率统计你已经比别人先行一步。这是一本极为独特的统计思维入门图书。独特的编程视角。对于主要的概率统计概念,作者都给出了开源的代码示例,其新颖独特的讲解方法绝对可以让程序员对概率统计产生更深刻的认识。幽默风趣的示例。你是否一直无法理解蒙提霍尔问题?庞加莱是怎样发现面包商的企图的?作者援引经典问题,帮你打开统计思维。公共开源数据。拿来美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS)中的数据,重用参考代码,立即让自己的代码跑起来。
作者简介
代码跑出来的概率统计问题;
程序员的概率统计开心辞典;
开放数据集,全代码攻略。
现实工作中,人们常被要求用数据说话。可是,数据自己是不能说话的,只有对它进行可靠分析和深入挖掘才能找到有价值的信息。概率统计是数据分析的通用语言,是大数据时代预测未来的根基。
站在时代浪尖上的程序员只有具备统计思维才能掌握数据分析的必杀技。本书正是一本概率统计方面的入门图书,但视角极为独特,折射出大数据浪潮的别样风景。作者将基本的概率统计知识融入Python编程,告诉你如何借助编写程序,用计算而非数学的方式实现统计分析。一个趣味实例贯穿全书,生动地讲解了数据分析的全过程:从采集数据和生成统计量,到识别模式和检验假设。一册在手,让你轻松掌握分布、概率论、可视化以及其他工具和概念。
编写测试代码深入理解概率论和统计学
运行实验检验统计行为特征,如生成服从各种分布的样本
通过模拟理解数学上艰涩的概念
学习贝叶斯估计等实用内容
用Python导入各种来源的数据
运用统计推断解决真实数据问题
《统计思维:程序员数学之概率统计》是一本以全新视角讲解概率统计的入门图书。抛开经典的数学分析,Downey 手把手教你用编程理解统计学。概率、分布、假设检验、贝叶斯估计、相关性等,每个主题都充满趣味性,经编程解释后变得更为清晰易懂。
本书研究数据主要来源于美国全国家庭成长调查(NSFG)与行为风险因素监测系统(BRFSS),数据源及解决方案的相关代码全部开放,具体章节列出了大量学习和进阶资料,方便读者参考。
Allen B. Downey是富兰克林欧林工程学院的计算机科学副教授,曾执教于韦尔斯利学院、科尔比学院和加州大学伯克利分校。他先后获麻省理工学院计算机科学硕士学位和加州大学伯克利分校计算机科学博士学位。Downey已出版十余本技术书,内容涉及Java、Python、C++、概率统计等,深受专业读者喜爱。他的最新Think系列书还有Think Complexity: Complexity Science and Computational Modeling、Think Python。