《统计学》章节试读

出版日期:2013-3-1
ISBN:9787503767890
作者:吴喜之
页数:219页

《统计学》的笔记-第107页 - 第七章变量之间的关系：回归和分类

一个模型存在的首要条件是可以很方便地计算。在前计算机时代，人们必须对数据做出许多主观假定，才能够进行对数据做基于模型的计算和判断，而且也只能处理少量数据。
人类能力的局限性使得完全准确的模型时不存在的。
经典的统计模型是可以用数学公式描述出来，但是，人们有理由怀疑这些有限的公式对于描述复杂的自然和社会现象的可靠程度。随着计算机的发展，就产生了用计算机算法来确定的基于数据本身而不是数学假定的模型，模型也就变得越来越复杂，可处理的数据量也越来越大，这些模型包括机器学习或数据挖掘领域所使用的众多的模型。
-----------------------------------------------------------------------------------------------
#这里啰嗦一小段#
大家会经常听到“假设检验”这个名词，同时也会听到“显著性”这个名词，到底是啥嘞？
我们拿到一组数据，看了个大概，有了个模模糊糊的感觉，接下来就是要检验下这个感觉是不是正确的。假设检验或者说显著性检验，就是在“待检验假设为真”的情况下用来计算以往观测数据数据发生的概率。当这个概率很低时，我们默认是无法得到这些数据的，也就是说我们的前提条件是有问题的——假设不成立。
在这个概念的早期，“significant”这个词只是用来指“概率低到可以被拒绝的程度”，如果数据能够用来拒绝某个假设，那么它就是显著的。所以”significant”的现代语义往往会使得我们感到迷惑。不得不说天下教科书大部分都是我想当然，然后大家任意抄。
这里注意，假设检验只是提供了一种“拒绝假设的途径”，不能因为这个假设和已有数据之间没有矛盾就接受这个假设。例如：当选定显著性水平为0.1时，即假设为真前提下出现已有数据的概率低于10%的话，我们就拒绝假设。
再啰嗦一点，何为p值呢？它也是一种概率——在假设为真的情况下你拒绝原假设的概率有多大？如果这个值非常小，也就是说你可以放心拒绝，因为犯错的概率很低嘛~
-----------------------------------------------------------------------------------------------
#线性相关#
1.Pearson's correlation coefficient
在数据来自正态总体的假设下，有相关系数的检验（r是否为0）
2.Kendall's T
不用假设总体的分布，Kendall的相关系数是一个非参数的度量，不依赖变量背后的总体分布。
3.Spearman rank correlation coefficient
-----------------------------------------------------------------------------------------------
来看组数据：我们看下这8个例子啊~ 第一幅图假设检验的结果告诉我们要拒绝“线性无关”的假设，也就是它们是

统计学下载

《统计学》章节试读

类似图书

相关图书推荐