出版社:清华大学出版社
出版日期:2013-2-22
ISBN:9787302299547
作者:张文彤,钟云飞
页数:501页
章节摘录
版权页: 插图: 截尾均数(Trimmed Mean):由于均数较易受极端值的影响,因此可以考虑按照一定比例去掉两端的数据,然后再计算均数。如果截尾均数和原均数相差不大,则说明数据不存在极端值,或者两侧极端值的影响正好抵消。常用的截尾均数有5%截尾均数,即两端各去掉5%的数据。 其他集中趋势描述指标:除了上述最常用的几种指标外,还会遇到众数、调和均数等,前者是指样本数据中出现频次最大的那个数字,后者是指观察值X倒数之均数的倒数,这些指标的实际应用都比较少见。 2.离散趋势的描述指标 显然,仅仅反映数据的集中趋势是远远不够的,还要反映数据的离散趋势,即数据的波动范围,描述该趋势的统计量称为尺度统计量(Scale Statistic),常用的尺度统计量有标准差、方差、四分位间距等。 全距(Range):全距又称为极差,即一组数据中最大值与最小值之差,它是最简单的变异指标,但因其过于简单,因此一般只用于预备性检查。 方差(Variance)和标准差(Standard Deviation):总体和样本的标准差分别用σ和s来表示,方差即标准差的平方,这两个指标是应用最广泛的离散程度描述指标,由于标准差和方差的计算利用到每个原始变量值,所以它们反映的信息在离散指标中是最全的,因此也是最理想、最可靠的变异描述指标。但也正是由于标准差和方差的计算用到每一个变量值,所以它们会受到极端值的影响,当数据中有较明显的极端值时不宜使用。实际上,方差和标准差的适用范围应当是服从正态分布的数据。 百分位数、四分位数与四分位间距:百分位数(Percentile)是一种位置指标,用Px表示。一个百分位数Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100—x)%的观察值比它大。前面学习过的中位数实际上就是一个特定的百分位数,即P50。除中位数外,常用的百分位数还有四分位数,即P25、P50和P75分位数的总称。这3个分位数正好能够将总体单位按标志值的大小等分为四部分,且P25和P75这两个分位数间包括中间50%的观察值,因此四分位间距既排除了两侧极端值的影响,又能够反映较多数据的离散程度,它是当方差、标准差不适用时较好的离散程度描述指标。 变异系数(Coefficient of Variation):当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲不同,直接使用标准差来进行比较不合适,此时就应当消除测量尺度和量纲的影响,而变异系数可以做到这一点,它是标准差与其平均数的比。CV显然没有量纲,同时又按照其均数大小进行了标准化,这样就可以进行客观比较了。
内容概要
张文彤,博士,数据挖掘、市场研究、统计软件教学与应用领域专家,现任全球第八大市场研究集团INTAGE中国公司全国技术总监。曾在复旦大学任教数载,期间协助SPSS在中国建立并完善了其培训体系,是国内知名的SPSS培训教之一。在数据挖掘、市场研究、医药数据分析等领域均经验丰富,曾负责为知名跨国公司完成了中国城市女性市场细分模型、销量预测模型、商圈选址模型等各类项目,并协助完成多项IT、电信、税务、银行等行业的数据挖掘项目。 钟云飞,资深数据分析专家,拥有超过10年的统计分析与数据挖掘在各行业的软件应用及咨询经验,历任SPSS、SAS软件公司首席咨询顾问,目前在国际商业机器(中国)有限公司软件部工作,从事SPSS软件企业应用的推广工作。主要关注统计分析与数据挖掘在银行、电信、政府、保险、零售等行业的应用实践,致力于使用数据分析方法帮助企业和政府组织从数据中获取有价值的信息从而提高管理水平。
书籍目录
第一部分 spss数据分析基础
第1章 数据分析方法论简介
1.1 三种数据分析方法论
1.2 crisp-dm方法论介绍
第2章 数据分析方法体系简介
2.1 统计软件中的数据存储格式
2.2 数据的统计描述与参数估计
2.3 常用假设检验方法
2.4 多变量模型
2.5 多元统计分析模型
2.6 智能统计分析/数据挖掘方法
第3章 ibm spss statistics操作入门
3.1 案例背景
3.2 数据文件的读入与变量整理
3.3 问卷数据分析
3.4 项目总结和讨论
第4章 ibm spss statistics操作进阶
4.1 案例背景
4.2 问卷录入
4.3 问卷质量校验
4.4 问卷数据分析
4.5 项目总结和讨论
第5章 ibm spss modeler操作入门
5.1 ibm spss modeler概述
5.2 ibm spss modeler相关操作与技巧
5.3 ibm spss modeler功能介绍
5.4 案例分析:药物选择决策支持
5.5 如何进一步学习ibm spss modeler
第二部分 影响因素发现与数值预测
第6章 酸奶饮料新产品口味测试
研究案例
6.1 案例背景
6.2 数据理解
6.3 不同品牌的评分差异分析
6.4 两因素方差分析模型分析
6.5 分析结论与讨论
第7章 偏态分布的激素水平影响因素分析
7.1 案例背景
7.2 数据理解
7.3 对因变量变换后的建模分析
7.4 秩变换分析
7.5 利用cox模型进行分析
7.6 项目总结与讨论
第8章 某车企汽车年销量预测案例
8.1 案例背景
8.2 数据理解
8.3 变量变换后的线性回归
8.4 曲线拟合
8.5 利用非线性回归进行拟合
8.6 项目总结与讨论
第9章 脑外伤急救后迟发性颅脑损伤影响因素分析案例
9.1 案例背景
9.2 数据理解
9.3 构建二分类logistic回归模型
9.4 利用树模型发现交互项
9.5 使用广义线性过程进行分析
9.6 项目总结与讨论
第10章 中国消费者信心指数影响因素分析
10.1 案例背景
10.2 数据理解
10.3 标准glm框架下的建模分析
10.4 多元方差分析模型的结果
10.5 最优尺度回归
10.6 多水平模型框架下的建模分析
10.7 项目总结与讨论
第三部分 信息浓缩、分类与感知图呈现
第11章 探讨消费者购买保健品的动机
11.1 案例背景
11.2 数据理解
11.3 利用因子分析进行信息浓缩
11.4 基于因子分析结果进行市场细分
11.5 项目总结与讨论
第12章 1988年汉城奥运会男子十项全能成绩分析
12.1 案例背景
12.2 数据理解
12.3 利用因子分析进行信息浓缩
12.4 主成分回归
12.5 将主成分回归方程还原回原始变量的形式
12.6 项目总结与讨论
第13章 打败sars
13.1 案例背景
13.2 数据理解与数据准备
13.3 “非典”信息关注倾向的多维偏好分析
13.4 突发事件险种购买倾向的多重对应分析
13.5 “非典”对未来生活方式的影响
13.6 项目总结与讨论
第14章 住院费用影响因素挖掘
14.1 案例背景
14.2 数据理解与数据准备
14.3 采用聚类分析寻找费用类型
14.4 住院费用影响因素的神经网络分析
14.5 不同疗法疗效与费用比较的神经网络分析
14.6 项目总结与讨论
第四部分 数据挖掘案例精选
第15章 淘宝大卖家之营销数据分析
15.1 案例背景
15.2 利用rfm模型定位促销名单
15.3 寻找有重购行为买家的特征
15.4 总结与讨论
第16章 超市商品购买关联分析
16.1 案例背景
16.2 数据准备
16.3 商品购买关联分析
16.4 结果应用
第17章 电信业客户流失分析
17.1 案例背景
17.2 商业理解
17.3 数据理解与数据准备
17.4 建立模型与模型评估
17.5 模型的应用及营销预演
17.6 总结与讨论
第18章 信用风险评分方法
18.1 案例背景
18.2 商业理解
18.3 数据理解与数据准备
18.4 建立模型与模型评估
18.5 对若干问题的说明
第19章 医疗保险业的欺诈发现
19.1 案例背景
19.2 商业理解
19.3 数据理解与数据准备
19.4 建立模型
19.5 结果发布
19.6 进一步阅读
第20章 电子商务中的数据挖掘应用
20.1 案例背景
20.2 数据理解
20.3 数据准备
20.4 建立模型与模型发布
20.5 进一步阅读
附录
附录a 本书光盘内容介绍
附录b spss软件的安装与激活
附录c 书中统计方法、模型与知识点
索引
附录d ibm spss statiscs函数一览表
附录e ibm spss modeler节点功能简介
参考文献
后记
编辑推荐
《IBM SPSS数据分析与挖掘实战案例精粹》适合从初学者到专家各个级别的数据分析人员阅读,尤其适合于以下读者群:需要提升实战能力的数据分析专业人员;在市场营销、金融、财务、人力资源管理中需要应用数据分析的人士;从事咨询、科研等工作的专业人士;同时也适合于各专业的本科和研究生作为学习数据分析应用的参考书。
作者简介
《IBM SPSS数据分析与挖掘实战案例精粹》以IBM SPSS Statistics 20.0和IBM SPSS Modeler 14.1为工具,提供了医疗、金融、保险、汽车、快速消费品、市场研究、互联网等多个行业的数据分析/挖掘案例,基于实战需求,详细讲解整个案例的完整分析过程,并将模型和软件的介绍融于案例讲解之中,使读者在阅读时能突破方法和工具的局限,真正聚集于对数据分析精髓的领悟。《IBM SPSS数据分析与挖掘实战案例精粹》所附光盘包括案例数据和分析程序/流文件,读者可完整重现全部的分析内容。
IBM SPSS数据分析与挖掘实战案例精粹下载 精选章节试读 更多精彩书评