网络数据的统计分析：R语言实践

出版日期:2016-6-8
ISBN:9787560584780
作者:[美]埃里克•D•克拉泽克,[匈]加博尔•乔尔迪
页数:250页

内容概要

Eric D. Kolaczyk 是波士顿大学数学与统计系的统计学教授与统计学项目负责人，同时是生物信息学项目、系统工程方向以及计算神经科学项目的教职人员。他撰写的以网络为主题的著作不仅发展了统计学的方法与理论，还涵盖了探测计算机网络上的匿名流量模式，预测蛋白质相互作用网络中的生物功能，以及刻画社会网络中行动者群体影响等应用性的工作。他是美国统计协会（American Statistical Association，简称ASA）会士，也是电气和电子工程师协会（Institute of Electrical and Electronics Engineers，简称

IEEE）高级会员。

Gábor Csárdi 是美国哈佛大学统计系的研究助理，获匈牙利罗兰大学计算机科学博士学位。他的研究包括网络分析在生物学与社会科学中的应用，生物信息学与计算生物学，以及图论算法等。他于2005 年创建了igraph 扩展包，此后一直是主要的开发者之一。

书籍目录

译者序

作者简介

第1章 引言

1.1 为什么研究网络？

1.2 网络分析的类型

1.2.1 网络可视化与特征化

1.2.2 网络建模与推断

1.2.3 网络过程

1.3 为什么使用R 进行网络分析？

1.4 关于本书

1.5 关于本书的R 语言代码

第2章 操作网络数据

2.1 概述

2.2 创建网络图

2.2.1 无向图和有向图

2.2.2 图的表示

2.2.3 图的操作

2.3 网络图的修饰

2.3.1 节点、边和图的属性

2.3.2 使用数据框

2.4 关于图

2.4.1 图的基本概念

2.4.2 特殊类型的图

2.5 参考读物

第3章 网络数据可视化

3.1 概述

3.2 图可视化的基本元素

3.3 图的布局

3.4 修饰图的布局

3.5 大型网络可视化

3.6 使用R之外的可视化工具

3.7 参考读物

第4章 网络图特征的描述性分析

4.1 概述

4.2 节点和边的特征

4.2.1 节点度

4.2.2 节点中心性

4.2.3 边的特征

4.3 网络的凝聚性特征

4.3.1 子图与普查

4.3.2 密度与相对频率

4.3.3 连通性、割与流

4.4 图分割

4.4.1 层次聚类

4.4.2 谱分割

4.4.3 图分割的验证

4.5 同配性与混合

4.6 参考读物

第5章 网络图的数学模型

5.1 概述

5.2 经典随机图模型

5.3 广义随机图模型

5.4 基于机制的网络图模型

5.4.1 小世界模型

5.4.2 优先连接模型

5.5 评估网络图特征的显著性

5.5.1 评估网络社团数量

5.5.2 评估小世界性

5.6 参考读物

第6章 网络图的统计模型

6.1 概述

6.2 指数随机图模型

6.2.1 一般形式

6.2.2 模型界定

6.2.3 模型拟合

6.2.4 拟合优度

6.3 网络块模型

6.3.1 模型界定

6.3.2 模型拟合

6.3.3 拟合优度

6.4 潜变量网络模型

6.4.1 一般形式

6.4.2 界定潜变量效应

6.4.3 模型拟合

6.4.4 拟合优度

6.5 参考读物

第7章 网络拓扑结构推断

7.1 概述

7.2 链路预测

7.3 关联网络推断

7.3.1 相关网络

7.3.2 偏相关网络

7.3.3 高斯图模型网络

7.4 网络的层析拓扑结构推断

7.4.1 约束问题：树拓扑结构

7.4.2 树拓扑结构的层析推断示例

7.5 参考读物

第8章 网络图上的过程建模与预测

8.1 概述

8.2 最近邻方法

8.3 马尔科夫随机场

8.3.1 一般形式

8.3.2 自逻辑模型

8.3.3 自逻辑模型的推断与预测

8.3.4 拟合优度

8.4 核方法

8.4.1 设计图上的核函数

8.4.2 图上的核回归

8.5 动态过程的建模与预测

8.5.1 传染病过程示例

8.6 参考读物

第9章 网络流数据分析

9.1 概述

9.2 网络流建模：引力模型

9.2.1 模型界定

9.2.2 引力模型的推断

9.3 网络流的预测：流量矩阵估计

9.3.1 不适定逆问题

9.3.2 层析引力方法

9.4 参考读物

第10章 动态网络

10.1 概述

10.2 动态网络的表示与操作

10.3 动态网络的可视化

10.4 动态网络的特征化

10.5 动态网络建模

参考文献

索引

彩图节选

作者简介

译者序

我们正身处一个网络时代。全球的生产贸易网络深刻改变了我们的物质生活，互联网的普及则让我们身处信息洪流之中。当网络成为我们生活的一部分，我们也成为了网络的一部分。面对相互关联的海量网络数据，置身其中的我们如何认识这个世界？

在这样的背景下，网络科学近年来迅速崛起，横跨数学、物理学、生物学、计算机、社会学、传播学等领域，成了定量研究中的“显学”。通过将复杂系统抽象为节点、边以及它们的属性，网络科学为解析系统特征、建立系统模型和研究系统的动态过程提供了一套简洁优美的方法。研究者掌握了网络科学的思考方式和分析工具之后，通常可以站在一个更为全局的视角审视问题，让多个交叉学科的研究进展为我所用。尽管市场上已经有不少优秀的网络科学著作，我们相信本书仍会给读者带来惊喜。由于网络科学研究者的学科背景不同，多数网络科学著作往往带有强烈的学科视角特色，例如统计物理背景的著作强调网络整体性质的形成机制，社会学背景的著作强调结构指标和社会学理论框架，而计算机背景的著作则强调数据存储、算法实现等。本书及其前身Statistical Analysis of Network Data 从统计学的视角切入，归纳不同学科网络研究中的通用任务，并采用严格的统计学术语进行了表述，这在同类书籍中尚属少见。本书的6至10 章尤其精彩，其中介绍的网络统计模型很多是近五年的研究进展，对网络研究有兴趣的研究生和科研人员可以借此快速了解研究前沿。我们建议读者深入阅读书中的参考文献，以掌握使用统计工具分析网络数据的思路，并理解数据分析方法所隐含的理论假设。

另一方面，本书在讲述统计网络分析时使用了R 语言，主要以igraph和statnet 系列扩展包作为主力分析工具。原书的第二作者正是igraph 扩展包的创建者。相比其他网络分析平台，R 语言自身提供了强大的统计分析功能，所涉及的网络分析扩展包抽象程度更高、封装功能更多，有效节约了研究者构造网络数据结构和算法的时间，使得研究者可以集中精力考虑核心的研究问题。全书采用案例方式讲解统计理论，并提供了相应的分析代码，读者可以仿照书中内容快速上手开始自己的研究。考虑到原书样式和印刷过程，本书在翻译时进行了一些调整，说明如下：

• 本书翻译了整行的代码注释，未翻译代码正文中的字符串，并且保留了原书图片中的英文文字，以确保运行代码后产生相同的可视化结果。

• 书籍内文采用黑白印刷，对理解内容有影响的彩色图片在书末集中进行彩色印刷。事实上，读者可以运行书中代码自行生成多数彩色图片。

• 翻译过程使用R Markdown 写作，并采用了默认的代码格式进行输出，与原书代码格式稍有不同（没有> 和+ 等字符，输出结果使用# 标注），但保留了原书代码的行号方便读者索引查阅。

本书在翻译时力求准确、生动，但由于译者水平和经验有限，翻译不当之处在所难免。为了更好地为各位读者服务，本书在GitHub 建立了对应的翻译页面https://github.com/ complexly/ sand-translation。若您在阅读过程中发现了任何问题，欢迎在GitHub 提交issue 进行交流，或者发送邮件至book@complexly.me，我们将及时把书籍的勘误信息更新在翻译页面上。

最后，本书漫长的翻译出版过程得到了众多好友的帮助，而且绝大部分的交流协作都是在互联网上完成的，本书的诞生正是我们身处网络时代的最好见证。感谢统计之都的魏太云先生为本书介绍翻译出版的渠道，感谢华东理工大学的好友聂春笑、开智社群结识的终身学习者董昊为本书初稿提出的宝贵意见，感谢西安交通大学出版社李颖编辑辛勤细致地审阅校对，没有你们的帮助这本书很难与众位读者见面。同时，也要感谢父母亲友以及石磊老师课题组在翻译过程中的支持，你们的鼓励永远是我继续前进的动力。

李杨

2016 年5 月于清华园

前言

网络和网络分析无疑是近年来定量科学进展最大的领域之一。虽然作为领域起源的社会网络分析可以追溯至20 世纪30 年代，图论研究可以上溯几个世纪，但“网络科学”领域的迅速崛起与普及只是近10 到15 年的事情。通过我们熟悉的互联网、社交网络、病毒营销等途径，网络已经渗透到日常生活的方方面面，而不仅仅是一个研究领域或者一种研究方法了。

数据的度量与分析是网络研究的重要组成部分。因此，在实际应用、研究方法以及理论发展方面，网络分析都很需要或简或繁的各类统计方法。与其他统计学分支一样，网络分析同时包括描述性和推断性的统计方法。使用这些方法可以完成与网络有关的各种任务，包括基本的网络结构可视化与特征化，对网络拓扑的采样、建模与推断，以及对网络上的静态和动态过程进行建模和预测。

当前已经有很多可以进行网络分析的软件，横跨各种平台、编程语言和使用环境。毫无疑问，R 语言社区在网络数据统计分析软件的开发上尤其活跃。写作本书时，已经有几十个具有某些网络分析功能的R 扩展包了。它们可以共同完成网络分析的各类任务：从标准的网络数据操作、可视化与特征化（如igraph、network 和sna 扩展包），到网络建模（如igraph、eigenmodel、ergm 和mixer 扩展包），再到对网络拓扑的推断（如glasso和huge 扩展包）。除此之外，R 的基本扩展包还提供了大量其他的分析工具和函数。

本书的写作目的是为网络数据的统计分析提供一种使用R 语言的、简单易得的入门课程。因此，本书既不是涉及的各种R 扩展包的使用手册，也不打算介绍所涉及主题的详尽概念和技术基础。相反，我们希望在这两者之间寻找一个平衡，并且在最佳阅读体验的基础上，采用（希望是！）最简洁的程度来组织文字。相应地，我们预计本书会被以下人群使用：（1）希望开展网络数据统计分析的统计学者，无论是作为研究方向还是与他人合作，且希望继续使用R 作为分析工具；（2）来自类似定量领域（如计算机科学、统计物理、经济学等）的复杂网络研究者，无论对统计是否熟悉，希望较快掌握R语言中的网络数据统计分析方法；（3）应用领域的实践者，希望涉足与某些特定应用相关的网络分析方法。

总的来说，本书是为定量领域、有网络数据统计分析需求的研究生和科研人员撰写的，但熟悉R 语言的高年级本科生也可以轻松地学习本书的大部分内容。我们预计当前对本书感兴趣的人群不仅包括统计学的读者，还有来自计算生物学、计算机科学与机器学习、经济学、神经科学、计量金融学、信号处理、统计物理以及定量社会科学的研究人员。

很多人在本书写作的各个阶段为我们提供了帮助，在此我们表示衷心的感谢。感谢Springer 编辑团队的热情，他们鼓励我们开始了这个项目，并全程提供了很多反馈意见；感谢波士顿大学2013 年秋季课程Statistical Analysis of Network Data（MA703）的同学们对早期几个章节做出的评价。特别感谢Xinyu Kang、Heather Shappell 和YaonanZhang，他们全程参与了本书第一稿的撰写，仔细阅读每个章节并测试了书中的代码。我们也感谢Christophe Ambroise、Alain Barrat、Mark Coates、Suchi Gopal、Emmanuel Lazega 和Petra Staufer 提供了数据。更广泛地，我们对书中使用的许多R 扩展包的作者一并表示感谢，他们为开发付出了大量的时间和精力。没有他们的工作，本书的广度和范围都会大打折扣。最后，我们向我们的家人表示最深的感谢，感谢他们在写作本书时所给予的爱、耐心与支持。

本书使用的所有代码和数据都包括在R 扩展包sand 之中，可以通过CRAN 进行下载。

美国，马萨诸塞州，波士顿Eric D. Kolaczyk

美国，马萨诸塞州，剑桥Gábor Csárdi

2014 年3 月

网络数据的统计分析：R语言实践下载

发布书评

精彩短评 (总计1条)

翻译的书终于与大家见面了！从最简单的指标和作图，到最前沿的网络统计模型，本书带你用统计利器快速上手探索网络世界~

网络数据的统计分析：R语言实践

发布书评

精彩短评 (总计1条)

类似图书

相关图书推荐