《Web数据挖掘》书评

出版社:清华大学出版社
出版日期:2009-4
ISBN:9787302193388
作者:刘兵
页数:375页

从目录看，内容很厚实的一本书

第一部分数据挖掘基础第1章概述31.1 什么是万维网31.2 万维网和互联网的历史简述41.3 Web数据挖掘51.3.1 什么是数据挖掘61.3.2 什么是Web数据挖掘71.4 各章概要81.5 如何阅读本书10文献评注10第2章关联规则和序列模式122.1 关联规则的基本概念122.2 Apriori算法142.2.1 频繁项目集生成142.2.2 关联规则生成172.3 关联规则挖掘的数据格式192.4 多最小支持度的关联规则挖掘202.4.1 扩展模型212.4.2 挖掘算法222.4.3 规则生成262.5 分类关联规则挖掘272.5.1 问题描述272.5.2 挖掘算法282.5.3 多最小支持度分类关联规则挖掘312.6 序列模式的基本概念312.7 基于GSP挖掘序列模式322.7.1 GSP算法332.7.2 多最小支持度挖掘342.8 基于PrefixSpan算法的序列模式挖掘372.8.1 PrefixSpan算法382.8.2 多最小支持度挖掘392.9 从序列模式中产生规则412.9.1 序列规则412.9.2 标签序列规则412.9.3 分类序列规则42文献评注42目录目录第3章监督学习453.1 基本概念453.2 决策树推理483.2.1 学习算法493.2.2 混杂度函数503.2.3 处理连续属性533.2.4 其他一些问题543.3 评估分类器563.3.1 评估方法563.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)573.4 规则推理593.4.1 序列化覆盖593.4.2 规则学习： Learn-One-Rule函数613.4.3 讨论633.5 基于关联规则的分类633.5.1 使用类关联规则进行分类643.5.2 使用类关联规则作为分类属性663.5.3 使用古典的关联规则分类663.6 朴素贝叶斯分类673.7 朴素贝叶斯文本分类703.7.1 概率框架703.7.2 朴素贝叶斯模型713.7.3 讨论733.8 支持向量机733.8.1 线性支持向量机：可分的情况743.8.2 线性支持向量机: 数据不可分的情况783.8.3 非线性支持向量机：核方法803.9 k-近邻学习823.10 分类器的集成833.10.1 Bagging833.10.2 Boosting84文献评注84第4章无监督学习874.1 基本概念874.2 k-均值聚类894.2.1 k-均值算法894.2.2 k-均值算法的硬盘版本914.2.3 优势和劣势924.3 聚类的表示954.3.1 聚类的一般表示方法954.3.2 任意形状的聚类954.4 层次聚类964.4.1 单链接方法974.4.2 全链接方法984.4.3 平均链接方法984.4.4 优势和劣势984.5 距离函数994.5.1 数值的属性(Numeric Attributes)994.5.2 布尔属性和符号属性(Binary and Nominal Attributes)994.5.3 文本文档1014.6 数据标准化1014.7 混合属性的处理1034.8 采用哪种聚类算法1044.9 聚类的评估1044.10 发现数据区域和数据空洞106文献评注108第5章部分监督学习1105.1 从已标注数据和无标注数据中学习1105.1.1 使用朴素贝叶斯分类器的EM算法1115.1.2 Co-Training1145.1.3 自学习1155.1.4 直推式支持向量机1165.1.5 基于图的方法1175.1.6 讨论1195.2 从正例和无标注数据中学习1195.2.1 PU学习的应用1205.2.2 理论基础1215.2.3 建立分类器：两步方法1225.2.4 建立分类器：直接方法1275.2.5 讨论128附录：朴素贝叶斯EM算法的推导129文献评注131第二部分 Web挖掘第6章信息检索与Web搜索1356.1 信息检索中的基本概念1366.2 信息检索模型1386.2.1 布尔模型1386.2.2 向量空间模型1396.2.3 统计语言模型1416.3 关联性反馈1426.4 评估标准1436.5 文本和网页的预处理1476.5.1 停用词移除1476.5.2 词干提取1476.5.3 其他文本预处理步骤1486.5.4 网页预处理步骤1486.5.5 副本探测1496.6 倒排索引及其压缩1506.6.1 倒排索引1506.6.2 使用倒排索引搜索1516.6.3 索引的建立1526.6.4 索引的压缩1536.7 隐式语义索引1576.7.1 奇异值分解1586.7.2 查询和检索1596.7.3 实例1606.7.4 讨论1636.8 Web搜索1636.9 元搜索引擎和组合多种排序1656.9.1 使用相似度分数的合并1666.9.2 使用排名位置的合并1666.10 网络作弊1686.10.1 内容作弊1696.10.2 链接作弊1696.10.3 隐藏技术1706.10.4 抵制作弊171文献评注172第7章链接分析1747.1 社会关系网分析1757.1.1 中心性1757.1.2 权威1777.2 同引分析和引文耦合1787.2.1 同引分析1787.2.2 引文耦合1797.3 PageRank1797.3.1 PageRank算法1807.3.2 PageRank算法的优点和缺点1857.3.3 Timed PageRank1857.4 HITS1867.4.1 HITS算法1877.4.2 寻找其他的特征向量1897.4.3 同引分析和引文耦合的关系1897.4.4 HITS算法的优点和缺点1897.5 社区发现1917.5.1 问题定义1917.5.2 二分核心社区1927.5.3 最大流社区1937.5.4 基于中介性的电子邮件社区1957.5.5 命名实体的重叠社区196文献评注197第8章 Web爬取1998.1 一个简单爬虫算法1998.1.1 宽度优先爬虫2018.1.2 带偏好的爬虫2018.2 实现议题2028.2.1 网页获取2028.2.2 网页解析2028.2.3 删除无用词并提取词干2048.2.4 链接提取和规范化2048.2.5 爬虫陷阱2068.2.6 网页库2068.2.7 并发性2078.3 通用爬虫2088.3.1 可扩展性2088.3.2 覆盖度、新鲜度和重要度2098.4 限定爬虫2108.5 主题爬虫2128.5.1 主题本地性和线索2138.5.2 最优优先变种2178.5.3 自适应2198.6 评价标准2238.7 爬虫道德和冲突2268.8 最新进展228文献评注230第9章结构化数据抽取：包装器生成2319.1 预备知识2319.1.1 两种富含数据的网页2329.1.2 数据模型2339.1.3 数据实例的HTML标记编码2359.2 包装器归纳2369.2.1 从一张网页抽取2379.2.2 学习抽取规则2389.2.3 识别提供信息的样例2429.2.4 包装器维护2429.3 基于实例的包装器学习2439.4 自动包装器生成中的一些问题2459.4.1 两个抽取问题2469.4.2 作为正则表达式的模式2469.5 字符串匹配和树匹配2479.5.1 字符串编辑距离2479.5.2 树匹配2499.6 多重对齐2529.6.1 中星方法2529.6.2 部分树对齐2539.7 构建DOM树2579.8 基于列表页的抽取：平坦数据记录2589.8.1 有关数据记录的两个观察结果2589.8.2 挖掘数据区域2599.8.3 从数据区域中识别数据记录2639.8.4 数据项对齐与抽取2639.8.5 利用视觉信息2649.8.6 一些其他技术2649.9 基于列表页的抽取：嵌套数据记录2659.10 基于多张网页的抽取2699.10.1 采用前几节中的技术2709.10.2 RoadRunner算法2709.11 一些其他问题2719.11.1 从其他网页中抽取2719.11.2 析取还是可选2729.11.3 一个集合类型还是一个元组类型2739.11.4 标注与整合2739.11.5 领域相关的抽取2739.12 讨论274文献评注274第10章信息集成27610.1 什么是样式表匹配27710.2 样式表匹配的预处理工作27810.3 样式表层次的匹配27910.3.1 基于语言学的算法27910.3.2 基于样式表中限制的算法28010.4 基于领域和实例层次的匹配28010.5 不同相似度的联合28210.6 1:m匹配28310.7 其他问题28410.7.1 重用以前的匹配结果28410.7.2 大量样式表的匹配28510.7.3 样式表匹配的结果28510.7.4 用户交互28510.8 Web搜索界面的集成28510.8.1 基于聚类的算法28710.8.2 基于互关系的方法28910.8.3 基于实例的方法29010.9 构建一个全局的搜索界面29210.9.1 结构上的正确性和合并算法29310.9.2 词汇的正确性29410.9.3 实例的正确性295文献评注295第11章观点挖掘29611.1 意见分类29711.1.1 基于意见短语的分类29711.1.2 采用文本分类方法进行意见分类29911.1.3 基于评分函数进行分类29911.2 基于特征的观点挖掘和摘要30011.2.1 问题定义30111.2.2 对象特征抽取30511.2.3 格式1中正面和负面评价部分的特征抽取30611.2.4 符合格式2和3的评审上的特征抽取30811.2.5 观点倾向分类30911.3 比较性句子和比较关系挖掘31011.3.1 问题定义31111.3.2 等级比较性语句的识别31211.3.3 比较关系的抽取31411.4 观点搜索31511.5 观点欺诈31611.5.1 观点欺诈的目标和行为31711.5.2 欺诈和欺诈者的种类31711.5.3 隐藏技巧31811.5.4 欺诈检测318文献评注320第12章 Web使用挖掘32212.1 数据收集和预处理32312.1.1 数据的来源和类型32312.1.2 Web使用记录数据预处理的关键元素32612.2 Web使用记录挖掘的数据建模33112.3 Web用法模式的发现和分析33412.3.1 会话和访问者分析33412.3.2 聚类分析和访问者分割33412.3.3 关联及相关度分析33712.3.4 序列和导航模式分析34012.3.5 基于Web用户事务的分类和预测34212.4 讨论和展望343文献评注344参考文献345

书不错，但中文版的错别字较多~

主要在看结构化数据抽取那块，，自己之前在想的一些问题发现已经有不少人去研究了，收益很多。同样是一本实用性很强的书，对于不是专门弄学术的同学还是比较有价值的。看了参考文献，数据抽取方面的几个算法都是作者本人发的paper，怪不得讲的很多。另：书后面N多的参考文献真的是很不错~，而且不少paper都还比较新

Web数据挖掘下载精选章节试读

《Web数据挖掘》书评

类似图书

相关图书推荐