Web数据挖掘

出版社:清华大学出版社
出版日期:2009-4
ISBN:9787302193388
作者:刘兵
页数:375页

章节摘录

插图：第一部分 数据挖掘基础第1章 概述1.2 万维网和互联网的历史简述万维网的创立：万维网最初是由Tim Berners—Lee于1989年发明的。当时，他在位于瑞士的欧洲粒子物理实验室（Centre European pour la Recherche Nucleaire，或European Laboratory for Particle Physics，CERN）工作。他给万维网命名，并且编写了世界上首个万维网服务器httpd和世界上首个客户端程序（包括一个浏览器和一个编辑器World Wide Web）。事件起源于1989年3月，当时Tim Berners—Lee向他在CERN的导师提交了一份名为“信息管理提议”的提议书。在这份提议中，他讨论了层次化信息组织的缺点，并且描绘出基于超文本系统的优点。提议书建议设计一套简单的协议，使得用户可以通过网络请求存放在远端系统上的信息；并创立一套使信息可以用相同格式被互相交换，并且用户可以通过超链接把相关文档链接起来的机制。其中还提到如何使用当时在CERN的一些文本阅读和图形显示的技术。提议书完整地描述了分布式超文本系统（Distributed Hypertext System），也就是当今万维网的基础构架。起初，这份提议书并没有获得足够的支持。然而，在1990年，Berners—Lee重新分发了提议书，并获得了足够的支持来展开工作。在这个项目中，Berners—Lee和他在CERN的团队为最终把万维网发展成为分布式超文本系统铺平了道路。他们设计了服务器、浏览器、用于在客户端和服务器之间进行通讯的协议——超本文传输协议（HyperText Transfer Protocol，HTTP）、用于编辑网络文档的超文本标记语言（HyperText Markup Language，HTML），以及统一资源定位符（Universal Resource Locator，URL）。万维网从此开始迅速发展。Mosaic和Netscape：下一个万维网的重要事件是Mosaic的出现。1993年2月，来自美国伊利诺伊斯大学国家超级计算应用中心（National Center for Supercomputing Applications，NCSA）的Marc Andreesen和他的团队发布了UNIX操作系统上图形界面的 网络浏览器一Mosaic for X。

前言

作为互联网上最重要的应用之一，Web（万维网）提供了便捷的文档发布与获取机制，并逐步成为各类信息资源的聚集地。据Google于2008年发布的官方报告，它们已经在互联网上发现超过1万亿个Web文档，而且这个数字还在以每天几十亿的速度持续增长。面对如此巨大的信息量，普通Web用户往往迷失其中，他们迫切需要一种机制快速定位到所需信息。Web数据挖掘便应运而生，并且伴随Web的发展而备受关注。Web数据挖掘它建立在信息检索、数据挖掘以及知识管理等技术的基础上，通过对大量Web文档进行分析来获得隐含的知识和模式，从而帮助人们更好地进行信息搜索和决策制定。反过来，可以说，也正是Web挖掘技术的不断进展，推动了Web的进一步蓬勃发展。目前Web数据挖掘已经引起了学术界、工业界、社会学家的广泛关注，也吸引了众多研究人员与开发人员投身其中。国内外很多大学与研究机构先后开设了Web挖掘课程。但长期以来并没有专门针对Web挖掘的教材与专著。刘兵教授出版的这本著作填补了该领域的空白。该教材针对Web挖掘中众多关键主题进行了深入分析。清华大学出版社独具慧眼，决定将该书翻译成中文版在国内出版，这必将对我国Web挖掘的教学与研究产生积极的推动作用，有幸承担该书的翻译工作，我们感到十分荣幸。本书是由伊利诺伊大学芝加哥分校（UIC）的刘兵（Bing Liu）教授历经一年的时间所著的"Web Data Mining"的翻译版。刘兵教授是Web挖掘研究领域的国际知名专家，曾担任多个国际期刊的编辑，也是多个国际学术会议（如WWW、KDD与AAAI等）的程序委员会委员。刘兵教授在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣。他先后在国际著名学术期刊与重要国际学术会议上发表论文一百多篇。本教材中的部分章节也融入了刘兵教授从事Web挖掘研究多年的心血。全书主要包括前言和12个章节。本书的翻译和审校由俞勇、薛贵荣和韩定一共同完成。其中，俞勇负责前言、第1章和第2章，薛贵荣负责第3～7章，韩定一负责第8～12章。参加翻译工作的还有韩定一（前言、第1章、第8章）、徐生良（第2章）、凌霄（第3章）、郭晋文（第4章、第5章）、王亮（第6章）、陈林虎（第7章）、傅临云（第9章）、第7张迪（第10章）、包胜华（第11章）和王乐天（第12章）等。上海交通大学APEX数据和知识管理实验室的全体同学参加了本书的校对工作。在本书的翻译过程中，得到了刘兵教授的大力支持。他向译者提供了全文书稿的最终版本，并对翻译工作提出了指导性建议。同时，感谢微软亚洲研究院李航博士的引荐，使我们有机会学习和翻译此书。最后，感谢清华大学出版社的龙启铭编辑，是他的远见，使得本书能够尽快与读者见面。由于本书所涉及到内容非常广泛，许多术语目前尚无固定译法，翻译难度相对较大。尽管我们对某些术语进行了推敲，但仍然可能出现词不达意的地方。此外，由于译者水平有限，译文中不当之处也在所难免。我们也真诚地希望同行与读者朋友们不吝赐教。

内容概要

Bing Liu 刘兵，伊利诺伊大学芝加哥分校(UIC)教授，他在爱丁堡大学获得人工智能博士学位。刘兵教授是Web挖掘研究领域的国际知名专家，在Web内容挖掘、互联网观点挖掘、数据挖掘等领域有非常高的造诣，他先后在国际著名学术期刊与重要国际学术会议(如KDD、WWW、AAAI、SIGIR、ICML、TKDE等)上发布关于数据挖掘、Web挖掘和文本挖掘论文一百多篇。刘兵教授担任过多个国际期刊的编辑，也是多个国际学术会议(如WWW、KDD与AAAI等)的程序委员会委员。更多的信息，可访问他的个人主页http://www.cs.uic.edu/~liub

书籍目录

第一部分 数据挖掘基础  第1章 概述    1.1 什么是万维网    1.2 万维网和互联网的历史简述    1.3 Web数据挖掘    1.4 各章概要    1.5 如何阅读本书    文献评注  第2章 关联规则和序列模式    2.1 关联规则的基本概念    2.2 Apriori算法    2.3 关联规则挖掘的数据格式    2.4 多最小支持度的关联规则挖掘    2.5 分类关联规则挖掘    2.6 序列模式的基本概念    2.7 基于GSP挖掘序列模式    2.8 基于PrefixSpan算法的序列模式挖掘    2.9 从序列模式中产生规则    文献评注  第3章 监督学习    3.1 基本概念    3.2 决策树推理    3.3 评估分类器    3.4 规则推理    3.5 基于关联规则的分类    3.6 朴素贝叶斯分类    3.7 朴素贝叶斯文本分类    3.8 支持向量机    3.9 k-近邻学习    3.10 分类器的集成    文献评注  第4章 无监督学习    4.1 基本概念    4.2 k-均值聚类    4.3 聚类的表示    4.4 层次聚类    4.5 距离函数    4.6 数据标准化    4.7 混合属性的处理    4.8 采用哪种聚类算法    4.9 聚类的评估    4.10 发现数据区域和数据空洞    文献评注  第5章 部分监督学习    5.1 从已标注数据和无标注数据中学习    5.2 从正例和无标注数据中学习    附录： 朴素贝叶斯EM算法的推导    文献评注第二部分 Web挖掘  第6章 信息检索与Web搜索    6.1 信息检索中的基本概念    6.2 信息检索模型    6.3 关联性反馈    6.4 评估标准    6.5 文本和网页的预处理    6.6 倒排索引及其压缩    6.7 隐式语义索引    6.8 Web搜索    6.9 元搜索引擎和组合多种排序    6.10 网络作弊    文献评注  第7章 链接分析  第8章 Web爬取  第9章 结构化数据抽取：包装器生成  第10章 信息集成  第11章 观点挖掘  第12章 Web使用挖掘

编辑推荐

《Web数据挖掘》为世界著名计算机教材精选之一。

作者简介

《Web数据挖掘》旨在讲述这些任务以及它们的核心挖掘算法；尽可能涵盖每个话题的广泛内容，给出足够多的细节，以便读者无须借助额外的阅读，即可获得相对完整的关于算法和技术的知识。其中结构化数据的抽取、信息整合、观点挖掘和Web使用挖掘等4章是《Web数据挖掘》的特色，这些内容在已有书籍中没有提及，但它们在Web数据挖掘中却占有非常重要的地位。当然，传统的Web挖掘主题，如搜索、页面爬取和资源探索以及链接分析在书中也作了详细描述。

《Web数据挖掘》尽管题为“Web数据挖掘”，却依然涵盖了数据挖掘和信息检索的核心主题；因为Web挖掘大量使用了它们的算法和技术。数据挖掘部分主要由关联规则和序列模式、监督学习（分类）、无监督学习（聚类）这三大最重要的数据挖掘任务，以及半监督学习这个相对深入的主题组成。而信息检索对于Web挖掘而言最重要的核心主题都有所阐述。

图书封面

Web数据挖掘下载精选章节试读更多精彩书评

发布书评

精彩书评 (总计2条)

第一部分数据挖掘基础第1章概述31.1 什么是万维网31.2 万维网和互联网的历史简述41.3 Web数据挖掘51.3.1 什么是数据挖掘61.3.2 什么是Web数据挖掘71.4 各章概要81.5 如何阅读本书10文献评注10第2章关联规则和序列模式122.1 关联规则的基本概念122.2 Apriori算法142.2.1 频繁项目集生成142.2.2 关联规则生成172.3 关联规则挖掘的数据格式192.4 多最小支持度的关联规则挖掘202.4.1 扩展模型212.4.2 挖掘算法222.4.3 规则生成262.5 分类关联规则挖掘272.5.1 问题描述272.5.2 挖掘算法282.5.3 多最小支持度分类关联规则挖掘312.6 序列模式的基本概念312.7 基于GSP挖掘序列模式322.7.1 GSP算法332.7.2 多最小支持度挖掘342.8 基于PrefixSpan算法的序列模式挖掘372.8.1 PrefixSpan算法382.8.2 多最小支持度挖掘392.9 从序列模式中产生规则412.9.1 序列规则412.9.2 标签序列规则412.9.3 分类序列规则42文献评注42目录目录第3章监督学习453.1 基本概念453.2 决策树推理483.2.1 学习算法493.2.2 混杂度函数503.2.3 处理连续属性533.2.4 其他一些问题543.3 评估分类器563.3.1 评估方法563.3.2 查准率、查全率、F-score和平衡点(Breakeven Point)573.4 规则推理593.4.1 序列化覆盖593.4.2 规则学习： Learn-One-Rule函数613.4.3 讨论633.5 基于关联规则的分类633.5.1 使用类关联规则进行分类643.5.2 使用类关联规则作为分类属性663.5.3 使用古典的关联规则分类663.6 朴素贝叶斯分类673.7 朴素贝叶斯文本分类703.7.1 概率框架703.7.2 朴素贝叶斯模型713.7.3 讨论733.8 支持向量机733.8.1 线性支持向量机：可分的情况743.8.2 线性支持向量机: 数据不可分的情况783.8.3 非线性支持向量机：核方法803.9 k-近邻学习823.10 分类器的集成833.10.1 Bagging833.10.2 Boosting84文献评注84第4章无监督学习874.1 基本概念874.2 k-均值聚类894.2.1 k-均值算法894.2.2 k-均值算法的硬盘版本914.2.3 优势和劣势924.3 聚类的表示954.3.1 聚类的一般表示方法954.3.2 任意形状的聚类954.4 层次聚类964.4.1 单链接方法974.4.2 全链接方法984.4.3 平均链接方法984.4.4 优势和劣势984.5 距离函数994.5.1 数值的属性(Numeric Attributes)994.5.2 布尔属性和符号属性(Binary and Nominal Attributes)994.5.3 文本文档1014.6 数据标准化1014.7 混合属性的处理1034.8 采用哪种聚类算法1044.9 聚类的评估1044.10 发现数据区域和数据空洞106文献评注108第5章部分监督学习1105.1 从已标注数据和无标注数据中学习1105.1.1 使用朴素贝叶斯分类器的EM算法1115.1.2 Co-Training1145.1.3 自学习1155.1.4 直推式支持向量机1165.1.5 基于图的方法1175.1.6 讨论1195.2 从正例和无标注数据中学习1195.2.1 PU学习的应用1205.2.2 理论基础1215.2.3 建立分类器：两步方法1225.2.4 建立分类器：直接方法1275.2.5 讨论128附录：朴素贝叶斯EM算法的推导129文献评注131第二部分 Web挖掘第6章信息检索与Web搜索1356.1 信息检索中的基本概念1366.2 信息检索模型1386.2.1 布尔模型1386.2.2 向量空间模型1396.2.3 统计语言模型1416.3 关联性反馈1426.4 评估标准1436.5 文本和网页的预处理1476.5.1 停用词移除1476.5.2 词干提取1476.5.3 其他文本预处理步骤1486.5.4 网页预处理步骤1486.5.5 副本探测1496.6 倒排索引及其压缩1506.6.1 倒排索引1506.6.2 使用倒排索引搜索1516.6.3 索引的建立1526.6.4 索引的压缩1536.7 隐式语义索引1576.7.1 奇异值分解1586.7.2 查询和检索1596.7.3 实例1606.7.4 讨论1636.8 Web搜索1636.9 元搜索引擎和组合多种排序1656.9.1 使用相似度分数的合并1666.9.2 使用排名位置的合并1666.10 网络作弊1686.10.1 内容作弊1696.10.2 链接作弊1696.10.3 隐藏技术1706.10.4 抵制作弊171文献评注172第7章链接分析1747.1 社会关系网分析1757.1.1 中心性1757.1.2 权威1777.2 同引分析和引文耦合1787.2.1 同引分析1787.2.2 引文耦合1797.3 PageRank1797.3.1 PageRank算法1807.3.2 PageRank算法的优点和缺点1857.3.3 Timed PageRank1857.4 HITS1867.4.1 HITS算法1877.4.2 寻找其他的特征向量1897.4.3 同引分析和引文耦合的关系1897.4.4 HITS算法的优点和缺点1897.5 社区发现1917.5.1 问题定义1917.5.2 二分核心社区1927.5.3 最大流社区1937.5.4 基于中介性的电子邮件社区1957.5.5 命名实体的重叠社区196文献评注197第8章 Web爬取1998.1 一个简单爬虫算法1998.1.1 宽度优先爬虫2018.1.2 带偏好的爬虫2018.2 实现议题2028.2.1 网页获取2028.2.2 网页解析2028.2.3 删除无用词并提取词干2048.2.4 链接提取和规范化2048.2.5 爬虫陷阱2068.2.6 网页库2068.2.7 并发性2078.3 通用爬虫2088.3.1 可扩展性2088.3.2 覆盖度、新鲜度和重要度2098.4 限定爬虫2108.5 主题爬虫2128.5.1 主题本地性和线索2138.5.2 最优优先变种2178.5.3 自适应2198.6 评价标准2238.7 爬虫道德和冲突2268.8 最新进展228文献评注230第9章结构化数据抽取：包装器生成2319.1 预备知识2319.1.1 两种富含数据的网页2329.1.2 数据模型2339.1.3 数据实例的HTML标记编码2359.2 包装器归纳2369.2.1 从一张网页抽取2379.2.2 学习抽取规则2389.2.3 识别提供信息的样例2429.2.4 包装器维护2429.3 基于实例的包装器学习2439.4 自动包装器生成中的一些问题2459.4.1 两个抽取问题2469.4.2 作为正则表达式的模式2469.5 字符串匹配和树匹配2479.5.1 字符串编辑距离2479.5.2 树匹配2499.6 多重对齐2529.6.1 中星方法2529.6.2 部分树对齐2539.7 构建DOM树2579.8 基于列表页的抽取：平坦数据记录2589.8.1 有关数据记录的两个观察结果2589.8.2 挖掘数据区域2599.8.3 从数据区域中识别数据记录2639.8.4 数据项对齐与抽取2639.8.5 利用视觉信息2649.8.6 一些其他技术2649.9 基于列表页的抽取：嵌套数据记录2659.10 基于多张网页的抽取2699.10.1 采用前几节中的技术2709.10.2 RoadRunner算法2709.11 一些其他问题2719.11.1 从其他网页中抽取2719.11.2 析取还是可选2729.11.3 一个集合类型还是一个元组类型2739.11.4 标注与整合2739.11.5 领域相关的抽取2739.12 讨论274文献评注274第10章信息集成27610.1 什么是样式表匹配27710.2 样式表匹配的预处理工作27810.3 样式表层次的匹配27910.3.1 基于语言学的算法27910.3.2 基于样式表中限制的算法28010.4 基于领域和实例层次的匹配28010.5 不同相似度的联合28210.6 1:m匹配28310.7 其他问题28410.7.1 重用以前的匹配结果28410.7.2 大量样式表的匹配28510.7.3 样式表匹配的结果28510.7.4 用户交互28510.8 Web搜索界面的集成28510.8.1 基于聚类的算法28710.8.2 基于互关系的方法28910.8.3 基于实例的方法29010.9 构建一个全局的搜索界面29210.9.1 结构上的正确性和合并算法29310.9.2 词汇的正确性29410.9.3 实例的正确性295文献评注295第11章观点挖掘29611.1 意见分类29711.1.1 基于意见短语的分类29711.1.2 采用文本分类方法进行意见分类29911.1.3 基于评分函数进行分类29911.2 基于特征的观点挖掘和摘要30011.2.1 问题定义30111.2.2 对象特征抽取30511.2.3 格式1中正面和负面评价部分的特征抽取30611.2.4 符合格式2和3的评审上的特征抽取30811.2.5 观点倾向分类30911.3 比较性句子和比较关系挖掘31011.3.1 问题定义31111.3.2 等级比较性语句的识别31211.3.3 比较关系的抽取31411.4 观点搜索31511.5 观点欺诈31611.5.1 观点欺诈的目标和行为31711.5.2 欺诈和欺诈者的种类31711.5.3 隐藏技巧31811.5.4 欺诈检测318文献评注320第12章 Web使用挖掘32212.1 数据收集和预处理32312.1.1 数据的来源和类型32312.1.2 Web使用记录数据预处理的关键元素32612.2 Web使用记录挖掘的数据建模33112.3 Web用法模式的发现和分析33412.3.1 会话和访问者分析33412.3.2 聚类分析和访问者分割33412.3.3 关联及相关度分析33712.3.4 序列和导航模式分析34012.3.5 基于Web用户事务的分类和预测34212.4 讨论和展望343文献评注344参考文献345
主要在看结构化数据抽取那块，，自己之前在想的一些问题发现已经有不少人去研究了，收益很多。同样是一本实用性很强的书，对于不是专门弄学术的同学还是比较有价值的。看了参考文献，数据抽取方面的几个算法都是作者本人发的paper，怪不得讲的很多。另：书后面N多的参考文献真的是很不错~，而且不少paper都还比较新

精彩短评 (总计101条)

最喜欢当当的服务和送货速度
比较好的一本书，先看看了
帮别人买的，据说质量不错，内容也挺好。
数据挖掘入门书，内容比较全面，可以作为按图索骥的图
要顶一下 web usage mining一章是俺们教授写的啊
这本书我觉得还不错，刚拿到手，就迫不及待的看了一些内容，也正是我需要的，感觉是我这个阶段非常需要的，对于做研究真的很不错，直接看英文文献，可能太费力，先看下此书，你再看英文文献就容易理解多了。
1.同样的书，**网是75折，差价较大。
2.我是12月21日下订单，31日才收到书。
3.书质量挺好，快递师傅服务好。
知识点太泛导致太浅，可以当入门
书挺好的，介绍了web信息抽取领域中的一些方法，但就是不太详细！
书的内容很好，都是比较新的知识，讲解得也比较到位。
纸张再厚实一些就好了。
搜索引擎和文本分类涉及的比较多。相当艰深的书-_-|||
一般
努力学习中，里面给出的例子相结合，容易理解
质量不错，内容肯定经典，但就是章节的排版有点不满意！
都是从最新的论文里截取的算法和思想，很好很强大！！！
对学习数据挖掘很有用处，值得一看！
正是我要学习的，知识也比较全面使用
这本比较简单
内容比较新，翻译的也可以。
数本身介绍的内容比较新，而且很全面。应该算是web数据挖掘里边一本表宏观的参考书。如果你是要研究某个算法的，那就算了！这本书在算法研究生写的不是很多～～更多的是一些总结性的研究。每个章节都是对该章内容，当前研究的一个总结。大家可以买回来当参考书，如果是要学习web数据挖掘。可以做一个入门的参考书，从宏观上了解web数据挖掘的一个框架。具体算法可以再买别的参考书看看。
WEB数据挖掘方面的经典图书,第二次买了，这一次买给实验室的研究生。
很适合我吧，多读几遍，每次都有新的发现
数据挖掘。。听起来就很牛逼的领域。。可惜自己水平有限，没法读的多深入，粗略了解了监督学习的基本概念和web结构化数据抽取及分析的常用方法，以后如果要用到再深入读
先讲数据挖掘的基本知识，然后再是web挖掘的知识。
有些地方讲的比较晦涩，看的很难懂。
但慢慢看应该会好些·
我还是看不懂
此书是数据挖掘的一本书，主要是从web应用挖掘出发。
但是，数据挖掘概念与技术这本书更适合那些想全面了解数据挖掘的人。
只看了前面，讲的数据挖掘算法还是不错的，比较简洁
还不错，可以看下，开阔下视野
给别人买的，所以不知道内容好坏哦，我选择的货到付款，感觉挺不错的，就服务来讲。
基础，简洁
硕士上课，老师推荐买的。挺不错的书
这本书对于准备开展相关研究的入门者是很有帮助的。
对于做web开发的程序员，或设计者，这本书无疑是强化自己。书的内容、质量都很好
书还是不错，内容很深，要好好研究……
纸张不怎么的，跟价格不咋相称
很经典的WEB数据挖掘书，有点高深
Web数据挖掘这书翻译的不咋地啊。。有些话看着别扭。。只怪自己英文太差。。
原著不错！俞勇翻译得经典！
基本的介绍了，但是貌似不是刘兵原版的，是改版了吗
之前在接触这方面的项目的时候,看了很多论文,发现有几篇都是抄这本书的,还没抄全!!! WTF..
对现在的技术有点跟不上！
数学公式很多，理论很多，不适合实战
这本书以前在学校看过，有点深度，同时也正是我所需要的
模型算法较多，不是实际应用的
非常有用的书籍，但千万别给工程师看，作为学习和研究的书籍很好。
书不错，挺好的。很早想买了。
很不错的书，可惜实际用到的不多
对于学习计算机的和想从事数据库工作的都适合一看。
挺不错的一本书。从入门到深入都来一遍。不错。
入门教材，涉及面比较广
web挖掘绝对好的书，liubing很牛X
理论性强，可以加强对数据挖掘方向概念理解
速度好快，上午下单，下午就来了。赞啊
好书，顺便赞下当当的送货速度
书不错，很有内容
内容比较新颖，慢慢看
课本
很好的一本书，专注讲针对web数据的数据挖掘
实践性较强，理论性。。。就那样吧。。。翻译的也很一般~
对Web数据挖掘涉及到内容进行了重点介绍精简而又实用但是翻译质量一般建议对照使用
这系列的书买了许多都还不错比较喜欢
数据挖掘中十大经典算法都提到了，是一本模式识别在数据挖掘中应用描述的书，特别赞的是把万维网和互联网很清楚得描述是不一样的东西。。。
还行吧，深度不够！
不错，对我非常有帮助
书很有启发性，不过内容很难，对于有自学能力和研究能力的很过瘾
还好就是好多公式数学不好伤不起呀
自己看有点费劲，当教材很合适
看过之后，感觉确实是一本值得研读的好书。
写得很详细的，只看了一点毕设用到的地方，翻译一般
还有一本印度人写的，看完这部接着看
老师推荐的，很好的一本书，但稍偏难，比较概括
书的质量不错，内容还得慢慢看。
无意进来的，，我们这学期的教材看不懂啊难消化啊
内容很好、全面，细致，不过现在还没看完
这本书的内容比较深奥，注重算法，偏学术
个人认为在工作中的用处不大
原来数据挖掘并不简单。
本书比较系统，但部分章节写的一般
正版，内容不错，老公很喜欢的一本书
[先前所读]几个月前阅读的，不是很透彻
以前接触这方面比较少，看后很有帮助。
排版印刷内容都很不错
书的内容不错，适合搞研究时用，不过应用性方面不够强！
读了一段时间了，我个人认为不错，翻译还可以，但还有提升的空间
是本数据挖掘的好书
有点难度，对于我这个菜鸟
比较有深度，理解得比较透彻，尤其是数据抽取、信息集成等内容，有较深的高度。适合有较高理论和实践基础的人使用。
书的质量很好，是一本数据挖掘以及web数据挖掘的入门和时间学习课本。
值得一看。
译者是交大ACM试点班的掌门人，手下是牛人辈出。翻译的质量也有所保证。
没看到我想看的东西
前半部分挖掘算法介绍详细，值得细读，后半部分拓展需要在更专一的领域有所收获还需继续找相关书籍。读这本书是在什么情况下？为什么全书都是伪代码，用意何在？
还没看，不知道怎么样。
翻译的错误太多了。。。。
说是不错的书我也不懂
嗯，很好！
入门蛮不错的教材。
送货还算迅速，大冷天的，很期待好好的学习一下，
书讲得不太详细，未抓住重点写，书名为web数据挖掘，应当将重点放在web使用挖掘及web文本挖掘上，而后者介绍得不多
这本书写得有一定深度，值得细细研究。
老师力荐
非常适合初学者，了解一下web数据挖掘的方法
我是前几天收到的书，时间还挺快，就是纸的质量一般。

Web数据挖掘

发布书评

精彩书评 (总计2条)

精彩短评 (总计101条)

类似图书

相关图书推荐