大数据架构商业之路:从业务需求到技术方案

出版日期:2016-5-9
ISBN:9787111535286
作者:[中] 黄申
页数:299页

内容概要

黄申,博士,毕业于上海交通大学计算机科学与工程专业,师从俞勇教授。微软学者,IBMExtremeBlue天才计划成员。长期专注于大数据相关的搜索、推荐、广告以及用户精准化领域。曾在微软亚洲研究院、eBay中国、沃尔玛1号店和大润发飞牛网担任要职,带队完成了若干公司级的战略项目。同时著有20多篇国际论文和10多项国际专利,兼任《计算机工程》期刊特邀审稿专家。因其对业界的卓越贡献,2015年获得美国政府颁发的“美国杰出人才”称号。

书籍目录

推荐序一
推荐序二
前  言
第1章 抉择 1
第2章 数据收集 4
2.1 互联网数据收集 4
2.1.1 网络爬虫 5
2.1.2 Apache Nutch简介 11
2.1.3 Heritrix简介 14
2.2 内部数据收集 15
2.2.1 Apache Flume简介 17
2.2.2 Facebook Scribe和Logstash 21
2.3 本章心得 21
2.4 参考资料 22
第3章 数据存储 23
3.1 持久化存储 23
3.1.1 Hadoop和HDFS 25
3.1.2 HBase简介 28
3.1.3 MongoDB 35
3.2 非持久化存储 37
3.2.1 缓存和散列 37
3.2.2 Memcached和Berkeley DB简介 41
3.2.3 Redis简介 41
3.3 本章心得 44
3.4 参考资料 44
第4章 数据处理 46
4.1 离线批量处理 46
4.1.1 Hadoop的MapReduce 47
4.1.2 Spark简介 52
4.1.3 Hive简介 53
4.1.4 Pig、Impala和Spark SQL 56
4.2 提升及时性:消息机制 58
4.2.1 ActiveMQ简介 60
4.2.2 Kafka简介 61
4.3 在线实时处理 63
4.3.1 Storm简介 63
4.3.2 Spark Streaming简介 66
4.4 本章心得 66
4.5 参考资料 67
第5章 信息检索 69
5.1 基本理念 70
5.2 相关性 70
5.2.1 布尔模型 70
5.2.2 基于排序的布尔模型 71
5.2.3 向量空间模型 74
5.2.4 语言模型 75
5.3 及时性 77
5.4 与数据库查询的对比 81
5.5 搜索引擎 82
5.5.1 Web搜索中的链接分析 83
5.5.2 电子商务中的商品排序 86
5.5.3 多因素和基于学习的排序 88
5.5.4 系统框架 89
5.5.5 Lucene简介 93
5.5.6 Solr简介 98
5.5.7 Elasticsearch简介 104
5.6 推荐系统 108
5.6.1 推荐的核心要素 109
5.6.2 推荐系统的分类 110
5.6.3 混合模型 115
5.6.4 系统架构 116
5.6.5 Mahout 116
5.7 在线广告 119
5.8 本章心得 127
5.9 参考资料 128
第6章 数据挖掘 130
6.1 基本理念 131
6.2 数据的表示和预处理 133
6.3 机器学习算法 136
6.4 挖掘工具 157
6.5 本章心得 165
6.6 参考资料 165
第7章 效能评估 167
7.1 效果评估 168
7.2 性能评估 190
7.3 本章心得 202
7.4 参考资料 202
第8章 大数据技术全景 204
第9章 商品太多啦!需要搜索引擎 207
9.1 业务需求 207
9.2 产品设计和技术选型 208
9.3 实现方案 211
第10章 能否更主动?还需要推荐引擎 223
10.1 业务需求 223
10.2 产品设计和技术选型 225
10.3 实现方案 230
第11章 这样做的效果如何 241
11.1 业务需求 241
11.2 产品设计和技术选型 242
11.3 实现方案 243
第12章 这个搜索有点逊 258
12.1 业务需求:还要搜得更多 258
12.2 “还要搜得更多”:产品设计和技术选型 259
12.3 “还要搜得更多”的方案实现 261
12.4 业务需求:还要搜得更准 265
12.5 “还要搜得更准”:产品设计和技术选型 266
12.6 “还要搜得更准”的方案实现 271
12.7 业务需求:还要更快 273
12.8 还要“变”得更快:产品设计和技术选型 274
12.9 还要“搜”得更快:产品设计和技术选型 275
12.10 业务需求:给点提示吧 280
12.11 给点提示吧:产品设计和技术选型 282
第13章 支持更高效的运营 287
13.1 业务需求:互联网时代的CRM 287
13.2 互联网时代的CRM:产品设计和技术选型 288
13.3 业务需求:抓住捣蛋鬼 291
13.4 抓住捣蛋鬼:产品设计和技术选型 292
13.5 业务需求:销售之战 295
13.6 销售之战:产品设计和技术选型 296
后记 299

作者简介

目前大数据技术已经日趋成熟,但是业界发现与大数据相关的产品设计和研发仍然非常困难,技术、产品和商业的结合度还远远不够。这主要是因为大数据涉及范围广、技术含量高、更新换代快,门槛也比其他大多数IT行业更高。人们要么使用昂贵的商业解决方案,要么花费巨大的精力摸索。本书通过一个虚拟的互联网O2O创业故事,来逐步展开介绍创业各个阶段可能遇到的大数据课题、业务需求,以及相对应的技术方案,甚至是实践解析;让读者身临其境,一起来探寻大数据的奥秘。书中会覆盖较广泛的技术点,并提供相应的背景知识介绍,对于想进一步深入研究细节的读者,也可轻松获得继续阅读的方向和指导性建议。


 大数据架构商业之路:从业务需求到技术方案下载 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     刚拿到书时,看到书名感觉像是一本讲商业与产品的书,一开始我关键的关键词是“大数据”、“商业”、“业务需求”,但实际阅读完书籍,可能就会与最初的印象有所不一样,在我的理解中,作者的主线更接近于**“大数据——技术方案——架构——业务需求——商业”** ,这本书实际上的核心正是在于**“技术方案”**这一核心上。“大数据(Big Data)”概念提出人实际上给大家展现了一个很宏大的数据应用蓝图。事实上,基于数据的采集与商业应用,从IT软件业的早期就已经有人在持续研究了,但直到互联网发展到云计算时代,数据的基础才真正有了海量存储与复杂分析的意义。所以大家**不应该把大数据当作一个工具或产品来思考,而更应该将其当作一种思维与理念的革新**,在当前或不久的将来,数据将与我们的日常生活、工作息息相关。而构建大数据技术解决方案可以说是实现上述一切分析与应用的基础,正由于其思维与理念的新颖,当前有能力为自己的企业搭建这样的基础服务的团队实际上是少之又少,书里花了比较多的篇幅宏观地介绍了整个大数据解决方案涉及的技术方案与特性,这对原先不了解这领域的人会有比较好的帮助,通过一些基础概念和技术发展,能够概括的了解到大数据解决方案涉及的方方面面,不过我觉得前面的概念性篇幅过多了点(估计有2/3章节)。相信其中涉及到的一些技术,单拉出来都能形成一个独立的解决方案,作者在书中谈到了许多技术可行性方案,这对一些业内资深人员来说,可能稍显粗浅了些,而对一些新手,则可能犯“选择综合症”,对于在不同的时期与条件下,究竟应该如何选择可能无法做出有效的决定。作者在书中提到技术解决方案时,基本上跳过了商业技术方案的建议,大都是基于开源项目的推荐,其实我觉得对于商业方案,也可以适当涉及,毕竟不是所有企业都有一个有实力的技术团队来自己寻找开源项目搭建自有大数据系统,如果有一些小型的、费用不高并且功能上基本能满足一些早期企业的要求的商业方案,对大家来说也是一种短期性的选择。在数据收集上,作者介绍的两个开源系统:Apache Nutch和Heritrix都是基于外部的链式网页抓取,个人建议还可以利用Google Analytics或者国内的一些流量统计分析软件做部分数据收集源的替代工具。大数据存储上,我们可以看到传统的关系型数据库已经无法满足大数据应用,这就需要我们在存储工具上做出改变,业内还是有不少新型的选择,比如MongoDB与dBase等,而分布式系统是当前应对云计算与海量数据处理的关键解决方案。而在大数据的应用上,作者专门针对商品搜索和推荐系统做了介绍,不过感觉还不够深入,整体上还是偏向于技术性的思考。作者在书中列举了一些技术性逻辑处理的案例,显然作者在这方面有着比较丰富的经验,不过这对一部分人来说可能只能起到提示的作用,更多的系统的逻辑设计,可能就需要大家自己去摸索了。不过对于作者在书中所展现出的数据处理的框架,个人还是比较认同的。从数据的**收集——存储——处理——挖掘——应用**,这为我们呈现出了构建完整大数据解决方案需要涉及的相关领域。在作者的介绍中,各领域内实际上都有不必的技术工具可供选择,当然对于产品人员来说,技术工具是哪个不是关键,可能更关心背后的运作机理。对IT主管来说,可能就是很有效的决策帮助了。综合来看,这本书给人的定位更像是大数据技术解决方案的白皮书,在向大家陈述大数据的技术应用时,也很好的向大家介绍了整体的解决思路,对于想要全面了解大数据解决框架的人来说,是一个不错的选择,尤其是对那些大数据技术主管和相应的大数据产品经理来说。

精彩短评 (总计9条)

  •     写的还行,作者能结合技术和需求,可以参考和入门。
  •     挑了几个重点讲了下,全景图还不够完整
  •     比较全面,把技术体系较为系统的介绍了,难得的是,还有具体实践案例
  •     此书不错,将复杂的大数据知识写得很生动,和实践结合也比较紧密
  •     适合非技术人员。推荐。
  •     文字太差了。不过好在内容比较实在。
  •     内容组织得很好,覆盖面广,适合入门
  •     入门看看还行
  •     讲解很想详细,内容很丰富,可以对大数据的架构和业务有一个全面的了解,适合技术管理人员和架构师
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024