数据仓库应用指南

当前位置:首页 > 计算机网络 > 数据库 > 数据仓库应用指南

出版社:机械工业出版社华章公司
出版日期:2012-3-24
ISBN:9787111370444
作者:Robert Laberge
页数:316页

章节摘录

3.6 “Just Build It”模式数据仓库战略是纯粹基于IT解决方案。在供应链管理中,这就是所谓的“按库存生产(make-to-stock)”式的项目,期望当环境建成后,消费需求会蒸蒸日上。通常情况下,这项工作源于数据架构、数据库组或一位看到了数据仓库所带来的收益并且相信不论公司战略方向是否有明确提出,企业都应该朝着这个方向发展的新的IT经理。“Just-build-it”模式是纯粹的自上而下的解决方案,基于设计中央数据层来确定企业中的所有数据。当然,这种方式包含一定的优先级排序,以确保已经捕获了企业的基础数据。这通常涉及企业的主交易数据以及主要的主题区域,即“数据柱”(data pillars)。举个例子,在通信企业中,大部分部门的主数据组件是呼叫详细记录(call detail records,CDRs)。因此,所有的呼叫详细记录信息都会被捕获,它包括被叫和主叫电话号码、所有通话涉及的运营商、通话历时、通话费用、通话时间、通话类型(语音、短信、数据等),以及基础数据柱:客户、产品和位置数据。对于零售业,初始“Just-build-it”式数据仓库构建将侧重于销售点的交易:产品标识、销售金额、销售量等。“Just-build-it”式解决方案的好处在于IT部门有愿景,从长远来看可以给企业带来积极效益——至少他们相信如此。这种方案的缺点在于IT部门纯属按照自己的意愿来构建数据仓库,缺乏考虑商业用途。这意味着预算会很低,该项目很可能会成为某位数据大师或经理的“私人项目”(pet project)。通常情况下,IT部门期望寻求业务部门中间管理层的支持,而不需要更高管理层的支持。在这些情况下,通常会创建一个“本地”(home-grown)数据模型。如果构建数据模型时考虑了系统灵活性,一切都会进展良好。如果数据模型构建是基于“一步登天”的想法,即试着一次性完成对所有数据的分析,其工作量将会严重过大,因为一次性想要完成地太多。你可能听说过几年前所做过的这种尝试,或者有人试图这么做,结果是项目变得过于庞大,资源变得非常紧张,因而只好放弃了。当购买一个已构建的数据模型,并在后面的工作中考虑数据结构和企业,这种方式往往是最好的。如果企业数据模型是基于先前某个项目工作的“本地”模型,可能会发现为了第二个、第三个以及后面的所有项目,模型都需要不断做出改变。最终结果是企业全局视图由于不断的重设计而逐渐销蚀。预先购买模型能够支持某些结构,从而知道在构建中每个元素的地位,对于后面的数据组织也提供了一个很好的方式。关于数据模型结构化的更多信息将在本书的第二部分详细阐述。这些“Just-build-it”式数据仓库解决方案可能也会带来很坏的影响,因为他们以近乎说教的方式在企业内宣传其解决方案。业务人员开始厌倦于听他们应该做什么这样的说教,往往采取回避方式。需要提醒一点的是,一旦拉到一个赞助商,就可以重点集中,开发工作就可以实现快速向前发展对于后期的完善,“Just-build-it”式数据仓库解决方案代价很高,而且缺乏重点。如果工作只是为了创建企业字典和企业逻辑数据模型而没有报表,没有数据库环境,没有ETL功能,仅仅是简单的有时包含数据搜寻(data sourcing)数据设计实践,然后就是完成这些实践。记住,数据仓库应该能够提升企业价值。如果数据仓库的构建工作包含企业数据库的构建,这看起来是个好主意,但是缺乏投资回报率关联,因此不具备商业用途和价值。数据建模人员应该致力于哪一方面:客户、产品还是事件?如果IT战略是为了构建这样的环境,那么应该有赞助、预算、重点以及商业价值。如果构建该数据仓库是某位经理的提案,可能在资源分配和工作上存在机会成本,它会影响当前的业务计划。

前言

前言本书对数据仓库世界中很多主题进行了探讨。本书旨在从业务和技术角度说明数据仓库系统的构建,侧重于简单朴实地描述如何构建切实的解决方案。这些见解来源于我30多年在20多个国家中50多家企业的亲身经历,在这些经历中,我曾作为独立顾问、员工以及IBM产业模式和资产实验室的合伙人,见证了很多数据仓库的实施过程。本书介绍了构建数据仓库的组件和不同选择,以及选择某种方式的利弊。每家企业的数据仓库构建都是具有其特色的,但可以借鉴全球范围内很多企业的各种数据仓库和商务智能环境中获取的知识。本书首先从高层角度介绍了数据仓库主题,以确保对术语和上下文理解一致,然后详细说明了各个主题。这些主题都和数据仓库、商务智能和性能管理相关。对于数据仓库的构建不存在规则,但是有很多指南。本书的主要根本点是根据具体的和对业务需求的理解,构建适应特定企业需求的解决方案,同时为今后的工作创建一个开放、灵活的架构基础。很多企业在初始包含商务智能报表的集中式数据仓库的构建上花费了大量的预算,结果却发现其创建的解决方案过于具体,只适合一两个用途,而无法满足后期的需求。当然,我们无法对未来进行预测,但是可以在一定程度上预期今后的数据需求和使用方式,确保设计和构建环境灵活、开放,对于变化可扩展而不需要每次重新设计和构建。很多企业的领导人意识到企业数据是企业的基础资产,必须对它进行组织、结构化和维护,以保证其业务信息有较好的质量和管理,从而在整个企业范围内共享。如果没有信息系统,企业就无法运作,而如果没有商业目的,信息系统就不复存在。它们相互依存,应该充分意识到信息架构和使用方式,以使得企业变得更加智慧。本书结构第一部分:准备第一部分介绍商务智能和数据仓库的基础概念,旨在介绍基础知识,为管理工作奠定基础。第1章:数据仓库和商务智能概述该章概要介绍了商务智能和数据仓库,最后提出了和数据仓库实现相关的高层次问题。第2章:企业中的数据该章探讨了数据如何作为企业资产,并提出关于如何组织数据的见解。第3章:为什么创建数据仓库该章探讨了支持和反对构建数据仓库的各种理由。“支持”的理由在于已经有一些构建数据仓库的经典场景,而“反对”的理由在于企业的文化和局限性能否推动项目向前发展。第4章:数据仓库和商务智能战略该章给出了构建数据仓库和商务智能行动的一些规划,探讨从何处以及如何启动项目,这取决于这项工作是面向商业报表解决方案,还是努力将数据进行组织和结构化。第5章:项目资源:角色和洞察力该章讨论了数据仓库项目的关键角色,以及最佳实践的团队结构。第6章:项目总结概论该章简要介绍了项目章程、项目范畴和工作说明书的内容。第二部分:组件第二部分介绍了数据仓库系统的基础组件,深入分析了数据仓库和商务智能系统的技术方面。这部分具体探讨了数据仓库系统中用以维护企业资产和提供商务智能支持工作的各个组件。第7章:商务智能:数据集市及其使用方式该章从数据模型到性能问题,详细探讨了数据集市及其使用方式。第8章:企业数据模型该章讨论了企业数据模型、如何构建企业数据模型的一些实例以及一般问题。第9章:数据仓库架构:组件该章从建模和数据流角度探讨了数据仓库架构的不同类型。第10章:ETL和数据质量该章探讨了数据仓库中的数据采集层和分发层的一些普遍特征,并提出关于数据质量问题的一些见解。第11章:项目规划和方法论该章讨论了数据仓库和商务智能项目规划的一些方法。第三部分:构建第三部分从实践角度说明了如何构建数据仓库系统。这部分旨在介绍经典的构建场景和工作,以及数据监理和对后期工作的审查。第12章:工作场景该章介绍了如何使用自上而下、自下而上和混合式方法来构建数据仓库和商务智能系统,并讨论了一些其他主题,包括简要介绍企业信息架构。第13章:数据监理该章探讨了企业数据监理,包括企业结构、数据质量、所有权和变更管理。第14章:项目后评审该章探讨了数据仓库和商务智能项目在开发完成后的一些方面。本书力争做到成为构建数据仓库系统的完整指南,目标是理解当今数据仓库系统中的很多问题,并从多个角度提出自己的观点。作者希望本书能够帮助你构建好自己的数据仓库。希望你喜欢本书!

内容概要

Robert (Bob) Laberge是多家互联网企业的创始人、IBM产业模式和资产实验室的首席顾问,他的研究重点是数据仓库和商务智能解决方案。
Bob早在20世纪70年代末就开始其职业生涯,当时比尔·盖茨还只是一个百万富翁,Bob曾经是开发人员、数据库管理员、数据建模师、项目经理、数据架构师、企业信息架构师、数据仓库/商务智能审计员、战略师,而且还是富于创新的企业家。从那时,Bob就跑遍全球,通过设计、优化、最佳实践和在概念层、逻辑层和物理层的常识说明,提供指导、培训和证明数据仓库和商务智能实践经验和解决方案。Bob成功地帮助了50多家大型企业扩展业务,这些企业涉及零售、保险、医疗、铁路、电信、电子商务和银行等行业。
Bob拥有英国Durham大学的工商管理硕士学位。你可以通过datawarehousementor@gmail.com联系他。

书籍目录

译者序
前言
作者简介
第一部分 准备
第1章 数据仓库和商务智能概述
1.1 商务智能概述
1.1.1 定义
1.1.2 商务智能的价值
1.1.3 剖析商务智能
1.1.4 商务智能的成功要素
1.1.5 商务智能的目标
1.1.6 BI用户展现层
1.1.7 BI工具和架构
1.1.8 全球化带来的发展
1.2 数据仓库概述
1.2.1 定义
1.2.2 数据仓库系统
1.2.3 数据仓库架构
1.2.4 数据流术语
1.2.5 数据仓库目标
1.2.6 数据结构化策略
1.2.7 数据仓库业务
1.3 常见问题
1.3.1 当前系统是否足够好
1.3.2 数据仓库的价值
1.3.3 成本多高
1.3.4 时间多长
1.3.5 成功的因素
第2章 企业中的数据
2.1 企业资产
2.1.1 具有上下文的数据
2.1.2 数据质量
2.1.3 数据字典
2.1.4 数据组件
2.2 组织数据
2.2.1 对数据结构化
2.2.2 数据模型
2.2.3 数据架构
2.3 竞争优势
2.3.1 构建还是购买数据模型
2.3.2 指导业务
第3章 为什么创建数据仓库
3.1 平台迁移
3.1.1 业务连续性
3.1.2 逆向工程
3.1.3 数据质量
3.1.4 并行环境
3.1.5 附加值
3.2 数据仓库集中化
3.2.1 企业间并购
3.2.2 企业内合并
3.2.3 集中式设计和局部使用
3.3 数据集市整合
3.4 新方案
3.5 新方案:动态报表
3.6 “Just Build It”模式
3.7 数据Floundation
3.8 不构建数据仓库的原因
3.8.1 数据质量差
3.8.2 缺乏商业目标
3.8.3 缺乏管理层支持
3.8.4 目标不明确
3.8.5 当前系统足够用
3.8.6 缺乏人才资源
3.8.7 环境不稳定
3.8.8 成本太高
3.8.9 管理不善
第4章 数据仓库和商务智能战略
4.1 商务智能战略
4.1.1 商业目标
4.1.2 商业用途
4.1.3 架构概览
4.2 数据仓库战略
4.2.1 用途
4.2.2 数据仓库架构
4.3 重点和成功
4.3.1 整个企业还是业务线
4.3.2 目标明确
4.3.3 成功:衡量的标准是什么
4.4 从何处着手
4.4.1 关于商务智能
4.4.2 关于数据仓库
4.5 如何开始
4.5.1 关于商务智能
4.5.2 关于数据仓库
4.6 项目阶段化
4.7 需要多长时间(重新回顾)
4.8 兴趣点
4.8.1 常见的失败原因
4.8.2 基本原则
第5章 项目资源:角色和洞察力
5.1 关键点
5.1.1 项目团队
5.1.2 资深专业知识
5.1.3 领导力
5.1.4 项目发起人
5.1.5 数据仓库管理层
5.2 团队结构
5.2.1 管理层发起人
5.2.2 数据管家
5.2.3 基本资源
5.3 定期审查:进度审核
5.4 能力中心
第6章 项目总结概论
6.1 项目章程
6.2 项目范畴
6.3 工作说明书
第二部分 组件
第7章 商务智能:数据集市及其使用方式
7.1 为什么要对数据建模
7.1.1 数据模型的类型
7.1.2 数据设计
7.2 事实表
7.2.1 事实的类型
7.2.2 事实表的类型
7.2.3 衡量指标来源
7.2.4 事实表关键字
7.2.5 事实表粒度
7.2.6 事实表密度
7.2.7 无事实的事实表
7.3 维度表
7.3.1 维度还是指标
7.3.2 历史表和日期表
7.3.3 维度表关键字
7.3.4 维度表的粒度
7.3.5 维度属性的来源和价值
7.3.6 维度类型
7.3.7 级别和辅助表
7.3.8 个人信息表
7.3.9 维度数
7.4 规模
第8章 企业数据模型
8.1 数据模型概览
8.2 构建企业数据模型的目标
8.3 企业数据模型的好处
8.4 数据模型:从何处开始
8.5 完全自上而下的数据模型
8.5.1 主题领域模型
8.5.2 概念模型
8.5.3 实体关系模型
8.6 总线结构
8.7 购买的数据模型
8.8 模型分析
8.8.1 数据组件
8.8.2 范化数据模型
8.8.3 超类和子类模型
8.8.4 在范化的数据模型中收集历史信息
8.8.5 代理键
8.8.6 逻辑和物理数据模型
8.8.7 是否具备参照完整性
8.9 其他数据模型
8.9.1 输入数据模型
8.9.2 临时存储数据模型
8.10 最后的思考
第9章 数据仓库架构:组件
9.1 架构概述
9.2 架构师角色
9.2.1 解决方案架构师
9.2.2 数据仓库架构师
9.2.3 技术架构师
9.2.4 数据架构师
9.2.5 ETL架构师
9.2.6 BI架构师
9.2.7 综合
9.3 体系结构分层
9.3.1 单层体系结构
9.3.2 经典的两层体系结构
9.3.3 高级的三层体系结构
9.4 数据仓库架构
9.4.1 单独的数据集市架构
9.4.2 总线结构
9.4.3 中央存储库架构
9.4.4 联合架构
9.5 组件(分层)
9.5.1 数据源
9.5.2 数据生成
9.5.3 数据组织
9.5.4 数据分发
9.5.5 信息输出
9.6 实现方式
9.6.1 数据设计和数据流
9.6.2 逻辑和物理模型
9.6.3 自上而下的方式
9.6.4 自下而上的方式
9.6.5 混合模式
9.7 捷径
9.7.1 数据采集层
9.7.2 中央数据层
9.7.3 数据分发层
9.7.4 表现层
9.7.5 用户展现层
9.7.6 方法论
9.7.7 现成的解决方案
第10章 ETL和数据质量
10.1 架构
10.1.1 数据获取
10.1.2 数据分发
10.1.3 ETL映射
10.1.4 初始加载和增量加载
10.1.5 ETL、ELT和ETTL
10.1.6 并行操作
10.1.7 ETL功能角色
10.1.8 数据流图
10.1.9 业务数据存储系统
10.2 数据源系统
10.2.1 没有数据源
10.2.2 多个数据源
10.2.3 其他来源(结构化输入文件)
10.2.4 非结构化数据
10.3 数据剖析
10.4 数据获取
10.4.1 多个大文件
10.4.2 伪文件
10.4.3 故障预防策略
10.5 转换和临时数据存储
10.5.1 准备工作
10.5.2 代理键
10.5.3 参照完整性
10.5.4 聚合、分析和汇总
10.5.5 编码表
10.6 加载
10.6.1 是否加载历史数据
10.6.2 插入、更新、插入或更新、删除
10.6.3 数据获取信息
10.6.4 加载调度
10.7 企业数据仓库的临时数据存储和总线架构的临时数据存储
10.8 数据分发
10.9 数据质量
10.10 ETL工具
第11章 项目规划和方法论
11.1 基础
11.1.1 风险:逐步发展
11.1.2 风险:数据质量
11.1.3 风险:资源
11.1.4 风险:成本
11.1.5 变更管理
11.1.6 最佳实践
11.2 错误
11.3 项目规划方法论
11.3.1 业务需求分析
11.3.2 战略和规划
11.3.3 解决方案纲要
11.3.4 设计
11.3.5 构建
11.3.6 部署
11.3.7 使用
第三部分 构建
第12章 工作场景
12.1 让我们开始“烹饪”吧
12.2 自上而下
12.2.1 字典
12.2.2 集中式数据模型
12.2.3 数据架构
12.2.4 数据源
12.2.5 数据模型
12.2.6 数据库
12.2.7 数据获取
12.2.8 解决方案概述
12.3 自下而上
12.3.1 最终结果
12.3.2 字典
12.3.3 数据架构
12.3.4 一致性维度的管理
12.3.5 数据源
12.3.6 解决方案概述
12.4 混合式
12.4.1 起步工作
12.4.2 数据模型
12.4.3 数据架构
12.4.4 解决方案概述
12.5 归并
12.6 没有输入:结构化的输入文件
12.7 集成的第二阶段
12.8 更大的框架:企业信息架构
第13章 数据监理
13.1 什么是数据监理
13.2 数据监理的原因
13.3 企业结构
13.4 驱动和启动
13.5 数据监理的主要方面
13.5.1 安全性和敏感性
13.5.2 数据质量
13.5.3 所有权
13.5.4 变更控制
13.6 数据监理的准备工作
第14章 项目后评审
14.1 概述
14.2 项目评审
14.3 后续工作

编辑推荐

《数据仓库应用指南:数据仓库与商务智能最佳实践》编辑推荐:设计、部署和管理自定义数据仓库;创建安全、开放和灵活的商务智能架构;规划未来数据需求和使用。

作者简介

本书全面系统地讲解如何规划、设计、构建和管理数据仓库/商务智能解决方案。介绍在数据仓库开发项目中如何激励用户,在整个企业范围内更好地驱动决策制定,从专业的开发和培训人员获取详细的指导和最佳实践经验。本书内容涉及如何选择恰当的组件、构建企业数据模型、配置数据集市和数据仓库、构建数据流并降低风险,还涉及项目开发中变更管理、数据监理和安全方面的问题。
主要内容:
· 理解BI和数据仓库系统组件
· 建立项目目标并有效制定部署计划
· 用数据挖掘发现组织内业务见解
· 使用ETL技术对数据进行输入、清洗和规范化
· 使用结构化输入文件来定义数据需求
· 使用自上而下、自下而上、混合的设计方式
· 使用数据监理工具来处理安全和性能优化问题

图书封面


 数据仓库应用指南下载 更多精彩书评



发布书评

 
 


精彩书评 (总计1条)

  •     忍不住写这篇书评,是看到相关售书网站对此书评价有些低。我来中和一下影响,免得好书被埋没。 如果你寻找的是一份“数据仓库建设How to ” 或者 “数据仓库建设 step by step”,那么这本书是不合适的。它突出的是过程顾问,又尽可能的剔除掉了许多技术边角料,几乎提纲挈领的谈及数据仓库建设的每个过程,还包括了原因分析和对业务需求的理解,以及技术之外的管理策略。作者列举了数据仓库开工建设前需要思考的问题:(1)价值;(2)当前状况;(3) 成本;(4)时间;(5)风险。 这就有点《代码大全》的味道了:动手之前,先给你讲一堆什么“隐喻”、“问题识别”、“问题定义”、N种需求整理方法。。。编码者会坐井观天的认为高屋建瓴的语言是废话。比如本书有一个章节列举的是“成功的关键要素”:清晰的蓝图和计划、获得管理层的支持和资助、数据管理和质量问题、用户需求和解决方案的映射、BI系统的性能、健壮和可扩展的框架。乍一看很虚,几乎等于没说。如果等到一个项目实施下来,总结一些失败要点的时候,你会发现这几乎就是预言。行文比较白话,但此书作者不是菜鸟。

精彩短评 (总计32条)

  •     个人觉得这本书的内容不行
  •     不愧为最佳实践...
  •     书的质量还可以,但是翻译一般,所以花了280买了本英文版在看
  •     信息较为陈旧,内容一般
  •     书涉及的内容多,都是一些基础性的介绍,可以作为参考。如果要追求技术细节,每一章都是一个大的题目。总体来说,书还不错。每次送到的书,都有一些小的折痕,算是一个遗憾。
  •     对于建设数据仓库建设具有很强的指导意义
  •     大三大四的撒啊啊啊啊啊啊啊啊啊
  •     自己觉得内容跟期望还是有相当大差距的,建议买INMON的kimball的吧。
  •     是讲挖掘的工序流程的啊....行业良心啊有木有
  •     实际的例子挺多的,就是贵了点~
  •     数据仓库应用指南
  •     书是正版的,塑封还没拆。
  •     价格略贵,性价比不高
  •     书非常不错,值得购买。正在阅读中
  •     这本书很好 值得一看 对学习数据仓库很有用
  •     这本书勉勉强强算是可以,内容太泛泛而谈,空洞无物,对于开发人员而言不是很实用。
  •       忍不住写这篇书评,是看到相关售书网站对此书评价有些低。我来中和一下影响,免得好书被埋没。
      如果你寻找的是一份“数据仓库建设How to ” 或者 “数据仓库建设 step by step”,那么这本书是不合适的。它突出的是过程顾问,又尽可能的剔除掉了许多技术边角料,几乎提纲挈领的谈及数据仓库建设的每个过程,还包括了原因分析和对业务需求的理解,以及技术之外的管理策略。
      作者列举了数据仓库开工建设前需要思考的问题:(1)价值;(2)当前状况;(3) 成本;(4)时间;(5)风险。 这就有点《代码大全》的味道了:动手之前,先给你讲一堆什么“隐喻”、“问题识别”、“问题定义”、N种需求整理方法。。。编码者会坐井观天的认为高屋建瓴的语言是废话。比如本书有一个章节列举的是“成功的关键要素”:清晰的蓝图和计划、获得管理层的支持和资助、数据管理和质量问题、用户需求和解决方案的映射、BI系统的性能、健壮和可扩展的框架。乍一看很虚,几乎等于没说。如果等到一个项目实施下来,总结一些失败要点的时候,你会发现这几乎就是预言。
      行文比较白话,但此书作者不是菜鸟。
  •     又是大学教材般的封面,极烂。这本我只花了11分钟就翻完了,就看了几张图。
  •     加强对数据仓库与Bi的理解
  •     书有点薄,写的还行。
  •     公司用,买来看看
  •     1.在高层面上介绍了数据仓库,以及数据仓库项目管理实施的最佳实践。不涉及太多技术细节,适合高管扫盲,全员培训,以及程序员入门。
  •     听说的:这本书勉勉强强算是可以,内容太泛泛而谈,空洞无物,对于开发人员而言不是很实用
  •     我认为,不论是被《数据仓库》启蒙还是从《数据仓库工具箱》出发,一定都有过疑问,哪一派的招式更强,是否另外一种架构思路更好使。这本书的最大亮点即是把Inmon和Kimball的理论 (总线架构/中央存储架构)的优劣分析得十分清楚。并提出了"联合架构"的方案(可操作性另说)。
  •     内容讲得不详细。
  •     “高级管理层的支持和资助”,很重要。
    几千万的项目,没有高层背书和力推,很难坚持到最后。
  •     对数据仓库有一个笼统的介绍,不是特别详细
  •     还可以值的一读。
  •     很不错,非常好,有意义
  •     项目实例太少
  •     不错,用来了解数据仓库和BI
  •     书写的挺实用
 

外国儿童文学,篆刻,百科,生物科学,科普,初中通用,育儿亲子,美容护肤PDF图书下载,。 零度图书网 

零度图书网 @ 2024