Hive编程指南

出版社:人民邮电出版社
出版日期:2013-12-1
ISBN:9787115333834
作者:卡普廖洛 (Edward Capriolo),万普勒 (Dean Wampler),卢森格林 (Jason Rutherglen)
页数:318页

内容概要

Edward Capriolo：Media6degrees公司系统管理员，他是Apache软件基金会成员，还是Hadoop-Hive项目成员。

Dean Wampler：Think Big Analytics公司总顾问，对大数据问题以及Hadoop和机器学习有专门的研究。

Jason Rutherglen：Think Big Analytics公司软件架构师，对大数据、Hadoop、搜索和安全有专门的研究。

书籍目录

第1章基础知识

1.1Hadoop和MapReduce综述

1.2Hadoop生态系统中的Hive

1.2.1Pig

1.2.2HBase

1.2.3Cascading、Crunch及其他

1.3Java和Hive：词频统计算法

1.4后续事情

第2章基础操作

2.1安装预先配置好的虚拟机

2.2安装详细步骤

2.2.1装Java

2.2.2安装Hadoop

2.2.3本地模式、伪分布式模式和分布式模式

2.2.4测试Hadoop

2.2.5安装Hive

2.3Hive内部是什么

2.4启动Hive

2.5配置Hadoop环境

2.5.1本地模式配置

2.5.2分布式模式和伪分布式模式配置

2.5.3使用JDBC连接元数据

2.6Hive命令

2.7命令行界面

2.7.1CLI选项

2.7.2变量和属性

2.7.3Hive中“一次使用”命令

2.7.4从文件中执行Hive查询

2.7.5hiverc文件

2.7.6使用HiveCLI的更多介绍

2.7.7查看操作命令历史

2.7.8执行shell命令

2.7.9在Hive内使用Hadoop的dfs命令

2.7.10Hive脚本中如何进行注释

2.7.11显示字段名称

第3章数据类型和文件格式

3.1基本数据类型

3.2集合数据类型

3.3文本文件数据编码

3.4读时模式

第4章HiveQL：数据定义

4.1Hive中的数据库

4.2修改数据库

4.3创建表

4.3.1管理表

4.3.2外部表

4.4分区表、管理表

4.4.1外部分区表

4.4.2自定义表的存储格式

4.5删除表

4.6修改表

4.6.1表重命名

4.6.2增加、修改和删除表分区

4.6.3修改列信息

4.6.4增加列

4.6.5删除或者替换列

4.6.6修改表属性

4.6.7修改存储属性

4.6.8众多的修改表语句

第5章HiveQL：数据操作

5.1向管理表中装载数据

5.2通过查询语句向表中插入数据

5.3单个查询语句中创建表并加载数据

5.4导出数据

第6章HiveQL：查询

6.1SELECT…FROM语句

6.1.1使用正则表达式来指定列

6.1.2使用列值进行计算

6.1.3算术运算符

6.1.4使用函数

6.1.5LIMIT语句

6.1.6列别名

6.1.7嵌套SELECT语句

6.1.8CASE…WHEN…THEN句式

6.1.9什么情况下Hive可以避免进行MapReduce

6.2WHERE语句

6.2.1谓词操作符

6.2.2关于浮点数比较

6.2.3LIKE和RLIKE

6.3GROUPBY语句

6.4JOIN语句

6.4.1INNERJOIN

6.4.2JOIN优化

6.4.3LEFTOUTERJOIN

6.4.4OUTERJOIN

6.4.5RIGHTOUTERJOIN

6.4.6FULLOUTERJOIN

6.4.7LEFTSEMI—JOIN

6.4.8笛卡尔积JOIN

6.4.9map—sideJOIN

6.5ORDERBY和SORTBY

6.6含有SORTBY的DISTRIBUTEBY

6.7CLUSTERBY

6.8类型转换

6.9抽样查询

6.9.1数据块抽样

6.9.2分桶表的输入裁剪

6.10UNIONALL

第7章HiveQL：视图

7.1使用视图来降低查询复杂度

7.2使用视图来限制基于条件过滤的数据

7.3动态分区中的视图和map类型

7.4视图零零碎碎相关的事情

第8章HiveQL：索引

8.1创建索引

8.2重建索引

8.3显示索引

8.4删除索引

8.5实现一个定制化的索引处理器

第9章模式设计

9.1按天划分的表

9.2关于分区

9.3唯一键和标准化

9.4同一份数据多种处理

9.5对于每个表的分区

9.6分桶表数据存储

9.7为表增加列

9.8使用列存储表

9.8.1重复数据

9.8.2多列

9.9（几乎）总是使用压缩

第10章调优

10.1使用EXPLAIN

10.2EXPLAINEXTENDED

10.3限制调整

10.4JOIN优化

10.5本地模式

10.6并行执行

10.7严格模式

10.8调整mapper和reducer个数

10.9JVM重用

10.10索引

10.11动态分区调整

10.12推测执行

10.13单个MapReduce中多个GROUPBY

10.14虚拟列

第11章其他文件格式和压缩方法

11.1确定安装编解码器

11.2选择一种压缩编／解码器

11.3开启中间压缩

11.4最终输出结果压缩

11.5sequencefile存储格式

11.6使用压缩实践

11.7存档分区

11.8压缩：包扎

……

第12章开发

第13章函数

第14章Streaming

第15章自定义Hive文件和记录格式

第16章Hive的Thrift服务

第17章存储处理程序和NoSQL

第18章安全

第19章锁

第20章Hive和Oozie整合

第21章Hive和亚马逊网络服务系统（AWS）

第22章HCatalog

第23章案例研究

术语词汇表

作者简介

市场中第一本Hive图书。

Hive在Hadoop系统中的应用趋势比较可观。

Hive编程指南下载精选章节试读

发布书评

精彩短评 (总计44条)

简单使用，简单简单翻翻，都看着很通顺。
从这本书入门的大数据，第1章基础知识简明扼要，对小白很友好的介绍了整个Hadoop生态环境。只精读了3-6章和13章，其他有个大致印象需要时再翻书。
错字太多了
2016.06.13～翻了两天，说好的我们只要提取数据就可以的呢？心塞，虽然原理啥的我也母鸡～
入门书
简单的略过一遍，用多半天，还是不错的，可以对hive有个不错的了解
这书不错，写的很详细，像一本guide book，告诉你hive有哪些功能。
非常完整的入门书籍，详细介绍使用方法和相关原理，值得常备
详细实用！
手册。
hive工具书，没有太多的理论知识，重复一次，工具书。
很好读，带你入门Hive世界。
hive入门时经常翻阅
工具书，通读一遍还是挺有帮助的
Hive入门，对有SQL经验的读者来说，就只需要关注与以往知识点不一致的地方即可。更深入的话，就需要在实践中考虑如何优化了。
扫了一遍基本理解
hadoop生态系统一员，在数据处理、挖掘中有自己独特的地位，语法沿用SQL，很好的接近了自然语言，使用简单，书中案例多，接近业务需求，使用方法也足够详细，缺点是有部分伪代码。
hive编程入门，虽然里面的代码不少是需要修正的，但瑕不掩瑜，是本入门好书
讲的比较浅，属于入门书籍
讲真，还是你团提供的那几个时间和日期函数极大提升工作效率
版本较久，较全，但是每一部分都不是很深入，适合入门。
还行，由于之前还算熟悉hive，粗略看了一遍，挑选自己感兴趣的内容，书中主要是讲hive日常的使用，功能的介绍，还讲得比较全面，不过没有设计到hive原理的内容，比方说怎么执行mapreduce，map join中，要注意什么事情等。
大概扫了一遍，有时间再细读
用作HiveQL入门教材的，但SQL只占两章，Hive的大环境倒是讲得深入浅出，不错的扫盲书
同行推荐，尝试搭配mongodb使用 // 介绍了hive的安装，HQL语法，开发配置等等.还是比较偏入门和可操作性的
手册
该有的内容都有，整本书看下来还是很不错的，我用做入门书籍来看的
long ago
有日子没读纸质版书籍了。不错的Hive入门书籍
Hive新手可以读一下
很不错的一本 Hive 入门书，之所以说是入门书，是因为本书大部分内容都是比较基础的 Hive 内容，例如 HQL 以及 Hive 的一些边缘工具和配置等，比较适合 Hive 初学者学习，但是，需要说的是，玩大数据肯定要先懂 MR，不然玩 Hive 会跳很多很多坑
感觉就是把部署在Hadoop上的HBase对外映射了一个类似于SQL语句查询功能的接口。
Yes this is what i read for fun now.
1hive可以用类似MySQL方言的hsql去做数据分析，开发人员就不必研究hadoop复杂的api了 2hive可以用mr，也可以用spark跑 3hive适用于数据仓库软件，不适用与联机事务分析。
看看还是能建立一个whole picture
入门吧，闲着无聊翻了一遍，适合初学者
手册型。有点充字数。2小时翻一遍。碰到要用，回头再查就行了。
Hive 和 RDBMS 在使用上有啥区别么？从某个角度看 “没有区别！”
啧啧
表6-3聚合函数里关于percentile的几个函数的翻译是存在问题的，英文原文中“Return the percentile of int_expr ...”此处的percentile应当译作百分位数，而中文是翻译为百分比，此处是一个错误。后续
较基础，内容也较全。
还行吧，入个门
把Hive讲得很清楚了。
十分满足我需求。

Hive编程指南

发布书评

精彩短评 (总计44条)

类似图书

相关图书推荐