大数据专题--Hive 与 impala_框架

由FaceBook开发，贡献给APache。

Hive是基于Hadoop的一个数据仓库工具，依赖HDFS完成数据存储，依赖于MapReduce处理数据。其本身并不存储数据。Hive 定义了简单的类 SQL 查询语言，称为 HQL，通过编写HiveQL语句，运行具体的MapReduce任务。

1）采用批处理方式处理海量数据。

2）提供了ETL工具。

Hive的体系结构可以分为以下几部分：

Hive 对外提供了三种服务模式，即 Hive 命令行模式（CLI），Hive 的 Web 模式（WUI），Hive 的远程服务（Client）。Hive 远程服务通过 JDBC 等访问来连接 Hive ，这是日常中最需要的方式。

元数据存储在Mysql或Derby中。Hive 中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。

由Cloudera公司开发的新型查询系统。

Impala元数据存储在Hive中，不能独立运行，依赖Hive元数据。

Impala执行查询时，不需要转换成MapReduce任务，可以直接与HDFS或HBase进行交互查询，查询效率远远高于Hive。

Impala采用与Hive相同的SQL语法，ODBC驱动程序和用户接口。

Impala主要由Impalad， State Store和CLI组成，执行查询的时候分布在多个节点上进行。

Impalad：负责协调客户端提交变得查询的执行，与HDFS的数据节点运行在同一节点上。

State Store：负责收集分布在集群中各个Impalad进城的资源信息用于查询调度。

CLI：提供给用户查询使用的命令行工具（Impala Shell使用python实现），同时Impala还提供了Hue，JDBC， ODBC使用接口。

DBeaver中配置的使用JDBC来访问。

其具体执行过程如下：

1、试用场景：

Hive：跑批

Impala：实时交互

2、计算方式：

Hive：依赖于MapReduce框架

Impala：直接分发执行计划到各个Impalad执行查询

3、资源使用情况：

Hive执行过程中，若内存放不下所有数据则会使用外存。

Impala只用内存。

依赖第三方组件： Meta store（mysql），hdfs，MapReduce

hive：

Client客户端 CLI、JDBC

Driver连接客户端与服务端的桥梁

SQL Pareser解析器，将SQL转换为抽象语法树AST

1将HQL语句转换为Token

2对Token进行解析，生成AST

Physical Plan编译器将AST编译生成逻辑执行计划

Query Optimizer优化器，对逻辑执行计划进行优化

1将AST转换为QueryBlock

2将QueryBlock转换为OperatorTree

3OperatorTree进行逻辑优化

4生成TaskTree

5TaskTree执行物理优化

Execution执行器把逻辑执行计划转换成可以运行的物理计划

1获取MR临时工作目录

3定义Mapper和Reducer

2定义Partitioner

4实例化Job

5提交Job

1以Antlr定义的语法规则，对SQL完成词法解析，将SQL转换为AST

2遍历AST，抽象出查询基本组成单元QueryBlock。

3遍历QueryBlock，将其转换为OperatorTree,逻辑执行单元

4利用逻辑优化器对OperatorTree进行逻辑优化。

5遍历OperatorTree转换为TaskTree，将逻辑执行计划转化为物理执行计划

6使用物理优化器对TaskTree进行物理优化

7生成最终的执行计划，提交执行

$HIVE_HOME/bin/hive可以进入客户端

$HIVE_HOME/bin/hive -e "{SQL语句}"可以执行SQL语句

$HIVE_HOME/bin/hive -f {SQL文件名sql}可以执行sql文件

开启hiveserver2服务，可以通过JDBC提交SQL

创建Driver

创建OptionsProcessor

初始化log4j

标准输入输出以及错误输出流的定义,后续需要输入 SQL 以及打印控制台信息

解析输入的参数，包含"-e -f -v -database"

读取输入的sql

按照";"分割的方式解析

解析单行SQL

遇到为"quit"或者"exit"退出

遇到为"source"开头,执行 SQL 文件,读取文件并解析

如果命令以"!"开头,则表示用户需要执行 shell命令

以上三种都不是的情况下执行SQL，进行SQL解析

获取当前系统时间

获取系统结束时间

编译SQL语句

SQL生成AST，构建词法解析器，将关键词替换为TOKEN，进行语法解析，生成最终AST

处理AST,转换为QueryBlock然后转换为OperatorTree,对Operator进行逻辑优化，然后转换为任务树，然后进行物理优化。

根据任务树构建MrJob

添加启动任务,根据是否可以并行来决定是否并行启动Task

设置MR任务的InputFormat、OutputFormat 等等这些 MRJob 的执行类

构建执行MR任务的命令

向yarn提交任务

打印头信息

获取结果集并获取抓取到的条数

打印SQL执行时间及数据条数

11 什么是Hive

Hive：由Facebook开源用于解决海量结构化日志的数据统计。

Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类SQL查询功能。本质是：将HQL转化成MapReduce程序

Hive处理的数据存储在HDFS

Hive分析数据底层的实现是MapReduce

执行程序运行在Yarn上

12 Hive的优缺点

121 优点

*** 作接口采用类SQL语法，提供快速开发的能力（简单、容易上手）。

避免了去写MapReduce，减少开发人员的学习成本。

Hive的执行延迟比较高，因此Hive常用于数据分析，对实时性要求不高的场合。

Hive优势在于处理大数据，对于处理小数据没有优势，因为Hive的执行延迟比较高。

Hive支持用户自定义函数，用户可以根据自己的需求来实现自己的函数。

122 缺点

1．Hive的HQL表达能力有限

（1）迭代式算法无法表达

（2）数据挖掘方面不擅长

2．Hive的效率比较低

（1）Hive自动生成的MapReduce作业，通常情况下不够智能化

（2）Hive调优比较困难，粒度较粗

13 Hive架构原理

1．用户接口：Client

CLI（hive shell）、JDBC/ODBC(java访问hive)、WEBUI（浏览器访问hive）

2．元数据：Metastore

元数据包括：表名、表所属的数据库（默认是default）、表的拥有者、列/分区字段、表的类型（是否是外部表）、表的数据所在目录等；

默认存储在自带的derby数据库中，推荐使用MySQL替代derby存储Metastore

3．Hadoop

使用HDFS进行存储，使用MapReduce进行计算。

4．驱动器：Driver

（1）解析器（SQL Parser）：将SQL字符串转换成抽象语法树AST，这一步一般都用第三方工具库完成，比如antlr；对AST进行语法分析，比如表是否存在、字段是否存在、SQL语义是否有误。

（2）编译器（Physical Plan）：将AST编译生成逻辑执行计划。

（3）优化器（Query Optimizer）：对逻辑执行计划进行优化。

（4）执行器（Execution）：把逻辑执行计划转换成可以运行的物理计划。对于Hive来说，就是MR/Spark。

Hive通过给用户提供的一系列交互接口，接收到用户的指令(SQL)，使用自己的Driver，结合元数据(MetaStore)，将这些指令翻译成MapReduce，提交到Hadoop中执行，最后，将执行返回的结果输出到用户交互接口。

14 Hive和数据库比较

由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language)，因此很容易将 Hive 理解为数据库。其实从结构上来看，Hive 和数据库除了拥有类似的查询语言，再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中，但是Hive 是为数据仓库而设计的，清楚这一点，有助于从应用角度理解 Hive 的特性。

141 查询语言

由于SQL被广泛的应用在数据仓库中，因此，专门针对Hive的特性设计了类SQL的查询语言HQL。熟悉SQL开发的开发者可以很方便的使用Hive进行开发。

142 数据存储位置

Hive 是建立在 Hadoop 之上的，所有 Hive 的数据都是存储在 HDFS 中的。而数据库则可以将数据保存在块设备或者本地文件系统中。

143 数据更新

由于Hive是针对数据仓库应用设计的，而数据仓库的内容是读多写少的。因此，Hive中不建议对数据的改写，所有的数据都是在加载的时候确定好的。而数据库中的数据通常是需要经常进行修改的，因此可以使用 INSERT INTO … VALUES 添加数据，使用 UPDATE … SET修改数据。

144 索引

Hive在加载数据的过程中不会对数据进行任何处理，甚至不会对数据进行扫描，因此也没有对数据中的某些Key建立索引。Hive要访问数据中满足条件的特定值时，需要暴力扫描整个数据，因此访问延迟较高。由于 MapReduce 的引入， Hive 可以并行访问数据，因此即使没有索引，对于大数据量的访问，Hive 仍然可以体现出优势。数据库中，通常会针对一个或者几个列建立索引，因此对于少量的特定条件的数据的访问，数据库可以有很高的效率，较低的延迟。由于数据的访问延迟较高，决定了 Hive 不适合在线数据查询。

145 执行

Hive中大多数查询的执行是通过 Hadoop 提供的 MapReduce 来实现的。而数据库通常有自己的执行引擎。

146 执行延迟

Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce框架。由于MapReduce 本身具有较高的延迟，因此在利用MapReduce 执行Hive查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候，Hive的并行计算显然能体现出优势。

147 可扩展性

由于Hive是建立在Hadoop之上的，因此Hive的可扩展性是和Hadoop的可扩展性是一致的（世界上最大的Hadoop 集群在 Yahoo!，2009年的规模在4000 台节点左右）。而数据库由于 ACID 语义的严格限制，扩展行非常有限。目前最先进的并行数据库 Oracle 在理论上的扩展能力也只有100台左右。

148 数据规模

由于Hive建立在集群上并可以利用MapReduce进行并行计算，因此可以支持很大规模的数据；对应的，数据库可以支持的数据规模较小。

hive中有两种表：外部表和内部表（managed and external）。可以通过 desc formatted table_name 命令来查看表的信息，来辨别表是外部表还是内部表。在hive默认创建到表是内部表，外部表创建需要加 EXTERNAL 命令，如： CREATE EXTERNAL table_name 。

内部表的文件，元数据和统计信息等由hive进行管理，一般被存储在 hivemetastorewarehousedir 目录下，当表被删除或者分区被删除，相对应的数据和元数据就会被删除。一般用来当做临时表。

外部表与内部表相反，可以指定location，可以不基于hive来 *** 作外部表文件。当表被删除或者分区被删除时对应的数据还会存在。只是hive删除了其元信息,表的数据文件依然存在于文件系统中。若是表被删除，可以重新建这个表，指定location到数据文件处，然后通过msck repair table table_name命令刷新数据的元信息到hive中，也就是恢复了数据。

msck repair table 的详细用法就不讲了，可以参考 HIVE常用命令之MSCK REPAIR TABLE命令简述

1．语法

（1）load data:表示加载数据

（2）local:表示从本地加载数据到hive表；否则从HDFS加载数据到hive表

（3）inpath:表示加载数据的路径

（4）overwrite:表示覆盖表中已有数据，否则表示追加

（5）into table:表示加载到哪张表

（6）student:表示具体的表

（7）partition:表示上传到指定分区

2．实 *** 案例

（0）创建一张表

（1）加载本地文件到hive

（2）加载HDFS文件到hive中

上传文件到HDFS

加载HDFS上数据

（3）加载数据覆盖表中已有的数据

上传文件到HDFS

加载数据覆盖表中已有的数据

1．创建一张分区表

2．基本插入数据

3．基本模式插入（根据单张表查询结果）

4．多插入模式（根据多张表查询结果）（有问题，只是查询单表不同分区的）

根据查询结果创建表（查询的结果会添加到新创建的表中）

1．创建表，并指定在hdfs上的位置

2．上传数据到hdfs上

3．查询数据

注意：先用export导出后，再将数据导入。

1．将查询的结果导出到本地

2．将查询的结果格式化导出到本地

3．将查询的结果导出到HDFS上(没有local)

基本语法：（hive -f/-e 执行语句或者脚本 > file）

后续。

注意：Truncate只能删除管理表，不能删除外部表中数据

1．全表查询

2．选择特定列查询

注意：

（1）SQL 语言大小写不敏感。

（2）SQL 可以写在一行或者多行

（3）关键字不能被缩写也不能分行

（4）各子句一般要分行写。

（5）使用缩进提高语句的可读性。

1．重命名一个列

2．便于计算

3．紧跟列名，也可以在列名和别名之间加入关键字‘AS’

4．案例实 ***

查询名称和部门

（1）where针对表中的列发挥作用，查询数据；having针对查询结果中的列发挥作用，筛选数据。

（2）where后面不能写分组函数，而having后面可以使用分组函数。

（3）having只用于group by分组统计语句。

空字段赋值

5CASE WHEN

需求

求出不同部门男女各多少人。结果如下：

创建本地emp_sextxt，导入数据

创建hive表并导入数据

按需求查询数据

Order By：全局排序，一个Reducer

1．使用 ORDER BY 子句排序

ASC（ascend）: 升序（默认）

DESC（descend）: 降序

2．ORDER BY 子句在SELECT语句的结尾

3．案例实 ***

（1）查询员工信息按工资升序排列

（2）查询员工信息按工资降序排列

按照员工薪水的2倍排序

按照部门和工资升序排序

Sort By：每个Reducer内部进行排序，对全局结果集来说不是排序。

1．设置reduce个数

2．查看设置reduce个数

3．根据部门编号降序查看员工信息

4．将查询结果导入到文件中（按照部门编号降序排序）

Distribute By：类似MR中partition，进行分区，结合sort by使用。

注意，Hive要求DISTRIBUTE BY语句要写在SORT BY语句之前。

对于distribute by进行测试，一定要分配多reduce进行处理，否则无法看到distribute by的效果。

案例实 *** ：

当distribute by和sorts by字段相同时，可以使用cluster by方式。

cluster by除了具有distribute by的功能外还兼具sort by的功能。但是排序只能是升序排序，不能指定排序规则为ASC或者DESC。

1）以下两种写法等价

注意：按照部门编号分区，不一定就是固定死的数值，可以是20号和30号部门分到一个分区里面去。

Java连接Hive

利用jdbc连接到hive，使用Java程序写一个循环。

先获取全部表，然后show create table每个表。

没能尝试成功，一直连接不上：

import javasqlSQLException;

import javasqlConnection;

import javasqlResultSet;

import javasqlStatement;

import javasqlDriverManager;

public class HiveTestCase {

private static String driverName = "orgapachehivejdbcHiveDriver";

public static void main(String[] args)

throws SQLException {

try {

ClassforName(driverNa

show create table warehouse;

+----------------------------------------------------+

| createtab_stmt |

+----------------------------------------------------+

| CREATE EXTERNAL TABLE `warehouse`( |

| `w_warehouse_sk` bigint, |

| `w_warehouse_id` char(16), |

| `w_warehouse_name` varchar(20), |

| `w_warehouse_sq_ft` int, |

| `w_street_number` char(10), |

| `w_street_name` varchar(60), |

| `w_street_type` char(15), |

| `w_suite_number` char(10), |

| `w_city` varchar(60), |

| `w_county` varchar(30), |

| `w_state` char(2), |

| `w_zip` char(10), |

| `w_country` varchar(20), |

| `w_gmt_offset` decimal(5,2)) |

| ROW FORMAT SERDE |

| 'orgapachehadoophiveserde2lazyLazySimpleSerDe' |

| WITH SERDEPROPERTIES ( |

| 'fielddelim'='|', |

| 'serializationformat'='|') |

| STORED AS INPUTFORMAT |

| 'orgapachehadoopmapredTextInputFormat' |

| OUTPUTFORMAT |

| 'orgapachehadoophiveqlioHiveIgnoreKeyTextOutputFormat' |

| LOCATION |

| 'hdfs://mycluster/data/tpcds/2/warehouse' |

| TBLPROPERTIES ( |

| 'bucketing_version'='2', |

| 'serializationnullformat'='', |

| 'transient_lastDdlTime'='1616470752') |

+----------------------------------------------------+

以上就是关于大数据专题--Hive 与 impala全部的内容，包括:大数据专题--Hive 与 impala、hive核心组件及流程(一)、Hive入门概述等相关内容解答，如果想了解更多相关内容，可以关注我们，你们的支持是我们更新的动力！

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/web/9633447.html

大数据专题--Hive 与 impala

发表评论

评论列表（0条）