秒懂Hive架构!!! - 好文

Hive简介

Hive是为了简化用户编写MapReduce程序而生成的一种框架，Hive是建立在Hadoop之上的数据仓库基础构架、是为了减少MapReduce编写工作的批处理系统，Hive本身不存储和计算数据，它完
全依赖于HDFS和MapReduce。Hive可以认为是MapReduce的一个封装、包装。

Hive的体系结构可以分为以下几个部分：

①用户接口：包括shell命令、Jdbc/Odbc和WebUi，其中最常用的是shell这个客户端方式对Hive进行相应操作。

②Hive解析器(驱动Driver)：Hive解析器的核心功能就是根据用户编写的Sql语法匹配出相应的MapReduce模板，形成对应的MapReduce
job进行执行。

③Hive元数据库(MetaStore
)：Hive将表中的元数据信息存储在数据库中，如derby(自带的)、Mysql(实际工作中配置的)，Hive中的元数据信息包括表的名字、表的列和分区、表的属性(是否为外部表等)、表的数据所在的目录等。Hive中的解析器在运行的时候会读取元数据库MetaStore中的相关信息。

derby这个数据库具有很大的局限性：derby这个数据库不允许用户打开多个客户端对其进行共享操作，只能有一个客户端打开对其进行操作，即同一时刻只能有一个用户使用它，自然这在工作当中是很不方便的，所以我们要重新为其配置一个数据库——mysql。

④Hadoop：Hive用HDFS进行存储，用MapReduce进行计算-------Hive这个数据仓库的数据存储在HDFS中，业务实际分析计算是利用MapReduce执行的。

5 HiveServer2（HS2）是一个服务端接口，使远程客户端可以执行对Hive的查询并返回结果。目前基于Thrift
RPC的实现是HiveServer的改进版本，并支持多客户端并发和身份验证.

启动方式:
1 $HIVE_HOME/bin/hiveserver2 2 或者 3 $HIVE_HOME/bin/hive --service hiveserver2
6 HiveServer2 支持一个新的命令行Shell，称为Beeline，它是基于SQLLine
CLI的JDBC客户端。Beeline支持嵌入模式(embedded mode)和远程模式(remote
mode)。在嵌入式模式下，运行嵌入式的Hive(类似Hive CLI)，而远程模式可以通过Thrift连接到独立的HiveServer2进程上。从Hive
0.14版本开始，Beeline使用HiveServer2工作时，它也会从HiveServer2输出日志信息到STDERR。

从上面的体系结构中可以看出，在Hadoop的HDFS与MapReduce以及MySql的辅助下，Hive其实就是利用Hive解析器将用户的SQl语句解析成对应的MapReduce程序而已，即Hive仅仅是一个客户端工具。

Hive执行过程：

由客户端提供查询语句，提交给Hive，Hive再交给Driver处理:
1，Compiler先编译，编译时要从Metastore中获取元数据信息，生成逻辑计划；
2，生成物理计划；
3，由Driver进行优化；

4，Executor执行时对物理计划再进行分解成Job，并将这些Job提交给MR的JobTracker运行，提交Job的同时，还需要提取元数据信息关联具体的数据，这些元数据信息送到NN），JT拆分成各个Task进行计算，并将结果返回或写入HDFS。

热门工具换一换