hbase架构及读写流程 - 好文

<>hbase架构及读写流程

1. hbase是主从架构
2. 角色：
**Client：**包含访问HBase的接口并维护cache来加快对HBase的访问
Zookeeper：
保证任何时候，集群中只有一个活跃master
存贮所有Region的寻址入口。
实时监控Region server的上线和下线信息。并实时通知Master
存储HBase的schema和table元数据
Master：
为Region server分配region
负责Region server的负载均衡
发现失效的Region server并重新分配其上的region
管理用户对table的增删改操作
RegionServer：
Region server维护region，处理对这些region的IO请求
Region server负责切分在运行过程中变得过大的region
Region：
HBase自动把表水平划分成多个区域(region)，每个region会保存一个表里面某段连续的数据
每个表一开始只有一个region，随着数据不断插入表，region不断增大，当增大到一个阀值的时候，region就会等分会两个新的region（裂变）

当table中的行不断增多，就会有越来越多的region。这样一张完整的表被保存在多个Regionserver 上。

Memstore 与 storefile：
一个region由多个store组成，一个store对应一个CF（列族）

store包括位于内存中的memstore和位于磁盘的storefile写操作先写入memstore，当memstore中的数据达到某个阈值，hregionserver会启动flashcache进程写入storefile，每次写入形成单独的一个storefile
当storefile文件的数量增长到一定阈值后，系统会进行合并（minor、major
compaction），在合并过程中会进行版本合并和删除工作（majar），形成更大的storefile,对于大范围合并，自动触发需要控制。

当一个region所有storefile的大小和数量超过一定阈值后，会把当前的region分割为两个，并由hmaster分配到相应的regionserver服务器，实现负载均衡
客户端检索数据，先在memstore找，找不到再找storefile

HRegion是HBase中分布式存储和负载均衡的最小单元。最小单元就表示不同的HRegion可以分布在不同的 HRegion server上。
HRegion由一个或者多个Store组成，每个store保存一个columns family。
每个Store又由一个memStore和0至多个StoreFile组成。如图：StoreFile以HFile格式保存在HDFS上。
3.读写流程
读流程：
1、客户端向zk中发送请求
2、从zk中拿到metadata的存储节点
3、去存储metadata的节点获取对应region的所在位置
4、访问对应的region获取数据
5、先去memstore中查询数据，如果有结果，直接返回
6、如果没有查询到结果，去blockcache查找数据，如果找到，直接返回
7、如果没有找到，去storefile中查找数据，并将查询到的结果缓存会blockcache中，方便下一次查询
8、将结果返回给客户端
注意：blockcache是缓存，有大小限制，会有淘汰机制，默认将最早的数据淘汰
写流程：
1、client向zk发送请求
2、从zk中拿到metadata的存储节点
3、去存储matadata的节点获取对应region所在的位置
4、访问对应的region写数据
5、首先会向wal中写数据，写成功之后才会存储到memstore
6、当memstore中的数据量达到阈值之后，进行溢写，溢写成storefile
7、store file是一个个的小文件，会进行合并（minor,major）
8、store file是对hfile的封装，hfile是实际存储再hdfs上的数据文件

热门工具换一换