HBase理论_HBase架构组件介绍

        近来有些空闲时间,正好最近也在开发HBase相关内容,借此整理一下学习和对HBase组件的架构的记录和个人感受,付出了老夫不少心血啊,主要介绍的就是HBase的架构设计以及我的拓展内容。内容如有不当或有其他理解

matirx70@163.com

HBase架构设计

HBase master 架构介绍

        hbase master采用主备架构,master与regionserver采用主从架构(即一个HMaster会控制多个regionserver),HBase由zookeeper、HMaster、HRegionServer三部分组成,底层数据存储在HDFS上(存储到HDFS中的是Hfile文件)。

【个人拓展:主备架构和主从架构

        1、主备架构和主从架构有什么区别?

       主备架构:只有主库提供读写服务,备库冗余作故障转移用

hadoop中的namenode,一个是master(active),另一个master(standby)

也就是主机节点宕机了,另一台备用节点就会变为active,变为主,这是主备架构

        主从架构: master , slave

        就是我们namenode 下面挂着datanode ,他们之间的关系是主从,

        在CDH的平台上也可以看到它。具体操作如下进入到 HBase ->实例,可以看到Master和Regionserver。

                                                              【我自己拍的图】

        进入到配置中可以看到ZK,HBase要依赖ZK的,同时在下面有一个HBase的长连接的目录

                                                            【我自己拍的图】

        如何查看这个长连接目录?

# 进入集群,简单看一下zk存在的地方
[root@worker-1 ~]# zookeeper-client
[zk: localhost:2181(CONNECTED) 0] ls /
[hive_zookeeper_namespace_hive, zookeeper, ngdata, hbase, solr]
[zk: localhost:2181(CONNECTED) 1] ls /hbase
[meta-region-server, rs, splitWAL, backup-masters, table-lock, flush-table-proc, master-maintenance, online-snapshot, acl, switch, master, running, tokenauth, draining, namespace, hbaseid, table]
[zk: localhost:2181(CONNECTED) 2]  ls /hbase/master
[]#f防伪标识:作者csdn: matrix70     --->  xidaolaoli

 HBase官方架构图

                                       【HBase官方架构图】

【个人经验拓展架构图理解】

        这个官方的架构图有歧义,在Memstore溢写时,溢写到StoreFile中,StoreFile中实际存储的是HFile文件,StoreFile实际存储在HDFS上,即图中StoreFile应放在HDFS中,而不应该划分到Region中,这就是有歧义的地方。后续我会给出一个新的架构图。

        要记住这个Hlog是做什么的,一个regionserver下面只有一个Hlog,wal这里还有一个协处理器,可二次开发,但是要注意我们处理器是监控不了我们的TSV + bulkload的,基于HBase底层做二次开发的,要注意这一个点,协比如麒麟做一个二次开发。这是题外话了,我在这里简单扩展一下。

简述官方架构图功能:

Client客户端

        Client客户端,它提供了访问HBase的接口,并且维护了对应的cache来加速HBase的访问。

Zookeeper

        存储HBase的元数据(meta表),无论是读还是写数据,都是去Zookeeper里边拿到meta元数据告诉给客户端去哪台机器读写数据

HRegionServer regionServer 服务器端

        它是处理客户端的读写请求,负责与HDFS底层交互,是真正干活的节点。

总结大致的流程就是:client请求到Zookeeper,然后Zookeeper返回HRegionServer地址给client,client得到Zookeeper返回的地址去请求HRegionServer,溢写HRegionServer读写数据后返回给client。

HBase 架构组件介绍

HMaster

        HBase引入zookeeper,避免HMaster单点问题,HMaster主要负责table和region的管理工作:

        1 )管理用户的读写操作

        2 )管理HRegionServer的负载均衡,调整region分布,这是region切分的时候要用的

        3 )region split后,负责新region重分

        4 )在HRegionServer停机后,负责失效的HRegionServer上region的迁移,如果这个HRS服服务挂了,那么Master会把RegionServer中的Region中的数据迁移到正常的HRS中

【个人扩展-->如何解决主备的单点问题?】

        与Namenode的单点问题解决方式是同一个,Namenode中单点问题是通过zookeeper解决,即如果主节点挂掉,则zk中的临时节点就会消失,然后备用的节点重新注册一个临时节点,然后它就升级为主节点了。

HRegionServer

        是HBase中最核心的模块,也是干活的模块,一般HRegionServer会选择和DataNode部署在同一个节点,实现短路读/数据本地化,HRS主要功能:

        1 )维护Region,每个Region下面存着数据的,处理这些Region的IO请求

        2 )Regionserver负责切分在运行过程中逐渐变大的Region​ 一个HRegionServer下面可以有多个Region

HRegion/Region

        HBase使用rowkey将表水平切割成多个HRegion/Region.

【个人拓展理解-->HRegion】

        从HMaster的角度,每个HRegion都记录了startkey和endkey(第一个Region的startkey为空,最后一个Region的endkey为空),由于rowkey是有序的,有序就会做一个索引,因此client端可以通过HMaster快速定位到某个rowkey在哪个HRegion中,不需要全表去扫描了,通过key-value的形式就干出来了。

【个人拓展理解-->Rowkey是如何水平切分HRegion 】

        这一个可是精华,学习的时候理解了半天,当然,我还是会用图演示出来方便些,我愿称之为全网最NB的理解,请把NB打在评论区!!

        废话不多说:如果建表时未进行预分region,startkey和endkey都为空,则区间为(负无穷,正无穷),随着数据增加,region分裂后会生成新的region,此时startkey和endkey会生成具体的值。

【演示Rowkey是如何水平切分HRegion的】

【演示Region分裂】

【个人拓展->Region是怎样产生的】

        1)按照Rowkey预分Region

        2)如果没有按照Rowkey预分Region,则当一个Region达到一定的值的时候,会自动进行Region分裂。具体到什么值,后面我会详细来说说,哈哈哈。

HStore/Store

        每一个列族对应一个HStore/Store,一个HRegion/Region里包含一个或者多个HStore/Store,由此在设计cf时,尽量将同一系列的数据存在一个列族中,便于同一系列的数据都存在同一个region中。

【列族设计】

Hlog

        hbase WAL(write ahead log)(预写日志机制),在用户发起写请求时先向Hlog写一份,然后再将数据向memstore中写,Hlog数据是写磁盘,为了避免HRegionServer故障时memstore数据丢失,Hlog并不是无限去存储的,否则就冗余了,他也有阈值,会滚动更新,达到阈值,会提示memstore把数据溢写到HDFS上,等memstore的数据全部溢写到磁盘上,则Hlog的备份的数据会清空,而新数据的加入会对应冲抵掉较早的Hlog数据。

Memstore(阈值128M)

        hbase写缓存,在用户发起写请求时先写入hlog,然后再写入memstore中,当memstore写入达到flush阈值时,将memstore中的数据写到hdfs上(hfile),每个列族对应一个memstore,即一个HStore/Store中只有一个memstore。

storefile

        当memstore写数据达到设定的阈值之后,会将数据溢写到hdfs,即storefile,内部存储hfile。storefile会进行合并,否则可能出现小文件的问题,当storefile经过多次合并后变得已经达到指定规则的分裂阈值,则再进行region分裂。

HRS、DataNode、table、region、columnfamily、Hstore/store、memstore、storefile关系图,修正了部分

有空补充

参考资料:

1、hbase官网Apache HBase® Reference Guide

2、大神给我的讲解

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/15738.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

前端快速上手(一):HTML

目录 1. HTML 基础 1.1 HTML 标签 1.2 标签的结构关系 2. HTML 常见标签 2.1 标题标签: h1 - h6 2.2 段落标签: p 2.3 换行标签: br 2.4 图片标签: img 2.5 超链接: a 标签 2.5.1 外部链接 2.5.2 内部链接 2.5.3 文件资源链接 2.5.4 空链接 2.6 表格标签 2.7 表单…

QT<30> Qt中使鼠标变为转圈忙状态

前言:当我们在写软件时,在等待阻塞耗时操作时可以将鼠标变为忙状态,并在一段时间后恢复状态,可以用到GxtWaitCursor:Qt下基于RAII的鼠标等待光标类。 一、效果演示 二、详细代码 在项目中添加C文件,命名为…

Shell环境导致编译失败处理方法

在嵌入式Linux系统源码(BSP包)编译时,有可能会如现如下提示: [[: not found 这种提示,一般是Shell环境为dash而不是bash导致,可以通过如下命令来切换: sudo dpkg-reconfigure dash 执行后会…

nginx openresty lua-resty-http 使用的一些问题记录

需求背景 需求是使用 nginx 做一个 https 服务的代理 nginx 收到 http 请求后,需要修改 body 中的某些参数值,然后将修改后的数据发送到目标服务器(https) 本来以为很简单的需求,结果中间出现了不少岔子,这…

Redis的分布式锁分析

系列文章目录 Java项目对接redis,客户端是选Redisson、Lettuce还是Jedis? 由Redis引发的分布式锁探讨 系列文章目录一、什么是分布式锁?二、Redis分布式锁的几种实现1. 简单分布式锁2. Redlock 三、Redis 锁的问题1. 互斥失效2. 时钟偏移 四…

柯桥生活英语口语学习“面坨了”英语怎么表达?

“面坨了”英语怎么表达? 要想搞清楚这个表达,首先,我们要搞明白“坨”是啥意思? 所谓“坨”就是指,面条在汤里泡太久,从而变涨,黏糊凝固在一起的状态。 有一个词汇,很适合用来表达这…

鸿蒙NEXT应用示例:切换图片动画

【引言】 在鸿蒙NEXT应用开发中,实现图片切换动画是一项常见的需求。本文将介绍如何使用鸿蒙应用框架中的组件和动画功能,实现不同类型的图片切换动画效果。 【环境准备】 电脑系统:windows 10 开发工具:DevEco Studio NEXT B…

UAC2.0 speaker——speaker 数据传输

文章目录 麦克风数据传输准备音频数据抓包原始数据频谱分析(FFT)应用麦克风数据传输 上一节中实现了 USB 麦克风设备 本节主要介绍 MCU 麦克风的数据如何传输给上位机。 准备音频数据 MCU 端发送 48KHZ, 16bit 单声道的正弦波数据,正弦波数据的生成参考 音频——C语言生…

【多语言】每种语言打印helloworld,编译为exe会占多大空间

文章目录 背景c语言 53KBc 53KBgo 1.8Mdart 4.6Mpython未测试nodejs未测试rust未测试java未测试cmd || bash || powershell 未测试other 背景 各个版本的helloworld,纯属闲的, 环境如下: - win10 - mingw: gcc8.1.0 - go1.21 - dart3.5.4c语言 53KB gcc main.c -…

Android12的ANR解析

0. 参考: ANR分析 深入理解 Android ANR 触发原理以及信息收集过程 1.ANR的触发分类: ANR分为4类: InputDispatchTimeout:输入事件分发超时5s,包括按键和触摸事件。BroadcastTimeout:比如前台广播在10s内未执行完成&#xff0…

2022-2023全国高校计算机能力挑战赛区域赛python组编程题

mi目录 2022 1. 2. 1. 使用 format() 方法 2. 使用 f-string(Python 3.6 及以上) 2023 1. 2. 3. 4 闽农大宝玲楼 2022 1. 1.某动物研究员给动物园的动物们定了一个园区幸福值,其中园区幸福值的计算为一个园区内“所有动物的活动时…

函数的栈帧

前言: 1.请使用vs2013调试,我使用vs2019被恶心到了,封装严重,不利于观察。 2.函数栈帧:函数就是程序,程序就需要空间来运行,所以我们要为他分配空间,分配的空间用ebp esp维护&…

机器学习基础04

目录 1.朴素贝叶斯-分类 1.1贝叶斯分类理论 1.2条件概率 1.3全概率公式 1.4贝叶斯推断 1.5朴素贝叶斯推断 1.6拉普拉斯平滑系数 1.7API 2.决策树-分类 2.1决策树 2.2基于信息增益的决策树建立 2.2.1信息熵 2.2.2信息增益 2.2.3信息增益决策树建立步骤 2.3基于基…

如何解决IDE添加错误GitHub token后无法连接GitHub的问题

背景 当初学者首次使用IDE(IDEA、Xcode等)对GitHub仓库进行操作(push、fetch)时,会提示输入GitHub账户和token,如果这时候你一不小心输入了错误的token,之后你就叫天天不应叫地地不灵了&#xf…

PPT技巧:如何合并PPT文件?

在工作与学习中,PPT(PowerPoint)演示文稿已成为信息传递、项目汇报、教育培训等领域不可或缺的工具。随着任务的累积,我们往往会积累大量单独的PPT文件,每个文件可能包含特定章节、项目阶段或是不同主题的内容。为了更…

安全见闻1-5

涵盖了编程语言、软件程序类型、操作系统、网络通讯、硬件设备、web前后端、脚本语言、病毒种类、服务器程序、人工智能等基本知识,有助于全面了解计算机科学和网络技术的各个方面。 安全见闻1 1.编程语言简要概述 C语言:面向过程,适用于系统…

k-近邻算法(K-Nearest Neighbors, KNN)详解:机器学习中的经典算法

✅作者简介:2022年博客新星 第八。热爱国学的Java后端开发者,修心和技术同步精进。 🍎个人主页:Java Fans的博客 🍊个人信条:不迁怒,不贰过。小知识,大智慧。 💞当前专栏…

LeetCode297.二叉树的序列化和反序列化

题目要求 序列化是将一个数据结构或者对象转换为连续的比特位的操作,进而可以将转换后的数据存储在一个文件或者内存中,同时也可以通过网络传输到另一个计算机环境,采取相反方式重构得到原数据。 请设计一个算法来实现二叉树的序列化与反序…

蓝牙5.0模块助力闹钟升级,开启智能生活第一步

随着智能家居产业的快速发展,智能闹钟作为其中一个重要的品类,逐渐从单一的时间提醒功能演变为集音频播放、语音交互、智能控制等多种功能于一体的智能设备。而在这些功能的实现中,蓝牙音频模组扮演着核心角色。 1、蓝牙音频模组的功能概述 …

自己动手写Qt Creator插件

文章目录 前言一、环境准备1.先看自己的Qt Creator IDE的版本2.下载源码 二、使用步骤1.参考原本的插件2.编写自定义插件1.cmakelist增加一个模块2.同理,qbs文件也增加一个3.插件源码 三、效果总结 前言 就目前而言,Qt Creator这个IDE,插件比…