OceanBase 中 schema 的定义与应用

背景

经常在OceanBase 的问答社区 里看到一些关于 “schema 是什么” 的提问。

先纠正一些同学的误解, OceanBase 中的 Schema 并不简单的等同于 Database,本次分享将探讨 OceanBase 中的Schema是什么,及一些大家经常遇到的问题。 

具体而言,在 OceanBase 的 MySQL 模式、Oracle 模式以及其自身的元数据管理模块中,Schema 的概念和应用是存在差异的。

1691459740

1691459773

OB MySQL 模式中 schema 的概念

       Schema 是 Database 的同义词。SQL 中可以使用 Schema 关键字代替 Database 关键字,例如使用 CREATE SCHEMA 代替 CREATE DATABASE 等。

OB Oracle 模式中 schema 的概念

       在 OB 的 Oracle 模式中,Schema 是指一个用户所拥有的数据库对象的集合,用于权限管理和命名空间隔离,我个人把他理解成一个 “用户空间”。Schema 对象是指在某个 Schema 中的数据库对象,例如 Schema 中的表、视图、索引等;非 Schema 对象是指不属于某个 Schema 的数据库对象,例如用户、角色、表空间等。

       用户在创建时会拥有一个缺省的 Schema,其 Schema 名就等于用户名。如果有权限的话,用户还可以访问和使用其他的 Schema。在访问一个 Schema 中的对象时,如果没有指明该对象属于哪一个 Schema,系统就会自动给对象加上缺省的 Schema 名称。

       如果当前 user 拥有访问或修改其他 schema 对象的权限,可以通过 alter session set current_schema = other_schema_name; 切换到其他 schema 中进行各种操作。

OB 元数据管理模块中 schema 的概念

       Oceanbase 元数据管理模块里的 schema 泛指一切需要在集群范围内同步的数据库对象元信息,包括但不限于 table、database、user 等元信息。此外,Oceanbase 的 schema 是多版本的,内存中的 schema 信息在集群范围的同步是最终一致的。

schema 里有什么?

       schema 是什么解释完了,在社区里又会看到有人问,schema 是元信息,那么元信息里包含了哪些东西?

1691459787

       上面的回答中其实有个小的疏漏,因为各种数据库对象的元数据信息只会受 DDL 的影响,“预估行数” 属于不受 DDL 的影响,只受 DML 影响的统计信息,所以其实并不是表的元信息,table schema 中也不会对其进行记录。

       元信息里具体包含了哪些东西,可以参见 src/share/schema 路径下的代码。例如如果想看 table schema 中记录了哪些 table 的元数据信息,看 ob_table_schema.h 中的 ObTableSchema 及其父类有哪些类成员即可。

1691459798

DDL 执行过程

       上面回答了 schema 是什么、有什么的问题。因为 schema 只会通过 DDL 进行修改,所以这里简单提一下 DDL 的执行过程,方便大家在遇到 DDL 相关问题时进行排查。

       DDL 不会被优化器处理,而是作为 command 发送到 RootServer,由 RootServer(下简称 rs) 进行处理。在 OceanBase 里的执行流程如下:

1691459810

       以一个最常见的建表语句为例:

       create table 命令会在 obs 上对建表语句进行 resolve,把建表的信息存到 create_table_arg 中,把 create_table_arg 发 rpc 给 rs,rs 接下来会来执行如下操作:

  • 检查 obs 在 resolve 时使用的的 schema 版本是否最新(采用乐观锁的方法解决,如果非最新,则对这条 DDL 进行整体重试);
  • 从 __all_sys_stat 里获取一个租户内单调递增的新 table id;
  • 把 create_table_arg 里提供的信息插入到 __all_table_history 等内部表里用于持久化
  • 在 __all_ddl_operation 中记录 ddl 的变更日志(用于增量刷新等场景)
  • publish schema(通知各节点把 schema 刷到内存里)

1691461106

       其他 observer 接收到 RS 发送的 publish schema 的命令之后,就会把内部表中的改动增量加载到内存(schema cache)中,这也就是我们经常听到别人说的 “刷 schema”。

       rs 上的 ddl_service 调用 publish_schema() 将新的 schema 版本号广播给所有 obs 实际发生了什么?

  1. rs 自己所在的 obs 直接调用 refresh_schema。
  2. 给每个 alive obs 发送 switch_schema 的命令,参数为最新 schema_version。
  3. 各个 obs 收到指令后,生成一个 ObSchemaRefreshTask 异步刷新任务,通过这行这个任务把自己的 schema 刷到最新。

1691459823

附另一张图:

  • 图中上面的部分是在执行 DDL,RS 的 DDL service 服务会负责写内部表和通知各 observer 节点把元数据的修改加载到内存的 schema cache 中;
  • 下面的部分是在执行 query 的过程,过程中几乎都会读取内存中 schema cache 的元信息。

1691459832

一开始客户在社区里提的那个问题中的 GV$OB_SERVER_SCHEMA_INFO 可以理解为每台 ObServer 每个租户已经刷新的最新版本的 schema 的信息,这个视图用户比较关注的 schema 信息是 REFRESHED_SCHEMA_VERSION、SCHEMA_COUNT、SCHEMA_SIZE,其含义如下:

  • REFRESHED_SCHEMA_VERSION:对应租户在对应机器已刷新到的 schema 版本。
  • RECEIVED_SCHEMA_VERSION:对应租户在对应机器已已经接收到的 RS 发过来的最新刷新任务的 schema 版本。
  • SCHEMA_COUNT:对应 schema 版本下,各 schema 对象数目的总和(table 数目 + database 数目 +…)。
  • SCHEMA_SIZE:对应 schema 版本下,各 schema 对象总共所占的内存大小(B)。
obclient> select * from oceanbase.GV$OB_SERVER_SCHEMA_INFO\G
*************************** 1. row ***************************SVR_IP: 11.158.31.20SVR_PORT: 22602TENANT_ID: 1002REFRESHED_SCHEMA_VERSION: 1690109029768968RECEIVED_SCHEMA_VERSION: 1690113309637344SCHEMA_COUNT: 1583SCHEMA_SIZE: 1537240
MIN_SSTABLE_SCHEMA_VERSION: -1
1 row in set (0.01 sec)

DDL 和 schema 的问题排查方法

       既然都说了这么多了,那就再说下 DDL 和 schema 比较常见的几类问题。这一部分欢迎大家补充更好的排查问题方法~

执行 DDL 语法报错了,我该怎么改语法呢?

       客户经常会在试着自己把正在用的数据库上的元数据往 OceanBase 开源版本上倒腾,比如前几天见到一个客户希望把 pg 里的分区表定义放到 OB MySQL 模式的租户下执行下,但是报错了,然后就会认为 OB 不支持分区表。

CREATE TABLE value_stream_dashboard_counts (id bigint NOT NULL,namespace_id bigint NOT NULL,count bigint NOT NULL,metric smallint NOT NULL
)
PARTITION BY RANGE (id);

1691459848

       我们遇到这种问题应该怎么查 OB MySQL 模式下的对应语法呢?大家一般可能回去查各种各样的 OB 语法文档,但是 OB 语法随着兼容性的逐步完善而日新月异,文档内容其实没办法保证和真实支持的语法强一致(甚至连最终一致都不能保证)。想起师兄和我说的一句话:“文档很喜欢骗人,但是代码从不会说谎”,OB 社区版支持的所有语法其实都写在一个叫 sql_parser_mysql_mode.y 的 yacc 文件里。

       看完这个文件里的语法规则,我们就很容易把上面那条 SQL 改成 OB MySQL 模式下可以执行成功的 SQL。

CREATE TABLE value_stream_dashboard_counts (id bigint NOT NULL,namespace_id bigint NOT NULL,count bigint NOT NULL,metric smallint NOT NULL
)
PARTITION BY RANGE (id)(PARTITION p0 VALUES LESS THAN (100),PARTITION p1 VALUES LESS THAN (200),PARTITION p2 VALUES LESS THAN (300),PARTITION p3 VALUES LESS THAN MAXVALUE
);

执行 DDL 报了不太明确的错,我该怎么排查失败原因呢?

       比如,我执行了一条 DDL,它报错了,报错说我的 check 约束里出现了不允许被包含在 check 约束里的表达式,但具体是什么表达式不被允许?是 c1,是 =,是 sysdate(),还是 c1 = sysdate()?

obclient> create table t1(c1 int, check (c1 = sysdate()));
ERROR 3814 (HY000): An expression of a check constraint contains disallowed function.

       先查一下报错语句的 trace_id。

select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761A8-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

       那我们就通过 grep Y584A0B9E1F14-00060127094761B0-0-0 observer.log* 去捞下 observer 的日志。

1691459866

       这个 trace 对应的第一条 warning 日志说 :deterministic expr is wrongly specified in CHECK constraint(这条日志其实写的不对,本意应该是 not deterministic expr is wrongly specified in CHECK constraint),大概意思就是说 check 约束里面有个(非)确定性的表达式,这个是不被允许的。

       那么究竟什么表达式是非确定性的表达式呢?这个就需要根据日志里给出的文件和行号 ob_raw_expr_util.cpp:1856 去看一眼代码了,在网页上可以直接跳到具体某个函数的定义里,例如 ObRawExpr::is_non_pure_sys_func_expr。

       这里列出了所有 not deterministic 的表达式,其中就包含我们用到的 sysdate。

1691459880

       所以我们就可以大概知道 check 约束里的表达式需要保证多次执行都能得到同样的结果吧。像 sysdate 这种输出当前时间的表达式在多个不同的时间执行多次,结果必定是不一样的,所以不允许出现在 check 约束里。这里我们还可以趁机了解下还有哪些表达式属于 not deterministic 的。

执行 DDL 捞不到有用的日志怎么办?

       例如我执行了一个创建 database 的 DDL,结果报错了。

obclient> create database xiaofeng_db;
ERROR 4016 (HY000): Internal errorobclient> select last_trace_id();
+------------------------------------+
| last_trace_id()                    |
+------------------------------------+
| Y584A0B9E1F14-00060127094761B4-0-0 |
+------------------------------------+
1 row in set (0.00 sec)

拿着 trace id 捞日志,grep Y584A0B9E1F14-00060127094761B4-0-0 observer.log*,结果是 rpc error。

1691459893

回忆一下刚才说的 DDL 执行过程,DDL arg 会发到 RS 上执行,所以这种情况大概率是在 RS 上执行的时候出了什么幺蛾子,所以我们还需要通过 grep Y584A0B9E1F14-00060127094761B4-0-0 rootservice.log* | vi - 继续 grep 以下 RS 的日志,然后在日志文件里根据错误码 -4016 搜下 ret=-4016最早出现的地方。

       然后我们就可以发现日志里说是在 ob_root_service.cpp 文件的 2887 行报的错,报错原因是:create_database failed, because db_name is forbidden。这种问题大家先自己根据报错日志里的文件和行号简单分析下原因,如果还是没头绪的话,再找 OB 的技术支持同学协助分析。

       翻一下这个文件,哦,原来是是我为了构造在 RS 报错的场景故意在这里加了一个报错的错误码,说只要 create database 的 database_name 叫 xiaofeng_db,就报错 4016 OB_ERR_UNEXPECTED。

排查 DDL 和 schema 的问题时忽略 rootservice.log 日志是很常见的情况,曾经亲眼见过很多非常有经验的 OceanBase 内核研发专家不止一次因为这个问题浪费大量时间排查简单一个的小 bug。大家切记这类问题在 observer.log 没线索时,还要去看下 rootservice.log。

1691459923

刷 schema hang 住了怎么办?

       刷 schema hang 住是因为在把内部表的数据加载到内存中的过程中会进行一些 schema 的合法性校验,如果校验失败,就说明持久化在内部表里的元数据信息出问题了,这时 observer 就会 hang 住,什么都干不了。因为一旦元数据都错了,基于错误的元数据无论是执行 DDL、DML,还是执行查询 query ,都是错上加错,很容易产生大量正确性问题。这种情况出现的概率极低,但问题十分严重。

       如果执行 DDL hang 住了,并且在 RS 的日志里出现类似于 “Trying so hard to die” 和 “schema meta is still not consistent after rebuild, need fixing” 的信息,表明恢复环境需要人工接入去修改 OB 内部表中的错误信息,风险较高,建议及时找 OB 的技术支持同学帮忙排查问题根因及协助你恢复环境(如果是 OB 社区版,可以加入钉钉群:33254054 并 @群管理员)。

参考资料

MySQL 模式数据库对象概述:MySQL 模式数据库对象

Oracle 模式数据库对象概述:Oracle 模式数据库对象

研木在社区问答区的回答:4.0的GV$OB_SERVER_SCHEMA_INFO视图中的SCHEMA是什么 - #3,来自 坤易 - OceanBase - 社区问答- OceanBase社区-分布式数据库

OB 源码:oceanbase/src/share/schema/ob_table_schema.h at 9940650223427978ac634ff0d7423ab53c74a95e · oceanbase/oceanbase · GitHub

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.xdnf.cn/news/143219.html

如若内容造成侵权/违法违规/事实不符,请联系一条长河网进行投诉反馈,一经查实,立即删除!

相关文章

从Profinet到Ethernet IP网关技术重塑工业网络,数据传输更流畅

Profinet转Ethernet IP网关在未来工业领域可能产生以下重要影响并发挥关键作用:促进工业设备集成与互操作性:打破协议壁垒:在工业场景中,存在多种不同的工业以太网协议,设备往往因协议差异而难以直接通信。 Profinet转…

C语言实现汉诺塔

这是一个古典的数学问题,是一个只有用递归方法解决的问题。问题是这样的:古代有一个梵塔,塔内有3个座A,B,C,开始时A座上有64个盘子,盘子大小不等,大的在下,小的在上。有一…

MybatisPlus:多条件 or()的使用

default List<ErpProductDO> selectByOE(String oe1, String oe2){return selectList(new LambdaUpdateWrapper<ErpProductDO>().eq(ErpProductDO::getOe,oe1).or().eq(ErpProductDO::getOe,oe2)); } 对应SQL为&#xff1a;

SpringBoot 整合docker,执行容器服务

我使用以下文章的镜像作为演示镜像,读者有自己的镜像可以使用自己的 TencentARC/GFPGAN人脸恢复Ubuntu-22.04搭建(附带Docker镜像)_tencentarc gfpgan-CSDN博客 1. 封装springboot 启动docker容器的方法 public String runDockerCommand(String[] command) {StringBuilder res…

如何使用ssm实现基于WEB的文学网的设计与实现+vue

TOC ssm626基于WEB的文学网的设计与实现vue 第一章 绪论 1.1研究背景与意义 在科学技术水平还比较低下的时期&#xff0c;相关行业通常采用人工登记的方式对相关的文学信息进行记录&#xff0c;而后对这些信息记录进行管理和控制。这种采用纸质存储信息的管理模式&#xff…

rocky9.2的lvs的NAT模式下的基本使用的详细示例

文章目录 前言什么是LVS?&#xff08;Linux Virtual Server&#xff09;LVS的组成1. 负载均衡器&#xff08;Load Balancer&#xff09;2. 后端服务器池&#xff08;Real Servers&#xff09;3. IPVS&#xff08;IP Virtual Server&#xff09;4. 调度算法&#xff08;Schedul…

论文阅读 | 基于流模型和可逆噪声层的鲁棒水印框架(AAAI 2023)

Flow-based Robust Watermarking with Invertible Noise Layer for Black-box DistortionsAAAI, 2023&#xff0c;新加坡国立大学&中国科学技术大学本论文提出一种基于流的鲁棒数字水印框架&#xff0c;该框架采用了可逆噪声层来抵御黑盒失真。 一、问题 基于深度神经网络…

Nginx从入门到入土(二): 学习内容与安装

Nginx学习内容 1.理解Nginx在实际项目中的应用场景 2.理解正向代理和反向代理 3.Nginx在Linux和Windows上的安装 4.Nginx的运行模型概念与日志管理 5.Nginx.config核心配置文件与配置HTTPS证书 6.基于Nginx解决跨域&#xff0c;实现防盗链&#xff0c;缓存&#xff0c;压…

【深度学习实战—11】:基于Pytorch实现谷歌QuickDraw数据集的下载、解析、格式转换、DDP分布式训练、测试

✨博客主页&#xff1a;王乐予&#x1f388; ✨年轻人要&#xff1a;Living for the moment&#xff08;活在当下&#xff09;&#xff01;&#x1f4aa; &#x1f3c6;推荐专栏&#xff1a;【图像处理】【千锤百炼Python】【深度学习】【排序算法】 目录 &#x1f63a;〇、仓库…

DevEco Profiler调优工具(一)

一、Profiler调优工具简介 设备应用选择区&#xff1a;选择调优设备&#xff08;目前仅支持真机&#xff09;&#xff0c;进程列表及当前应用进程 会话列表区&#xff1a;已创建的调优分析任务&#xff0c;单击某会话数据区显示其调优内容&#xff1b;选择设备和进程后&#xf…

高原生态系统揭秘:食物网结构揭示食肉动物共存机制

凌恩推出eDNA多营养级联合分析助您攻克高原生境中不同营养级物种群落关联机制研究难题 北京大学姚蒙团队在《Current Biology》期刊上(IF9.2)发表了关于青藏高原食肉动物的食物网结构及其共存机制和群落构成的文章。该研究通过分析青藏高原三种食肉动物群落中食肉动物的食性&a…

从HarmonyOS升级到HarmonyOS NEXT-环信SDK数据迁移

前言&#xff1a;2024年6月21日 HarmonyOS NEXT &#xff08;后续称之为 NEXT&#xff09; 正式发布&#xff0c;随着 NEXT 稳定版的逐渐临近&#xff0c;各个应用及SDK正在忙于适配 NEXT 系统&#xff0c;同样也面临着系统升级时如何对数据的迁移适配。本文通过使用环信 SDK 介…

本地连线上Redis访问不通

可能原因&#xff1a; 1、服务器没有开放 Redis的默认端口&#xff1a;6379 2、在服务器中添加访问规则 3、修改Redis的配置 修改宝塔中Redis的配置文件&#xff1a; redis配置修改: 1、requirepass是用来设置访问密码的 2、注释bind 127.0.0.1&#xff1a;改为 bind 0.0.0.0…

Redis - 深入理解Redis事务

目录 Redis是如何实现事务的&#xff1f;事务中执行的命令出现错误&#xff0c;会回滚事务吗&#xff1f;同一个连接可以重复开启事务吗&#xff1f;多个客户端同时开启事务会怎样&#xff1f;使用Redis事务只用MULTI和EXEC吗&#xff1f;Redis中的WATCH机制是怎么实现的&#…

在 Stable Diffusion 1.5 中 Lora, Dreambooth, Textual Inversion的详解指北

Lora, Dreambooth and Textual Inversion 说明 您是否想象过您可爱的宠物与埃菲尔铁塔合影的画面&#xff0c;或者想象过如何生成一张带有您朋友面孔的人工智能图像&#xff1f; 是的&#xff0c;通过稳定扩散技术的微调&#xff0c;这完全是可能的&#xff01; 创建这些场景…

设备稳定流畅视频体验,乐鑫ESP32-S3芯片方案无线音视频传输通信

在快节奏的现代生活中&#xff0c;家庭安全和便利性成为了人们日益关注的话题。随着物联网技术的发展&#xff0c;智能家居安全系统正逐渐成为守护家庭的新选择。 家居安全如门锁和警报器&#xff0c;这些产品通过先进的传感器、摄像头和智能分析技术&#xff0c;不仅能够实时…

vulnhub-prime1

目录 靶场环境解题过程 靶场环境 项目ip靶机&#xff08;prime&#xff09;未知攻击机&#xff08;kali&#xff09;10.128.129.128 解题过程 打开靶机&#xff0c;我们只能看见一个登录界面&#xff0c;上面只有半截提示 我们首先要做的是主机发现&#xff0c;因为是网络适…

Flag_AGtivity_clear_top网页编程指南如何退出多activity程序

activity的启动模式:FLAG_ACTIVITY_CLEAR_TOP和FLAG_ACTIVITY_REORDER_TO_FRONT。 1. 如果已经启动了四个Activity&#xff1a;A&#xff0c;B&#xff0c;C和D。在D Activity里&#xff0c;我们要跳到B Activity&#xff0c;同时希望C finish掉&#xff0c;可以在start…

安卓好软-----跳过app应用开屏广告的小工具 无需root权限

工具特点; 软件很小。而且权限不多。无需root权限。测试效果还是不错的 应用利用了安卓系统的辅助功能API&#xff0c;可以读取您手机屏幕上显示的所有内容&#xff0c;并且可以以您的名义进行屏幕点击等操作。 * 轻量无广告&#xff0c;不联网&#xff0c;也不需要任…

PostgreSQL技术内幕11:PostgreSQL事务原理解析-MVCC

文章目录 0.简介1.MVCC介绍2.MVCC常见的实现方式3.PG的MVCC实现3.1 可见性判断3.2 提交/取消 0.简介 本文主要介绍在事务模块中MVCC(多版本并发控制&#xff09;常见的实现方式&#xff0c;优缺点以及PG事务模块中MVCC&#xff08;多版本并发控制&#xff09;的实现。 1.MVCC…