Unicode字符集和UTF编码

文章目录

前言
一、字符集和编码方式
二、unicode字符集
- utf32编码
- utf8编码
- - utf8编码函数示例
  - utf8解码函数示例
- utf16编码
- - utf16编码解码函数示例
总结

前言

本文详细介绍 $u ni co d e$ 字符集和其相关的三种编码方式： $u t f 8$ ， $u t f 16$ 和 $u t f 32$ ，并给出一个编码和解码的参考程序。

一、字符集和编码方式

字符集是一些字符的集合，字符集中每一个字符有一个唯一的字符编码表示该字符，编码方式规定了计算机存储该字符集中字符编码的规则，也是计算机解读一串二进制序列的规则。
1： $A SC II$ 码用 $\ (0x00-0x7f)$ 存储英文字符，字符集为 $128$ 个英文字符，即 $A SC II$ 字符集。 $A SC II$ 码的编码方式类似直接映射，字母 $A$ 对应的字符编码是 $65$ ，在 $A SC II$ 编码下为 $0 x 41$ 。字符编码的值也是 $A SC II$ 码值。
2： $A SC II$ 字符集的缺陷非常直观：只包含英文字符。
3： $U ni co d e$ 是国际标准字符集，它将世界各种语言的每个字符定义一个唯一的字符编码，以满足跨语言、跨平台的文本信息转换。 $2023$ 年 $9$ 月发表的 $15.1$ 版本中定义了 $149813$ 个字符。规定 $U ni co d e$ 字符编码存储方式的规则主要有三种： $u t f 8$ ， $u t f 16$ ， $u t f 32$

二、unicode字符集

$U ni co d e$ 为每一个字符分配一个唯一的字符编码，称为在编码空间中的一个码点 $\ point)$ ， $U ni co d e$ 标准给定编码空间为 U+0000 - U+10FFFF。码点以 $U +$ 开头，最少用 $4$ 个十六进制数表示，若有前导 $0$ 不可省略。例如： $U + 00 F 7$ 表示除法符号 $\div$ 。

编码空间中有效码点个数为： $2^{20} + (2^{16} − 2^{11}) = 1112064$ 。其减掉的 $2^{11}$ 主要原因在于 $u t f 16$ 编码的编码方式限制，在范围 U+D800 - U+DFFF 内 $U ni co d e$ 并未编码字符。

下表随机列了几个 $U ni co d e$ 码点和其表示的字符之间的对应关系：

码点	Value
U+2118	$\huge\mathscr{P}$
U+A015	ꀕ
U+FE18	︘

另外，按照码点范围区分了不同平面，以下为具体平面名称：

码点范围	平面
U+0000-U+FFFF	基本多文种平面
U+10000-U+1FFFF	多文种补充平面
U+20000-U+2FFFF	表意文字补充平面
U+30000-U+DFFFF	表意文字第三平面
U+E0000-U+EFFFF	特别用途补充平面
U+F0000-U+FFFFF	保留作为私人使用区域A区
U+100000-U+10FFFF	保留作为私人使用区域B区

基本多文种平面包含了绝大部分常用字符，例如： $U + 0980 - U + 09 FF$ 为孟加拉文， $U + 25 A 0 - U + 25 FF$ 为几何图形， $U + 1800 - U + 18 A F$ 为蒙古文，等等。具体见：Unicode符号表

utf32编码

$u t f 32$ 编码方式非常简单直观：用 $32 bi t$ 直接表示一个 $U ni co d e$ 码点，因此其也被称为定长编码。

$1$ ： $U ni co d e$ 标准规定的编码空间： U+0000 - U+10FFFF。最长需要 $3$ 个字节表示， $4$ 字节完全够用。

$2$ ：以码点 $U + 0041$ 字符 $A$ 为例，其 $u t f 32$ 编码结果为： $0 x 00000041$ 。直观来讲， $u t f 32$ 编码方式相当于把码点零扩展到 $32 bi t$ 。类似的， $A SC II$ 码也是一样的，零扩展到 $7 bi t$ 表示。

缺点：
$1$ ： $u t f 32$ 编码最大的缺点在于占用空间过大。假设一个文件内容只包含 $A SC II$ 字符集中的字符，那么用 $u t f 8$ 来存储所需的空间是用 $u t f 32$ 来存储的 $1/4$ 。
$2$ ： $u t f 32$ 不兼容 $A SC II$ 码。即：同样一个十六进制表示 $0 x 41$ ，在 $A SC II$ 和 $u t f 8$ 两种编码中表示内容一样且都为字符 $A$ 的合法编码。

utf8编码

$u t f 8$ 编码和 $u t f 16$ 都为变长编码。 $u t f 8$ 用 $1 - 4$ 字节来表示一个特定字符。具体编码规则如下所示：

码点范围	码点二进制表示	编码规则	字节数
$U + 0000 - U + 007 F$	$0 b xxxxxxx$	$0 b 0 xxxxxxx$	1字节
$U + 0080 - U + 07 FF$	$\ xxxx\ xxxx$	$\ 10xxxxxx$	2字节
$U + 0800 - U + FFFF$	$0bxxxx\ xxxx \ xxxx \ xxxx$	$\ 10xxxxxx \ 10xxxxxx$	3字节
$\ 0000-U+10 \ FFFF$	$\ xxxx \ xxxx \ xxxx \ xxxx\ xxxx$	$\ 10xxxxxx \ 10xxxxxx \ 10xxxxxx$	4字节

$1$ ：编码时只需根据码点范围按照码点二进制表示，高位补 $0$ ，填充编码规则中所需的空缺即可。
$2$ ：解码时只需要考虑首字节中最高位 $0 bi t$ 左侧 $1 bi t$ 的个数，即为当前字符所占用字节数。
例如：编码 $U + 00 E 9$ 对于字符为 $\overset{e}{ˊ}$ 。根据范围知道其需要二字节编码， $0$ 扩展到 $11 bi t$ 为 $\ 1110 \ 1001$ 。依次填充可知该字符 $u t f 8$ 编码结果为 $\ 10101001=0xc3a9$ 。

utf8编码函数示例

下面给出编码函数如下所示：

参数buf为待填入编码值的缓冲区，c为32位unicode码点
返回值为该字符所需编码长度

int encode_utf8(char *buf, uint32_t c) {// 一字节编码if (c <= 0x7F) {buf[0] = c;return 1;}// 二字节编码，首字节待填充5位，第二字节待填充6位if (c <= 0x7FF) {buf[0] = 0b11000000 | (c >> 6);buf[1] = 0b10000000 | (c & 0b00111111);return 2;}// 三字节编码，首字节待填充4位，第二字节待填充6位，第三字节待填充6位if (c <= 0xFFFF) {buf[0] = 0b11100000 | (c >> 12);buf[1] = 0b10000000 | ((c >> 6) & 0b00111111);buf[2] = 0b10000000 | (c & 0b00111111);return 3;}// 四字节编码，首字节待填充3位，第二字节待填充6位，第三字节待填充6位，第四字节待填充6位buf[0] = 0b11110000 | (c >> 18);buf[1] = 0b10000000 | ((c >> 12) & 0b00111111);buf[2] = 0b10000000 | ((c >> 6) & 0b00111111);buf[3] = 0b10000000 | (c & 0b00111111);return 4;
}

可通过如下主函数测试该编码函数的正确性：

int main(){char buf[4];int len=encode_utf8(buf,0x000000E9);system("chcp 65001");                // 终端使用utf8编码for(int i=0;i<len;i++)printf("%x",(unsigned char)buf[i]);std::cout<<std::endl;std::cout<<buf<<std::endl;return 0;
}

用 $v sco d e + min g w$ 的环境下有输出如下所示：

在这里插入图片描述

utf8解码函数示例

下面给出解码函数如下所示：

参数buf为给定utf8编码序列
返回值为该字符unicode码点

uint32_t decode_utf8(char *p) {// 单字节编码if ((unsigned char)*p < 128) {return *p;}int len;uint32_t c;if ((unsigned char)*p >= 0b11110000) {        // 四字节编码，起始11110xxx，3bit有效len = 4;c = *p & 0b111;} else if ((unsigned char)*p >= 0b11100000) { // 三字节编码，起始1110xxxx，4bit有效len = 3;c = *p & 0b1111;} else if ((unsigned char)*p >= 0b11000000) { // 二字节编码，起始110xxxxx，5bit有效len = 2;c = *p & 0b11111;} else {std::cout<<"invalid UTF-8 sequence"<<std::endl;}for (int i = 1; i < len; i++) {if ((unsigned char)p[i] >> 6 != 0b10)std::cout<<"invalid UTF-8 sequence"<<std::endl;c = (c << 6) | (p[i] & 0b111111);}return c;
}

可通过如下主函数测试该编码函数的正确性：

int main(){unsigned char buf[4]={0xc3,0xa9,0x00,0x00};uint32_t code=decode_utf8((char*)buf);system("chcp 65001");std::cout<<buf<<std::endl;std::cout<<std::hex<<code<<std::endl;return 0;
}

用 $v sco d e + min g w$ 的环境下有输出如下所示：

在这里插入图片描述

utf16编码

$u t f 16$ 为变长编码，采用 $2$ 字节或 $4$ 字节编码。不兼容 $A SC II$ 码。

上文提到，码点范围从 $U + 0000$ 到 $U + FFFF$ 为基本多文种平面，包括绝大多数常用字符。 $u t f 16$ 编码对常用的基本多文种平面直接使用 $2$ 字节编码，超过这个范围的码点使用 $4$ 字节编码。
具体编码规则如下所示：

码点范围	码点二进制表示	编码规则	字节数
$U + 0000 - U + FFFF$	$\ xxxxxxxx$	$\ xxxxxxxx$	2字节
$U + FFFF - U + 10 FFFF$	$\ point - 0x10000=0byyyy \ yyyy \ yyxx \ xxxx \ xxxx$	$\ yyyy \ yy$ $\ xxxx \ xxxx$	4字节

$1$ ：这里四字节编码中码点需要减去 $0 x 10000$ ，最大码点 $0 x 10 FFFF - 0 x 10000 = 0 x FFFFF$ 。
$2$ ：上文提及 $u t f 16$ 编码特性使得 $U ni co d e$ 标准中有 $2^{11}$ 个码点未编码实际字符，该未编码字符的码点范围为： $U + D 800$ 到 $U + D FFF$ 。用来作为 $u t f 16$ 四字节编码的范围。

utf16编码解码函数示例

下面给出编码函数如下所示：

参数buf为待填入编码值的缓冲区，缓冲区单元为2字节单元，c为32位unicode码点
返回值为该字符所需编码长度

int encode_utf16(uint16_t *buf, uint32_t c) {int len=0;if (c < 0x10000) {// 2字节编码buf[len++] = c;return 2;} else {// 4字节编码c -= 0x10000;buf[len++] = 0xd800 + ((c >> 10) & 0x3ff);buf[len++] = 0xdc00 + (c & 0x3ff);return 4;}
}

下面给出解码函数如下所示：

参数buf为填入编码值的缓冲区，缓冲区单元为2字节单元
返回值为该字符的unicode码点

uint32_t decode_utf16(uint16_t *buf) {uint32_t code;if ((*buf) >= 0xD800 && (*buf) <= 0xDBFF) {code = ((*buf)-0xD800)&0x3ff;buf++;if (!(*buf) >= 0xDC00 && (*buf) <= 0xDFFF){std::cerr<<"error utf16 code"<<std::endl;return 0;}code = (code<<10)|(((*buf)-0xDC00)&0x3ff);return code+0x10000;} else {return *buf;}
}

可通过如下主函数测试该编码解码函数的正确性：

int main(){uint16_t buf[2];int len=encode_utf16(buf,0x10ABC);for(int i=0;i<len/2;i++)printf("%x",buf[i]);printf("\n");uint32_t code=decode_utf16(buf);printf("0x%08x",code);printf("\n");return 0;
}