Unicode编码的二进制编码方案

zhang chenhao

2021-08-21

Page content

unicode 编码为世界上所有字符都分配了一个唯一的数字编号。编号范围从 0x000000 到 0x10FFFF。编号与每个字符都一一对应。

但是 unicode 本身只规定了每个字符的编号是多少，并没有规定编号如何存储。

所以就有了多种 unicode 的二进制存储方案。

二进制的存储方案主要由以下几种：

这种方案比较简单，UTF-32 用四个字节来表示一个字符（不论编号大小统一用四个字节来存储二进制值），即每次处理都会取四个字节为一个处理单元。

例如：“赑” 的 unicode 编号为 36177，十六进制值为：0x8d51

utf-32 二进制编码为： 00000000 00000000 10001101 01010001

因为在内存中存储数据有大小端两种模式，所以UTF-32中也有两种编码方式：

UTF32编码的缺点：

UTF-16 使用变长字节表示

UTF-16 也有字节序的问题所以也有：

UTF-16 相比较 UTF-32 能够更有效的节省存储空间。

UTF-8 也是使用变长字节表示, 使用的字节数与 unicode 的编号大小有关，编号越小使用的字节越少，编号大的则使用的字节就越多，使用的字节个数范围从 1 个字节到 4 个字节。

unicode编号和 utf-8 使用字节数对比表：

UTF-8 编码规则：

UTF-8 的处理单元为1个字节，所以不需要考虑字节序

很显然，UTF-8 能够合理有效的利用空间来存储 unicode 字符。所以很多地方都普遍使用 UTF-8 编码。