# 字节编码
# 简介
# 二进制编码
- 人类使用的各种字符,在计算机底层都以二进制格式存储。因此,计算机经常需要将一个 char 字符,转换成 bits 二进制格式,该过程称为二进制编码(Binary Encoding)。
- 人类发明了很多种编码规则,又称为编码格式。例如字母 'A' ,按照 ASCII 编码格式,会转换成二进制值
0100 0001
。 - 编码的逆过程,称为解码(decode)。例如二进制值
0100 0001
,按照 ASCII 编码格式,会转换成字母 'A' 。
- 人类发明了很多种编码规则,又称为编码格式。例如字母 'A' ,按照 ASCII 编码格式,会转换成二进制值
# 字节编码
二进制编码,是以 bit 为单位存储数据,但 bits 不方便人类阅读、记忆。为了解决这一问题,通常将以 bit 为单位的二进制值,转换成以 byte 为单位的十六进制值。
- 例如二进制值
0100 0001
,转换成十六进制值是4 1
,体积为 1 字节。 - 此时依然属于二进制编码,只是以字节为单位展示,称为字节编码。
- 例如二进制值
区分这些概念:
- 字节:在计算机中,bits 二进制值通常会被分组管理。每连续 8 个比特(bit)分为一组,称为 1 个字节(byte)。
- 字符:在计算机中,指一个自然语言的文字符号。例如英文字母 'A' ,在 C 语言中用 char 数据类型的变量存储,占用 1 字节的存储空间。
- 字符串:在计算机中,指连续多个字符。例如 "Hello World!" 。
计算机程序将字符串写入文件中存储时,通常要转换成二进制编码。例如:
- 程序将一个字符串 "Hello World!" ,按照 ASCII 格式编码,转换成二进制数据,写入文件。
- 程序从文件读取二进制数据,按 ASCII 格式解码,转换成一个字符串 "Hello World!" 。
- 如果解码格式与编码格式不一致,得到的字符串就可能与原字符串不一致,比如出现乱码。
人类发明了很多种编码格式,可以大概分类为:
- 单字节编码:每个字符的编码值,体积为 1 字节。
- 多字节编码:每个字符的编码值,体积超过 1 字节,又称为宽字符。
# 字节序
- 如果一个数据类型的长度超过 1 个字节,则需要考虑哪个字节先存储(Byte Order)。有两种方案:
- 大端序(Big-Endian):高位字节先存储。例如
0x11223344
存储为0x11 0x22 0x33 0x44
,最高位的字节 0x11 存储在地址的最低位。 - 小端序(Little-Endian) :低位字节先存储。例如
0x11223344
存储为0x44 0x33 0x22 0x11
,最高位的字节 0x11 存储在地址的最高位。
- 大端序(Big-Endian):高位字节先存储。例如
- 如何判断一段文本的字节序?
- 可以为每种字节序定义一种编码格式。例如将 UTF-16 编码格式细分为 UTF-16be 和 UTF-16le 。
- 可以在一个文本文件的开头加上几个字节作为标记,用于声明字节序,称为 BOM(Byte Order Mark)。
# 单字节编码
# ASCII
- :美国信息交换标准代码(American Standard Code for Information Interchange),是一种单字节编码格式。
- 编码范围为
0x00 ~ 0x7F
,总共定义了 128 个字符。收录了拉丁字母、一些控制字符。 - ASCII 又简单又常用,很多人甚至会背诵一些字符的 ASCII 编码值。
# ISO-8859-1
- :又称为 Latin-1 ,是一种单字节编码格式,编码范围为
0x00 ~ 0xFF
。 - 是 ASCII 码的超集,收录了拉丁字母、希腊语、阿拉伯语等字符。
>>> 'hello'.encode('utf-8') b'hello' >>> _.decode('ISO-8859-1') 'hello'
- 定义了单字节的所有编码值。因此,任意一段 bytes 数据,不管它采用什么编码格式,即使是一段随机数据,都可以按照 ISO-8859-1 格式解码成 str 对象,虽然得到的 str 字符串不一定有意义。
>>> bytes = '你'.encode('gbk') >>> bytes.decode('gbk') # 使用正确的格式来解码 '你' >>> bytes.decode('ISO-8859-1') # 使用错误的格式来解码,但不会抛出异常 'Äã' >>> bytes.decode('utf-8') # 使用错误的格式来解码,并且会抛出异常 UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
# Windows 1252
- :又称为 cp1252 、ANSI 字符集,是 ISO-8859-1 的超集。
# 多字节编码
# Unicode
- :一种字符集,又称为万国码、国际码、统一码,收录了世界上很多种语言的字符,给每个字符分配了唯一编码。
- 编码范围为
U+000000 ~ U+10FFFF
,总共大约有 1.1 百万个码位(Code Point),可用于映射字符。- 开头两个字节从 U+00 到 U+10 划分为 17 个平面(plane),每个平面包含 2^16=65536 个码位。
- 第一个平面称为第零平面、基本多语言平面(Basic Multilingual Plane, BMP),其它平面称为辅助平面。
- 第零平面包含了最常用的字符,其中
D800 ~ DFFF
范围内的码位保留,不映射 Unicode 字符,因此通常被 UTF 编码使用。
- 每个字符编码为 6 个十六进制数,加上
U+
或\u
作为前缀。- 只考虑第零平面时,可以只使用 4 个十六进制数,比如字母 A 表示成 U+0041 。
# UTF
- :Unicode 转换格式(Unicode Transformation Format)
- Unicode 字符的编码较长,大部分码位都用不到,浪费存储空间。因此实际使用时,通常通过 UTF 转换成更短的编码格式。
# UTF-8
- :一种编码格式,兼容 ASCII 码。
- 字符的编码长度可变,为 1 ~ 4 个字节。比如存储 ASCII 码字符时只用 1 个字节,存储中文字符时使用 3 个字节。
- UTF-8 的编码长度可变,因此不存在多种字节序。
- 按照 UTF-8 规范,处理 UTF-8 编码的文本时,不需要考虑字节序。
- 不过,Microsoft 公司的 Office 等软件习惯了在处理 UTF-8 编码的文本时,加上
0xEF 0xBB 0xBF
三个字节作为 BOM 标记,因此与标准的 UTF-8 格式不同,这会导致一些问题:- 例如,用 VS Code 软件编写一个 UTF-8 编码、包含中文字符的 csv 表格文件之后,用 Excel 软件打开该文件,显示的字符会乱码。此时可用 Notepad++ 软件将该文件转换成 UTF-8-BOM 编码格式。或者用
iconv 1.csv -f utf-8 -t gbk > 2.csv
命令将该文件转换成 gbk 编码格式,则不需要声明字节序。 - 反之,用 Excel 导出一个包含中文字符的 csv 表格文件之后,用 VS Code 打开该文件,显示的字符会乱码。此时可用 Notepad++ 软件将该文件转换成 UTF-8 编码格式。
- 例如,用 VS Code 软件编写一个 UTF-8 编码、包含中文字符的 csv 表格文件之后,用 Excel 软件打开该文件,显示的字符会乱码。此时可用 Notepad++ 软件将该文件转换成 UTF-8-BOM 编码格式。或者用
# UTF-16
- :一种编码格式,不兼容 ASCII 码。
- 大部分字符的编码长度是 2 字节,少部分不常用的字符则是 4 字节。
- 根据字节序的不同,细分为两种编码格式:
- UTF-16be :大端序,BOM 标记为
0xFE 0xFF
。 - UTF-16le :小端序,BOM 标记为
0xFF 0xFE
。
- UTF-16be :大端序,BOM 标记为
- 例:
>>> '12'.encode('utf-16') # 编码格式名称中没有声明字节序,Python 默认会按小端序处理 b'\xff\xfe1\x002\x00' # 编码之后,会在开头加上 BOM 标记,末尾加上空字符 \x00 表示结束 >>> 'A'.encode('utf-16') b'\xff\xfeA\x00' >>> ''.encode('utf-16be') # 如果编码格式名称中声明了字节序,则不必再加上 BOM 标记 b'' >>> 'A'.encode('utf-16le') b'A\x00'
# UTF-32
- :一种编码格式,不兼容 ASCII 码。
- 每个字符的编码长度都是 4 字节。
- 根据字节序的不同,细分为两种编码格式:
- UTF-32be :大端序,BOM 标记为
0x00 0x00 0xFE 0xFF
。 - UTF-32le :小端序,BOM 标记为
0xFF 0xFE 0x00 0x00
。
- UTF-32be :大端序,BOM 标记为
# UCS
UCS
- :通用编码字符集(Universal Coded Character Set),由 ISO 10646 标准定义,相当于 Unicode 字符集的子集。
UCS-2
- :一种编码格式,是 UTF-16 的子集。
- 只对 Unicode 第零平面的字符进行编码。
- 每个字符的编码长度都是 2 字节。
- 根据字节序的不同,细分为两种编码格式:
- UCS-2be
- UCS-2le
UCS-4
- :一种编码格式,是 UTF-32 的超集。
- 每个字符的编码长度都是 4 字节。
# 中文编码
# GB2312
- :一种简体中文的编码格式,于 1980 年发布,已经过时。
- 在 Windows 中别名为 CP936 。
- 收录了 6k 多个汉字、拉丁字母等。
# BIG5
- :一种繁体中文的编码格式,又称为大五码,于 1983 年发布。
- 收录了 1w 多汉字、拉丁字母等。
# GBK
- :一种中文编码格式,于 1995 年发布。
- 向下兼容 GB2312 ,向上支持 ISO 10646 标准,也收录了 BIG5 中的繁体汉字。总共收录了 2w 多个汉字。
- 英文字符的编码长度为 1 字节,中文字符的编码长度为 2 字节。
# GB18030
- :一种中文编码格式,于 2000 年发布。
- 是 GBK 的超集。总共收录了 7w 多个汉字。
- 字符的编码长度可变,包括:
- 1 字节,向下兼容 ASCII 。
- 2 字节,向下兼容 GBK 。
- 4 字节
# import codecs
- :Python 的标准库,用于管理 Python 的编解码器。
- 它将编解码器称为 codec ,包括 encoder 和 decoder 。
- 它为所有编解码器定义了抽象的基类:
class Codec: def encode(self, input, errors='strict'): pass def decode(self, input, errors='strict'): pass
- Python 解释器内置了很多种编码格式的编解码器,它们都在 codecs 模块中注册了。
- 编码格式的名称不区分大小写。对于连字符 - ,可以替换成下划线 _ ,也可以省略。
- 例:查询一种编码格式对应的编解码器
>>> import codecs >>> codecs.lookup('utf-8') <codecs.CodecInfo object for encoding utf-8 at 0x151dc6a99a0> >>> codecs.lookup('utf_8') <codecs.CodecInfo object for encoding utf-8 at 0x151dcf59400> >>> codecs.lookup('utf8') <codecs.CodecInfo object for encoding utf-8 at 0x151dcf59280>
# import chardet
- :Python 的第三方库,用于检测 bytes 对象采用的字节编码格式。
- 安装:
pip install chardet
- 其原理是通过比对各种字符集的特征字符来猜测编码格式。
- 检测的数据量太少就容易猜错。
- 不能处理 str 对象,因为 str 已经是按 Unicode 格式编码了。
- 例:检测一个字符串
>>> import chardet >>> chardet.detect(b'Hello, world!') {'encoding': 'ascii', 'confidence': 1.0, 'language': ''} # confidence 表示可信度,这里为 100% >>> chardet.detect('你'.encode('GBK'))) {'encoding': None, 'confidence': 0.0, 'language': None} >>> chardet.detect('你好'.encode('GBK')) {'encoding': 'TIS-620', 'confidence': 0.3598212120361634, 'language': 'Thai'} >>> chardet.detect('你好,欢迎来到这里!'.encode('GBK')) # 增加检测的字符数量时,检测结果可能改变 {'encoding': 'GB2312', 'confidence': 0.99, 'language': 'Chinese'}
- 即使 chardet 将一个字符串识别为 GB2312 格式,建议也当作 GBK 格式解码。以免 chardet 将 GBK 格式的字符串,误识别成了 GB2312 格式。
- 例:检测一个文件
>>> f = open(path, 'rb') >>> chardet.detect(f.read())['encoding'] 'GB2312'