返回首页
编码概况

中文汉字的编码在国内系统上可分为两大类别。

1. 小字符集编码

(1)GB2312-80编码

GB2312-80码是中华人民共和国国家汉字信息交换用编码,全称《信息交换用汉字编码字符集--基本集》,由国家标准总局发布,1981年5月1日实施。新加坡等地也使用此编码。

作用:国家简体中文字符集,兼容ASCII。

位数:使用2个字节表示,能表示7445个符号,包括6763个汉字,几乎覆盖所有高频率汉字。

范围:高字节从A1-A7,低字节从A1到FE。将高字节和低字节分别加上0xA0即可得到编码。

来源:http://std.samr.gov.cn/gb/search/gbDetailed?id=71F772D79E19D3A7E05397BE0A0AB82A

(2)GBK-1995全称《汉字内码扩展规范》

GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification;并不是一个国家标准,而只是一个规范。

作用:它是GB2312-80的扩展,加入对繁体字的支持,兼容GB2312-80。

位数:使用2个字节表示,可表示21886个字符。含21003个汉字,包括20902个CJK汉字+101个PUA汉字和符号。

范围:高字节从81到FE,低字节从40到FE。

(3)BIG-5编码

又称“大五码”, 大部分为繁体,共收录13053个字;主要使用于台湾、香港、澳门地区。

(4)EBCDIC编码

扩增二进式十进交换码,是IBM推出的字符编码表,主要应用于银行或其它场景中的IBM大型机、小型机。



2.大字符集编码

(1)GB18030编码

全称《信息技术中文编码字符集》,是中华人民共和国国家标准所规定的变长多字节字符集,现行版本为18030-2005,于2006年5月1日正式实施。其对GB2312-80完全向后兼容,与GBK基本向后兼容,并支持Unicode(GB13000)的所有码位。

作用:它解决了中文、日文、朝鲜语等的编码,兼容GBK。

位数:它采用变字节表示,可表示27484个文字。

范围:1字节从00到7F;2字节高字节从81到FE,低字节从40到7E和80到FE;4字节中第1、3字节从81到FE,第2、4字节从30到39。

来源:http://std.samr.gov.cn/gb/search/gbDetailed?id=71F772D800B5D3A7E05397BE0A0AB82A

(2)Unicode

全称为"Universal Multiple-Octet Coded Character Set",简称为UCS。即统一码、万国码,是国际组织制定的可以容纳世界上所有文字和符号的字符编码方案。通过为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

未在Unicode标准中指定,而是由合作用户之间的私人协议决定其用途的一系列码位简称为PUA,即私人使用区(Private Use Areas)的简称。PUA地使用是一种临时解决方案,若日后该字被官方正式收录,那该从补充字应被剔除,移入正式字区。空下的码位被回收利用,再定义为其他新的补充字。

(3)UTF系列编码

常见的是UTF-8和UTF-16。UTF-8用3-4字节来表示一个汉字,UTF-16用2字节或4字节来表示一个汉字。对应字符集为GB13000国家标准(等同于ISO/IEC 10646,Unicode)定义的。