随写

2023-05-17 23:07| 来源: 网络整理| 查看: 265

Hello~大家好，这是一个新的专栏，我会在里面分享一些计算机小知识，以及一些其他东西。

今天我们讲字符编码。

（随）1.1.字符编码是什么？

字符编码（英语：Character encoding）也称字集码，是把字符集中的字符编码为指定集合中某一对象（例如：比特模式、自然数序列、8位组或者电脉冲），以便文本在计算机中存储和通过通信网络的传递。

————百度百科

有好多种字符编码，下面我将逐一介绍。

（随）1.2.字符编码有哪些？（随）1.2.1 ASCII编码

ASCII (American Standard Code for Information Interchange，美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统，主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准，并等同于国际标准 ISO/IEC 646。是最常见的字符编码之一，也是本人作为C++开发者最熟悉的编码。

第一次发布：1967年

最后一次发布：1986年

共收录：128个字符

（来源：无忧文档）

大家对照表使用即可。

（随）1.2.2 ENCDIC编码

EBCDIC (Extended Binary Coded Decimal Interchange Code，扩展二进制编码十进制交换码) 是国际商用机器公司(IBM)推出的字符编码表，根据早期打孔机式的二进制编码的十进制数(BCD, Binary Coded Decimal)排列而成。

第一次发布：1963

最后一次发布：1964

共收录：256个字符

（随）1.2.3 Big5编码

Big5编码（大五码）

在台湾、香港与澳门地区，使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集，并不支持繁体汉字。在这些使用繁体中文字符集的地区，一度出现过很多不同厂商提出的字符集编码，这些编码彼此互不兼容，造成了信息交流的困难。为统一繁体字符集编码，1984年，台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案，因其来源被称为五大码，英文写作Big5，后来按英文翻译回汉字后，普遍被称为大五码。

发布时间：1984年

共收录：13060个字

（随）1.2.4 Unicode编码

统一码（Unicode），也叫万国码、单一码，由统一码联盟开发，是计算机科学领域里的一项业界标准，包括字符集、编码方案等。统一码是为了解决传统的字符编码方案的局限而产生的，它为每种语言中的每个字符设定了统一并且唯一的二进制编码，以满足跨语言、跨平台进行文本转换、处理的要求。

第一次发布：1994年

最后一次发布：2022年

共收录：97046字

（随）1.2.4.1 UTF-8编码

UTF-8（通用字符集/Unicode转换格式- 8，Universal Character Set/Unicode Transformation Format - 8）是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符，而且其编码中的第一个字节仍与ASCII相容，使得原来处理ASCII字符的软件无须或只进行少部分修改后，便可继续使用。因此，它逐渐成为电子邮件、网页及其他存储或传送文字的应用中，优先采用的编码。

（随）1.2.4.2 UTF-16编码

UTF-16（通用字符集/Unicode转换格式- 16，Universal Character Set/Unicode Transformation Format - 16）是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 storage format）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。

（随）1.2.4.3 UTF-32编码

UTF-32（通用字符集/Unicode转换格式- 32，Universal Character Set/Unicode Transformation Format - 32）是一种将Unicode字符编码的协定，对每一个Unicode码位使用恰好32位元。其它的Unicode transformation formats则使用不定长度编码。因为UTF-32对每个字符都使用4字节，就空间而言，是非常没有效率的。特别地，非基本多文种平面的字符在大部分文件中通常很罕见，以致于它们通常被认为不存在占用空间大小的讨论，使得UTF-32通常会是其它编码的二到四倍。虽然每一个码位使用固定长定的字节看似方便，它并不如其它Unicode编码使用得广泛。

（随）1.2.5 GB2312编码

《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布，1981年5月1日开始实施的一套国家标准，标准号是GB 2312—1980。根据2017年第7号公告和强制性标准整合精简结论，自2017年3月23日起,该标准转化为推荐性标准，不再强制执行。 [2] GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换，通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区，每区有94个位。每个区位上只有一个字符，因此可用所在的区和位来对汉字进行编码，称为区位码。把换算成十六进制的区位码加上2020H，就得到国标码。国标码加上8080H，就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》（GBK）。GBK与GB 2312—1980国家标准所对应的内码标准兼容，同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩（CJK）汉字，共计20902字。

第一次发布：1980年

共收录：20902字

（随）1.2.6 GBK编码

GBK全称《汉字内码扩展规范》（GBK即“国标”、“扩展”汉语拼音的第一个字母，英文名称：Chinese Internal Code Specification），中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订，国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式，将它确定为技术规范指导性文件。2000年已被GB18030-2000《信息交换用汉字编码字符集基本集的扩充》国家强制标准替代，2005年GB18030-2005发布，替代了GB18030-2000。

发布时间：1995年

共收录：21003个字

（随）1.2.7 GB18030编码

《信息技术中文编码字符集》是中文信息技术领域最重要的基础性标准，对汉字和中国多种少数民族文字进行了统一编码，需要进行中文处理的信息系统均需应用此类编码标准，因此标准实施场景丰富、应用范围广泛。2022年7月28日，《信息技术中文编码字符集》强制性国家标准发布，将于2023年8月1日正式实施。新国标共收录汉字87887个，比上一版增加录入了1.7万余个生僻汉字，覆盖中国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字，能够满足各类使用需求。

发布时间：2022年

共收录：87887字

（部分内容来源于百度百科）

拜~

允许转载，请注明出处

【本文地址】

公司简介

联系我们