随写 您所在的位置:网站首页 机内码和区位码的转换公式 随写

随写

2023-05-17 23:07| 来源: 网络整理| 查看: 265

Hello~大家好,这是一个新的专栏,我会在里面分享一些计算机小知识,以及一些其他东西。

今天我们讲字符编码。

(随)1.1.字符编码是什么?

字符编码(英语:Character encoding)也称字集码,是把字符集中的字符编码为指定集合中某一对象(例如:比特模式、自然数序列、8位组或者电脉冲),以便文本在计算机中存储和通过通信网络的传递。

                                                                                                                     ————百度百科

有好多种字符编码,下面我将逐一介绍。

(随)1.2.字符编码有哪些? (随)1.2.1 ASCII编码

ASCII (American Standard Code for Information Interchange,美国信息交换标准代码)是基于拉丁字母的一套电脑编码系统,主要用于显示现代英语和其他西欧语言。它是最通用的信息交换标准,并等同于国际标准 ISO/IEC 646。是最常见的字符编码之一,也是本人作为C++开发者最熟悉的编码。

第一次发布:1967年

最后一次发布:1986年

共收录:128个字符

(来源:无忧文档)

大家对照表使用即可。

 

 (随)1.2.2 ENCDIC编码

EBCDIC (Extended Binary Coded Decimal Interchange Code,扩展二进制编码十进制交换码) 是国际商用机器公司(IBM)推出的字符编码表,根据早期打孔机式的二进制编码的十进制数(BCD, Binary Coded Decimal)排列而成。

第一次发布:1963

最后一次发布:1964

共收录:256个字符

 (随)1.2.3 Big5编码

Big5编码(大五码)

在台湾、香港与澳门地区,使用的是繁体中文字符集。而1980年发布的GB2312面向简体中文字符集,并不支持繁体汉字。在这些使用繁体中文字符集的地区,一度出现过很多不同厂商提出的字符集编码,这些编码彼此互不兼容,造成了信息交流的困难。为统一繁体字符集编码,1984年,台湾五大厂商宏碁、神通、佳佳、零壹以及大众一同制定了一种繁体中文编码方案,因其来源被称为五大码,英文写作Big5,后来按英文翻译回汉字后,普遍被称为大五码。

发布时间:1984年

共收录:13060个字

(随)1.2.4 Unicode编码

统一码(Unicode),也叫万国码、单一码,由统一码联盟开发,是计算机科学领域里的一项业界标准,包括字符集、编码方案等。统一码是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。

第一次发布:1994年

最后一次发布:2022年

共收录:97046字

(随)1.2.4.1 UTF-8编码

UTF-8(通用字符集/Unicode转换格式- 8,Universal Character Set/Unicode Transformation Format - 8)是针对Unicode的一种可变长度字符编码。它可以用来表示Unicode标准中的任何字符,而且其编码中的第一个字节仍与ASCII相容,使得原来处理ASCII字符的软件无须或只进行少部分修改后,便可继续使用。因此,它逐渐成为电子邮件、网页及其他存储或传送文字的应用中,优先采用的编码。

(随)1.2.4.2 UTF-16编码

UTF-16(通用字符集/Unicode转换格式- 16,Universal Character Set/Unicode Transformation Format - 16)是Unicode字符编码五层次模型的第三层:字符编码表(Character Encoding Form,也称为 storage format)的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数(即码元)的序列,用于数据存储或传递。Unicode字符的码位,需要1个或者2个16位长的码元来表示,因此这是一个变长表示。

(随)1.2.4.3 UTF-32编码

UTF-32(通用字符集/Unicode转换格式- 32,Universal Character Set/Unicode Transformation Format - 32)是一种将Unicode字符编码的协定,对每一个Unicode码位使用恰好32位元。其它的Unicode transformation formats则使用不定长度编码。因为UTF-32对每个字符都使用4字节,就空间而言,是非常没有效率的。特别地,非基本多文种平面的字符在大部分文件中通常很罕见,以致于它们通常被认为不存在占用空间大小的讨论,使得UTF-32通常会是其它编码的二到四倍。虽然每一个码位使用固定长定的字节看似方便,它并不如其它Unicode编码使用得广泛。

(随)1.2.5 GB2312编码

《信息交换用汉字编码字符集》是由中国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,标准号是GB 2312—1980。根据2017年第7号公告和强制性标准整合精简结论,自2017年3月23日起,该标准转化为推荐性标准,不再强制执行。 [2] GB2312编码适用于汉字处理、汉字通信等系统之间的信息交换,通行于中国大陆;新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。基本集共收入汉字6763个和非汉字图形字符682个。整个字符集分成94个区,每区有94个位。每个区位上只有一个字符,因此可用所在的区和位来对汉字进行编码,称为区位码。把换算成十六进制的区位码加上2020H,就得到国标码。国标码加上8080H,就得到常用的计算机机内码。1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB 2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB 13000—1的全部中、日、韩(CJK)汉字,共计20902字。

第一次发布:1980年

共收录:20902字

(随)1.2.6 GBK编码

GBK全称《汉字内码扩展规范》(GBK即“国标”、“扩展”汉语拼音的第一个字母,英文名称:Chinese Internal Code Specification) ,中华人民共和国全国信息技术标准化技术委员会1995年12月1日制订,国家技术监督局标准化司、电子工业部科技与质量监督司1995年12月15日联合以技监标函1995 229号文件的形式,将它确定为技术规范指导性文件。2000年已被GB18030-2000《信息交换用 汉字编码字符集 基本集的扩充》国家强制标准替代 ,2005年GB18030-2005发布,替代了GB18030-2000。

发布时间:1995年

共收录:21003个字

(随)1.2.7 GB18030编码

《信息技术中文编码字符集》是中文信息技术领域最重要的基础性标准,对汉字和中国多种少数民族文字进行了统一编码,需要进行中文处理的信息系统均需应用此类编码标准,因此标准实施场景丰富、应用范围广泛。2022年7月28日,《信息技术 中文编码字符集》强制性国家标准发布,将于2023年8月1日正式实施。新国标共收录汉字87887个,比上一版增加录入了1.7万余个生僻汉字,覆盖中国绝大部分人名、地名用生僻字以及文献、科技等专业领域的用字,能够满足各类使用需求。

发布时间:2022年

共收录:87887字

(部分内容来源于 百度百科)

拜~

允许转载,请注明出处



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有