Unicode控制字符 您所在的位置:网站首页 黑道风云寒雪枫 Unicode控制字符

Unicode控制字符

#Unicode控制字符| 来源: 网络整理| 查看: 265

Unicode控制字符(英語:Unicode control characters)是用于控制文本解释或者显示,而不可见或不占空间的Unicode字符。

目录 1 ISO 6429控制字符(C0与C1) 2 Unicode引入的分隔符 3 语言标记 4 行间标注 5 双向文本控制 6 异体字选择器 7 控制字符的图片 8 参见 9 参考文献 ISO 6429控制字符(C0与C1)[编辑] 主条目:C0与C1控制字符

控制字符U+0000‐U+001F 与U+007F来自ASCII。此外,ISO 8859字符集定义了U+0080‐U+009F。二者都定义在ISO 6429中,常被称为C0与C1控制字符。

大部分这些字符在Unicode文本处理中没有明确作用。字符U+0000 ,NUL、U+0009 ,HT、U+000A ,LF、U+000D ,CR、U+0085 ,NEL常用于格式化字符。

Unicode引入的分隔符[编辑]

为了简化几种换行字符,Unicode引入了它自己的分隔符来格式化文本:

U+2028 LINE SEPARATOR ,HTML:
,LSEP U+2029 PARAGRAPH SEPARATOR ,HTML:
,PSEP 语言标记[编辑] 主条目:Tags (Unicode区段)

Unicode以前定义了Tags(英语:Tags (Unicode block)),包含了128个字符表示语言标签,但现在已经过时了。这些字符实际上镜像了128个ASCII字符。用于表示随后的文本属于IETF語言標籤(BCP 47)所指的特定语言。例如,表示随后文本使用美国英语(en-us),用字符串开始为Language Tag character(U+E0001)后跟序列:Tag Small Letter e(U+E0065)、Tag Small Letter n(U+E006E)、Tag Hyphen-minus(U+E002D)、Tag Small Letter u(U+E0075)、Tag Small Letter s(U+E0073)。

这种语言标签自身不会被显示。但可提供用于文本处理的信息。例如,中日韩统一汉字的文本,指明是韩语而非日文,可以把一些字符用韩语特有的字形来表示。另一个例子,把数字0‐9用语言特定的字形表示。

语言标记字符U+E0001、U+E0020‐U+E007E、U+E007F 已经被Unicode 5.1(2008)宣布过时,不再作为语言标记使用。[1]

Unicode 8.0(2015)宣布U+E0020‐U+E007E不再是过时,用于未来表示除了语言标签以外的的其他用途。[2](U+E0001 LANGUAGE TAG与U+E007F CANCEL TAG仍然过时)。

行间标注[编辑]

3个格式化字符用于支持旁註標記(U+FFF9、U+FFFA、U+FFFB)。

双向文本控制[编辑] 主条目:双向文本

Unicode支持从左到右、从右到左,或者其混合排版,而不需要任何特殊字符。但为了处理一些特殊情形,Unicode定义了12个字符(U+061C、U+200E、U+200F、U+202A、U+202B、U+202C、U+202D、U+202E、U+2066、U+2067、U+2068、U+2069)以帮助控制嵌入式双向文本最大125层深。[3]

异体字选择器[编辑] 主条目:异体字选择器

中日韩汉字、拉丁字母的双拼连写等等,在Unicode中被视作异体字。有些专名(如地名、姓名)必须使用某个异体字。为此,Unicode 3.2与4.0定义了256个异体字选择器,可选择前一个字符的最多256个可能的异体字。

控制字符的图片[编辑]

Unicode在Control Pictures块中提供图形表示C0控制字符以及其他控制符。

控制图形[1][2]官方Unicode Consortium码位图表 (PDF)   0 1 2 3 4 5 6 7 8 9 A B C D E F U+240x ␀ ␁ ␂ ␃ ␄ ␅ ␆ ␇ ␈ ␉ ␊ ␋ ␌ ␍ ␎ ␏ U+241x ␐ ␑ ␒ ␓ ␔ ␕ ␖ ␗ ␘ ␙ ␚ ␛ ␜ ␝ ␞ ␟ U+242x ␠ ␡ ␢ ␣ ␤ ␥ ␦ U+243x Notes 1.^ Unicode版本11.0 2.^ 灰区指示未使用的码位 参见[编辑] Specials (Unicode block)(英语:Specials (Unicode block)) ISO 2047(英语:ISO 2047) 参考文献[编辑] ^ RFC6082: Deprecating Unicode Language Tag Characters: RFC 2482 is Historic. Internet Engineering Task Force (IETF). November 2010 [2019-01-08]. (原始内容存档于2021-03-08).  ^ Unicode 8.0.0, Implications for Migration. Unicode Consortium. [2019-01-08]. (原始内容存档于2022-05-13).  ^ UAX #9: Unicode Bidirectional Algorithm. Unicode Consortium. 2018-05-09 [2019-01-08]. (原始内容存档于2009-01-25).  查论编UnicodeUnicode 統一碼聯盟 通用字符集 Unicode 码位 Unicode區段 通用字元集字元(英语:Universal Character Set characters) Unicode字元特性(英语:Unicode character property) Unicode字符平面映射 私人使用区 字符通用字元集字元(英语:Universal Character Set characters) 位元組順序記號 Combining Grapheme Joiner(英语:Combining Grapheme Joiner) 左至右符號及右至左符號 軟連字符(英语:Soft hyphen) 变体 連詞字符 零宽连字 零宽不连字 零宽空格 列表 Unicode字符列表 中日韓統一表意文字 組合字符 Unicode中的重覆字符(英语:Duplicate characters in Unicode) Unicode數字 Unicode收录的文字 空格 Unicode符號 全形和半形 處理演算法 雙向文稿 統一碼定序演算法 ISO 14651(英语:ISO 14651) Unicode等價性 变体序列 國際表意文字核心 Unicode編碼比較(英语:Comparison of Unicode encodings) 統一碼二進制有序壓縮 UTF-16的八位元相容編碼方案 Punycode 統一碼標準壓縮方案 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC(英语:UTF-EBCDIC) 組合字符 組合字符 Unicode相容字符 Unicode中的重覆字符(英语:Duplicate characters in Unicode) Unicode等價性 同形字 预组字符 Unicode拉丁文預組字符列表 Z-变体 变体序列 区域指示符 菲茨派屈克度量 使用 国际化域名 Unicode與電子郵件(英语:Unicode and email) Unicode字型 Unicode與HTML(英语:Unicode and HTML) XML与HTML字符实体引用列表 字符值引用 Unicode输入法 國際表意文字核心 相關標準 通用當地數據儲存庫 ‎ GB 18030 ISO/IEC 8859 ISO 15924 相關主題 Unicode CSUR 表意文字小組 國際統一碼部件 漢字統一化(英语:Han unification) 惡搞RFC#4042(UTF-9 / UTF-18)  Unicode收录的文字收录文字 組合字符 附加符号 标点符号 空格 Unicode數字 現代文字 Adlam alphabet(英语:Adlam alphabet) 阿拉伯文字 阿拉伯語附加符號(英语:Arabic diacritics) 亞美尼亞字母 巴厘字母 巴姆穆文字 巴塔克文(英语:Batak alphabet) 孟加拉文 注音符號 盲文 布希德文 缅文 加拿大原住民音節文字 Chakma alphabet(英语:Chakma alphabet) 占語字母 Cherokee syllabary(英语:Cherokee syllabary) 中日韓統一表意文字 西里尔字母 德瑟雷特文(英语:Deseret alphabet) 天城文 吉茲字母 格鲁吉亚字母 希腊字母 古吉拉特文 Gunjala Gondi Lipi(英语:Gunjala Gondi Lipi) 古木基文 諺文 哈乃斐羅興亞文字 朝鮮漢字 Hanunó'o alphabet(英语:Hanunó'o alphabet) 希伯来字母 希伯來語附加符號(英语:Hebrew diacritics) 平假名 爪哇字母 日本汉字 卡納達文 片假名 Kayah Li alphabet(英语:Kayah Li alphabet) 高棉文 寮文字 Unicode中的拉丁字母 绒巴文 Limbu alphabet(英语:Limbu alphabet) 老傈僳文 布吉斯文(英语:Lontara alphabet) 馬拉雅拉姆文 Gondi writing(英语:Gondi writing) Mende Kikakui script(英语:Mende Kikakui script) Medefaidrin(英语:Medefaidrin) 柏格理苗文 传统蒙古文 Mro people(英语:Mro people) 西非書面字母 西双版纳傣文 Prachalit Nepal alphabet(英语:Prachalit Nepal alphabet) 女书 Ol Chiki alphabet(英语:Ol Chiki alphabet) 奧里亞文 Osage alphabet(英语:Osage alphabet) 奧斯曼亞字母 Pahawh Hmong(英语:Pahawh Hmong) Pau Cin Hau(英语:Pau Cin Hau) Rejang alphabet(英语:Rejang alphabet) Samaritan alphabet(英语:Samaritan alphabet) Saurashtra alphabet(英语:Saurashtra alphabet) 蕭伯納字母 僧伽羅文 索拉僧平字母 Sundanese alphabet(英语:Sundanese alphabet) Sylheti Nagari(英语:Sylheti Nagari) 敘利亞字母 Tagbanwa alphabet(英语:Tagbanwa alphabet) 德宏傣文 老傣文 傣黯語 泰米爾文 泰卢固文 它拿字母 泰文字 藏文 提非納文字 底罗仆多文 Vai syllabary(英语:Vai syllabary) Warang Citi(英语:Warang Citi) 彝文 古代文字 阿洪姆文 安納托利亞象形文字(英语:Anatolian hieroglyphs) 古北阿拉伯文(英语:Ancient North Arabian) 阿維斯陀文(英语:Avestan alphabet) Bassa alphabet(英语:Bassa alphabet) 梵文(英语:Bhaiksuki alphabet) 婆罗米文 卡里亞文(英语:Carian alphabets) 高加索阿爾巴尼亞字母(英语:Caucasian Albanian alphabet) 科普特字母 楔形文字 塞浦路斯音節文字 多格拉語 圣书体 爱尔巴桑 格拉哥里字母 哥德字母 古兰塔文 Hatran alphabet(英语:Hatran alphabet) 阿拉米字母 巴列維文 安息语 凱提文 佉卢文 Khojki(英语:Khojki) Khudabadi script(英语:Khudabadi script) 线形文字A 线形文字B 呂西亞字母(英语:Lycian alphabet) Lydian alphabet(英语:Lydian alphabet) Mahajani(英语:Mahajani) 望加錫文(英语:Makassarese language) Mandaic alphabet(英语:Mandaic alphabet) 摩尼字母 象雄语 Meithei script(英语:Meithei script) 麥羅埃字母 馬拉地文(英语:Modi alphabet) 木爾坦文(英语:Multani alphabet) 納巴泰字母 歐甘字母 古匈牙利字母 古意大利字母 古彼爾姆文 古波斯楔形文字 粟特字母 突厥字母 帕米瑞拉文字(英语:Palmyrene alphabet) 八思巴字母 腓尼基字母 巴列維文字 盧恩字母 夏拉達文 悉曇文字 粟特字母 南阿拉伯字母 索永布字母 贝贝因字母 塔卡里文字(英语:Takri alphabet) 西夏文 乌加里特字母 札那巴札尔方形字母 標記文字 杜普洛伊速記(英语:Duployan shorthand) 薩頓手語譜寫 符號 Unicode中的宗教與政治符號(英语:Religious and political symbols in Unicode) 货币符号 Unicode中的數學運算子與符號(英语:Mathematical operators and symbols in Unicode) Unicode中的音标符号 表情图标 查论编字符编码早期電信 電報電碼(英语:Telegraph code) 庫克與惠斯通(英语:Cooke and Wheatstone telegraph) 摩斯 非拉丁字母(英语:Morse code for non-Latin alphabets) 日文(英语:Wabun code) 中文 西里爾字母(英语:Russian Morse code) 韓文(英语:SKATS) 博多與莫瑞 Fieldata(英语:Fieldata) ASCII ISO/IEC 646 BCDIC(英语:BCD (character encoding)) 電傳文訊(英语:Teletex)與電傳視訊(英语:Videotex)/電視資訊 T.51/ISO/IEC 6937(英语:T.51/ISO/IEC 6937) ITU T.61(英语:ITU T.61) ITU T.101(英语:Videotex character set) 世界系統電傳文訊(英语:World System Teletext) 字元集(英语:Teletext character set) ISO/IEC 8859 現行 -1(西歐語言) -2(中歐語言) -3(馬爾他文/世界文) -4(北歐語言) -5(西里爾字母) -6(阿拉伯文) -7(希臘文) -8(希伯來文) -9(土耳其文) -10(北日耳曼語支) -11(泰文) -13(波羅的語族) -14(凱爾特語族) -15(新西歐語言) -16(羅馬尼亞文) 廢止 -12(梵文) 提議 KOI-8西里爾字母(英语:ISO-IR-111) 薩米文(英语:ISO-IR-197) 改編 威爾斯文(英语:ISO-IR-182) 巴倫支西里爾字母(英语:ISO-IR-200) 愛沙尼亞文(英语:Code page 922) 烏克蘭西里爾字母(英语:Code page 1124) 書目 MARC-8(英语:MARC-8) ANSEL(英语:ANSEL) CCCII/EACC ISO 5426(英语:ISO 5426) ISO 5427(英语:ISO 5427) ISO 5428(英语:ISO 5428) ISO 6438 ISO 6862(英语:ISO 6862) 國家標準 ArmSCII BraSCII(英语:BraSCII) CNS 11643 DIN 66003(英语:DIN 66003) ELOT 927(英语:ELOT 927) GOST 10859(英语:GOST 10859) GB 2312 GB 12052 GB 18030 HKSCS ISCII JIS X 0201 JIS X 0208 JIS X 0212(英语:JIS X 0212) JIS X 0213(英语:JIS X 0213) KOI-7(英语:KOI-7) KPS 9566 KS X 1001 KS X 1002(英语:KS X 1002) LST 1564(英语:LST 1564) LST 1590-4(英语:LST 1590-4) PASCII Shift JIS SI 960(英语:SI 960) TIS-620(英语:Thai Industrial Standard 620-2533) TSCII VISCII(英语:VISCII) VSCII YUSCII(英语:YUSCII) ISO/IEC 2022 ISO/IEC 8859 ISO/IEC 10367(英语:ISO/IEC 10367) EUC ISO-IR-165 macOS代码页 亞美尼亞文(英语:Mac OS Armenian) 阿拉伯文 巴倫支西里爾字母(英语:Mac OS Barents Cyrillic) 凱爾特語族(英语:Mac OS Celtic) 中歐語言 克羅埃西亞文(英语:Mac OS Croatian encoding) 西里爾字母(英语:Mac OS Cyrillic encoding) 梵文 波斯文(英语:MacFarsi encoding) 字體X(英语:Macintosh Font X encoding) 蓋爾文(英语:Mac OS Gaelic) 喬治亞文(英语:Mac OS Georgian) 希臘文(英语:MacGreek encoding) 古吉拉特文(英语:Mac OS Gujarati) 古木基文(英语:Mac OS Gurmukhi) 希伯來文(英语:Mac OS Hebrew) 冰島文(英语:Mac OS Icelandic encoding) 因紐特文(英语:Mac OS Inuit) 鍵盤(英语:Mac OS Keyboard encoding) 拉丁文(英语:Macintosh Latin encoding) 馬爾他文/世界文(英语:Mac OS Maltese/Esperanto encoding) 歐甘字母(英语:Mac OS Ogham) 羅曼語族 羅馬尼亞文(英语:Mac OS Romanian encoding) 薩米文(英语:Mac OS Sámi) 土耳其文(英语:Mac OS Turkish encoding) 土耳其西里爾字母(英语:Mac OS Turkic Cyrillic) 烏克蘭文(英语:Mac OS Ukrainian encoding) VT100(英语:VT100 encoding) DOS代碼頁 437 668(英语:Code page 668) 708(英语:Code page 708) 720(英语:Code page 720) 737(英语:Code page 737) 770(英语:Code page 770) 773(英语:Code page 773) 775(英语:Code page 775) 776(英语:Code page 776) 777(英语:Code page 777) 778(英语:Code page 778) 850(英语:Code page 850) 851(英语:Code page 851) 852(英语:Code page 852) 853(英语:Code page 853) 855(英语:Code page 855) 856(英语:Code page 856) 857(英语:Code page 857) 858(英语:Code page 858) 859(英语:Code page 859) 860(英语:Code page 860) 861(英语:Code page 861) 862(英语:Code page 862) 863(英语:Code page 863) 864(英语:Code page 864) 865(英语:Code page 865) 866(英语:Code page 866) 867(英语:Code page 867) 868(英语:Code page 868) 869(英语:Code page 869) 897(英语:Code page 897) 899(英语:Code page 899) 903(英语:Code page 903) 904(英语:Code page 904) 932(英语:Code page 932 (IBM)) 936(英语:Code page 936 (IBM)) 942(英语:Code page 942) 949(英语:Code page 949 (IBM)) 950 951(英语:Code page 951) 1040(英语:Code page 1040) 1042(英语:Code page 1042) 1043(英语:Code page 1043) 1046(英语:Code page 1046) 1098(英语:Code page 1098) 1115(英语:Code page 1115) 1116(英语:Code page 1116) 1117(英语:Code page 1117) 1118(英语:Code page 1118) 1127(英语:Code page 1127) 3846(英语:Code page 3846) ABICOMP(英语:ABICOMP character set) CS Indic(英语:CS Indic character set) CSX Indic(英语:CSX Indic character set) CSX+ Indic(英语:CSX+ Indic character set) CWI-2(英语:CWI-2) 伊朗系統(英语:Iran System encoding) 卡梅尼茨(英语:Kamenický encoding) 馬索維亞(英语:Mazovia encoding) MIK(英语:MIK (character set)) IBM AIX代碼頁 895(英语:Code page 895) 896(英语:Code page 896) 912(英语:Code page 912) 915(英语:Code page 915) 921(英语:Code page 921) 922(英语:Code page 922) 1006(英语:Code page 1006) 1008(英语:Code page 1008) 1009(英语:Code page 1009) 1010(英语:Code page 1010) 1012(英语:Code page 1012) 1013(英语:Code page 1013) 1014(英语:Code page 1014) 1015(英语:Code page 1015) 1016(英语:Code page 1016) 1017(英语:Code page 1017) 1018(英语:Code page 1018) 1019(英语:Code page 1019) 1124(英语:Code page 1124) 1133(英语:Code page 1133) Microsoft Windows代碼頁(英语:Windows code page) CER-GS(英语:CER-GS) 932(英语:Code page 932 (Microsoft Windows)) 936 GBK 950 1169(英语:Code page 1169) Extended Latin-8(英语:Extended Latin-8) 1250(英语:Windows-1250) 1251(英语:Windows-1251) 1252 1253(英语:Windows-1253) 1254(英语:Windows-1254) 1255(英语:Windows-1255) 1256(英语:Windows-1256) 1257(英语:Windows-1257) 1258(英语:Windows-1258) 1270(英语:Windows-1270) 西里爾字母+芬蘭文(英语:Windows Cyrillic + Finnish) 西里爾字母+法文(英语:Windows Cyrillic + French) 西里爾字母+德文(英语:Windows Cyrillic + German) 希臘語變音符號(英语:Windows Polytonic Greek) EBCDIC代碼頁 37(英语:Code page 37) EBCDIC中的日文(英语:Japanese language in EBCDIC) DKOI(英语:DKOI) DEC終端機(VTx(英语:VT220)) MCS(英语:Multinational Character Set) NRCS(英语:National Replacement Character Set) 加拿大法文(英语:Code page 1020) 瑞士文(英语:Code page 1021) 西班牙文(英语:Code page 1023) 英國英文(英语:Code page 1101) 荷蘭文(英语:Code page 1102) 芬蘭文(英语:Code page 1103) 法文(英语:Code page 1104) 挪威文/丹麥文(英语:Code page 1105) 瑞典文(英语:Code page 1106) 挪威文/丹麥文(替代)(英语:Code page 1107) 8位元希臘文(英语:Code page 1287) 8位元土耳其文(英语:Code page 1288) SI 960(英语:SI 960) 希伯來文(英语:DEC Hebrew) 特殊圖形(英语:DEC Special Graphics) 技術(英语:DEC Technical Character Set) 特定平臺 1057(英语:Code page 1057) Acorn(英语:RISC OS character set) Adobe標準(英语:PostScript Standard Encoding) Adobe Latin 1(英语:PostScript Latin 1 Encoding) Amstrad CPC(英语:Amstrad CPC character set) Apple II(英语:Apple II character set) 雅達利資訊交換標準碼(英语:ATASCII) 雅達利ST(英语:Atari ST character set) BICS(英语:Bitstream International Character Set) 卡西歐計算機(英语:Casio calculator character sets) CDC(英语:CDC display code) Compucolor II(英语:Compucolor II character set) CP/M+(英语:Amstrad CP/M Plus character set) DEC RADIX 50(英语:DEC RADIX 50) DEC MCS(英语:Multinational Character Set)/NRCS(英语:National Replacement Character Set) DG國際(英语:DG International) Fieldata(英语:Fieldata) GEM(英语:GEM character set) GSM 03.38(英语:GSM 03.38) HP Roman(英语:HP Roman) HP FOCAL(英语:FOCAL character set) HP RPL(英语:RPL character set) SQUOZE(英语:SQUOZE) LICS(英语:Lotus International Character Set) LMBCS(英语:Lotus Multi-Byte Character Set) MSX(英语:MSX character set) NEC APC(英语:NEC APC character set) NeXT(英语:NeXT character set) PETSCII(英语:PETSCII) SEGA SC-3000(英语:Sega SC-3000 character set) 夏普計算機(英语:Sharp pocket computer character sets) 夏普MZ(英语:Sharp MZ character set) 辛克萊QL(英语:Sinclair QL character set) 符號 電傳文訊(英语:Teletext character set) 德州儀器計算機(英语:TI calculator character sets) TRS-80(英语:TRS-80 character set) 文圖拉國際(英语:Ventura International) WISCII(英语:Wang International Standard Code for Information Interchange) XCCS(英语:Xerox Character Code Standard) ZX80(英语:ZX80 character set) ZX81(英语:ZX81 character set) ZX Spectrum(英语:ZX Spectrum character set) Unicode/ISO/IEC 10646 UTF-1 UTF-7 UTF-8 UTF-16 UTF-32 UTF-EBCDIC(英语:UTF-EBCDIC) GB 18030 BOCU-1 CESU-8 SCSU TACE16(英语:Tamil All Character Encoding) Unicode編碼比較(英语:Comparison of Unicode encodings) TeX排版系統 科克(英语:Cork encoding) LY1(英语:LY1 encoding) OML(英语:OML encoding) OMS(英语:OMS encoding) OT1(英语:OT1 encoding) 其他代碼頁 ABICOMP(英语:ABICOMP character set) ASMO 449(英语:ASMO 449) Big5 APL符號數位編碼(英语:Digital encoding of APL symbols) ISO-IR-68(英语:ISO-IR-68) ARIB STD-B24 HZ(英语:HZ (character encoding)) IEC-P27-1(英语:IEC-P27-1) INIS 7位元(英语:INIS character set) INIS-8(英语:8位元) ISO-IR-169(英语:ISO-IR-169) ISO 2033(英语:ISO 2033) KOI -R -RU(英语:KOI8-RU) -U 今昔文字鏡 SEASCII(英语:Stanford Extended ASCII) Stanford/ITS(英语:Stanford/ITS character set) TRON(英语:TRON (encoding)) 統合韓文代碼(英语:Unified Hangul Code) 控制字符 摩斯電碼專用代碼(英语:Prosigns for Morse code) C0与C1控制字符 ISO/IEC 6429 JIS X 0211(英语:JIS X 0211) Unicode控制字符 空白字元 相關條目 CCSID(英语:CCSID) HTML字符编码 字符集探测 中日韓統一表意文字 硬體代碼頁(英语:Hardware code page) 磁性墨水字元識別碼(英语:Magnetic ink character recognition) 亂碼 可變長度編碼(英语:Variable-width encoding) 字元集


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有