关于unicode:日语ASCII码 您所在的位置:网站首页 片假名字符 关于unicode:日语ASCII码

关于unicode:日语ASCII码

2024-07-11 06:46| 来源: 网络整理| 查看: 265

在哪里可以获得与日语汉字,平假名和片假名字符相对应的ASCII码列表。我正在做一个Java函数和Javascript来确定它是否是日语字符。 ASCII码的范围是什么?

ASCII代表"美国信息交换标准代码",仅包含128个字符(甚至不是所有字符都可以打印),并且基于大约1960年的美国人使用需求。它不包含与任何日语字符相关的内容。

我相信您想要某些字符的Unicode代码点,您可以在unicode.org提供的图表中查找。

请参阅我关于汉字/假名字符的类似问题。正如@coobird所提到的,由于许多汉字与汉字重叠,因此决定要检查的范围可能很困难。

简而言之,平假名和片假名的Unicode范围是:

平假名:Unicode:3040-309F 片假名:Unicode:30A0–30FF

如果您认为此答案有用,请也对@coobird对我的问题的答案进行投票。

がんばって!

日语字符将不在ASCII范围内,而将在Unicode中。您想要什么,只是每个字符的char值?

相关讨论 是的,我需要每个字符的值

好一阵子了,但这是平假名,片假名,汉字等及其Unicode表的链接...

http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

但是,您可能知道Unicode是十六进制的。您可以在编程器模式下使用Windows Calc将它们转换为十进制数字,然后将该数字作为ASCII代码输入,它将生成所需的字符,这取决于您要输入的字符。它将在MS Wordpad和Word(不是记事本)中显示。

例如,平假名ぁ在Unicode中为3041。 3041是十六进制,并转换为十进制12353。如果您在写字板或Word中输入12353作为ASCII码,即按住Alt键,则在数字键盘上输入12353然后松开Alt键,它将打印ぁ。日语字符的范围似乎是平假名:3040-309f(ASCII为12352-12447),片假名:30a0-30ff(ASCII为12448-12543),日文汉字:4e00-4DB5(19968-19893 ASCII),因此有几种范围。该图表上还有一个半角片假名范围。

相关讨论 " Unicode是十六进制的"。嗯这是完全荒谬的说法。代码点就是数字;十六进制只是一种写数字的方式。我确定我可以在网络上的某个地方找到一个以十进制表示的unicode列表。

汉字将具有Hani的Unicode" Script"属性,平假名将具有Hira的" Script"属性,而片假名将具有Kana的" Script"属性。在Java中,您可以使用Character.UnicodeScript类确定字符的"脚本"属性:http://docs.oracle.com/javase/7/docs/api/java/lang/Character.UnicodeScript.html不知道您是否可以在Javascript中确定字符的"脚本"属性。

当然,大多数汉字都是中文中使用的字符;给定像猫这样的字符,就无法判断它是用作中文字符还是日语字符。

我不会重新哈希ASCII部分。只需看一下Unicode代码表。

相关讨论 一个有趣的相关问题是:"是否有日语的8位扩展ASCII编码?"。

我认为日语的ASCII码是指日语的SBCS(单字节字符集)。对于日语,您只有一个MBCS(多字节字符集),它具有单字节字符和多字节字符的组合。因此,对于保存在MBCS中的日语文本文件,您将非日语字符(英文字母和数字以及常见的非字母数字字符)保存为一个字节,并将日语字符保存为两个字节。

假定您未引用UNICODE,它是统一的DBCS(双字节字符集),其中每个字符恰好是两个字节。实际上,最近更正确的是,UNICODE也具有多个DBCS,因为该字符集不再能容纳其他字符。某些UNICODE字符由4个字节组成,其中前两个字节已作为前导字符。

如果您指的是第一个(MBCS),而不是UNICODE,则有很多日文字符集,例如Shift-JIS(比较流行)。因此,我建议您搜索Shift-JIS字符映射。尽管Shift-JIS之外还有其他日语字符集映射。

相关讨论 Unicode不是"双字节字符集"。不要将编码与字符集本身混淆。 Unicode标准提供了字符和数字("代码点")之间的映射。当谈到"两字节Unicode"时,您可能指的是UCS2(每个代码点两个字节,不能表示所有Unicode字符)或UTF-16(每个代码点两个或四个字节)。其他编码包括UTF-32(四字节编码)和UTF-8(每个代码点使用一个,两个,三个或四个字节的编码)。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有