python汉字排序规则 | 您所在的位置:网站首页 › utf-8汉字编码对照表 › python汉字排序规则 |
python 汉字排序规则 _Python 中⽂排序 我找到最全的数据是slowwind9999上传到csdn的unicode汉字编码表,包括全部20902个汉字的全拼、五笔、郑码、UNICODE、 GBK、笔画数 部⾸,以及笔顺编号(拼⾳部分没有⾳调,⽽且个别注⾳有误,如 囍,猤,啹等字,使⽤需注意。)我提取了其中的笔顺数 据,⼜⽤江志键的“实⽤汉字转拼⾳”程序制作了unicode汉字⾳调版,其中中⽂汉字⽤四声标注,319个⽇韩汉字没有⾳调以⽰区别,并 根据汉典的数据略作修正(但仍可能存在错误)。有了这两个对照表,下⾯的⼯作就简单了。 # 建⽴拼⾳辞典 dic_py = dict() f_py = open('py.txt','r') content_py = f_py.read() lines_py = content_py.split('\n') n=len(lines_py) for i in range(0,n-1): word_py, mean_py = lines_py[i].split('\t', 1) dic_py[word_py]=mean_py f_py.close() 笔顺字典的处理⽅法也完全相同,虽然⽂本有两万⾏,导⼊还是很快的,0.5秒左右。如果把这两个⽂件合并起来统⼀处理,应该可以更 快。 # 辞典查找函数 def searchdict(dic,uchar): if isinstance(uchar, str): uchar = unicode(uchar,'utf-8') if uchar >= u'\u4e00' and uchar |
CopyRight 2018-2019 实验室设备网 版权所有 |