python汉字排序规则 您所在的位置:网站首页 utf-8汉字编码对照表 python汉字排序规则

python汉字排序规则

2023-04-05 19:57| 来源: 网络整理| 查看: 265

python

汉字排序规则

_Python

中⽂排序

我找到最全的数据是slowwind9999上传到csdn的unicode汉字编码表,包括全部20902个汉字的全拼、五笔、郑码、UNICODE、

GBK、笔画数 部⾸,以及笔顺编号(拼⾳部分没有⾳调,⽽且个别注⾳有误,如 囍,猤,啹等字,使⽤需注意。)我提取了其中的笔顺数

据,⼜⽤江志键的“实⽤汉字转拼⾳”程序制作了unicode汉字⾳调版,其中中⽂汉字⽤四声标注,319个⽇韩汉字没有⾳调以⽰区别,并

根据汉典的数据略作修正(但仍可能存在错误)。有了这两个对照表,下⾯的⼯作就简单了。

# 建⽴拼⾳辞典

dic_py = dict()

f_py = open('py.txt','r')

content_py = f_py.read()

lines_py = content_py.split('\n')

n=len(lines_py)

for i in range(0,n-1):

word_py, mean_py = lines_py[i].split('\t', 1)

dic_py[word_py]=mean_py

f_py.close()

笔顺字典的处理⽅法也完全相同,虽然⽂本有两万⾏,导⼊还是很快的,0.5秒左右。如果把这两个⽂件合并起来统⼀处理,应该可以更

快。

# 辞典查找函数

def searchdict(dic,uchar):

if isinstance(uchar, str):

uchar = unicode(uchar,'utf-8')

if uchar >= u'\u4e00' and uchar 



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有