python汉字排序规则

2023-04-05 19:57| 来源: 网络整理| 查看: 265

python

汉字排序规则

_Python

中⽂排序

我找到最全的数据是slowwind9999上传到csdn的unicode汉字编码表，包括全部20902个汉字的全拼、五笔、郑码、UNICODE、

GBK、笔画数部⾸，以及笔顺编号(拼⾳部分没有⾳调，⽽且个别注⾳有误，如囍，猤，啹等字，使⽤需注意。)我提取了其中的笔顺数

据，⼜⽤江志键的“实⽤汉字转拼⾳”程序制作了unicode汉字⾳调版，其中中⽂汉字⽤四声标注，319个⽇韩汉字没有⾳调以⽰区别，并

根据汉典的数据略作修正(但仍可能存在错误)。有了这两个对照表，下⾯的⼯作就简单了。

# 建⽴拼⾳辞典

dic_py = dict()

f_py = open('py.txt','r')

content_py = f_py.read()

lines_py = content_py.split('\n')

n=len(lines_py)

for i in range(0,n-1):

word_py, mean_py = lines_py[i].split('\t', 1)

dic_py[word_py]=mean_py

f_py.close()

笔顺字典的处理⽅法也完全相同，虽然⽂本有两万⾏，导⼊还是很快的，0.5秒左右。如果把这两个⽂件合并起来统⼀处理，应该可以更

快。

# 辞典查找函数

def searchdict(dic,uchar):

if isinstance(uchar, str):

uchar = unicode(uchar,'utf-8')

if uchar >= u'\u4e00' and uchar

【本文地址】

公司简介

联系我们