清华分词工具包 |
您所在的位置:网站首页 › 隐性冠心病如何处理 › 清华分词工具包 |
今天就不看美图欣赏了(haha),你们别上瘾了 清华THUNLP: THULAC:一个高效的中文词法分析工具包 THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。 THULAC具有如下几个特点: 能力强。利用我们集成的目前世界上规模最大的人工分词和词性标注中文语料库(约含5800万字)训练而成,模型标注能力强大。 准确率高。该工具包在标准数据集Chinese Treebank(CTB5)上分词的F1值可达97.3%,词性标注的F1值可达到92.9%,与该数据集上最好方法效果相当。 速度较快。同时进行分词和词性标注速度为300KB/s,每秒可处理约15万字。只进行分词速度可达到1.3MB/s。 二.THULAC的安装 命令: pip install thulac三.代码实现 import codecs import thulac #直接实现编码转换 def ReadFile(filePath,encoding="utf-8"): with codecs.open(filePath,"r",encoding) as f: return f.read() def WriteFile(filePath,content,encoding="gbk"): with codecs.open(filePath,"w",encoding) as f: f.write(content) def UTF8_to_GBK(src,dst): content = ReadFile(src,encoding="utf-8") WriteFile(dst,content,encoding="gbk") thu1 = thulac.thulac() #默认模式 text = thu1.cut("我爱北京天安门", text=True) #进行一句话分词 print(text)# 我_r 爱_v 北京_ns 天安门_ns #2文件分词,支持gbk(必须要转换,否则报错) thu1_f= thulac.thulac() UTF8_to_GBK("input.txt","input2.txt") UTF8_to_GBK("output.txt","output2.txt") thu1_f.cut_f("input2.txt","output2.txt") # thu1 = thulac.thulac(seg_only=True) #只进行分词,不进行词性标注 # thu1.cut_f("input.txt", "output.txt") #对input.txt文件内容进行分词,输出到output.txt print("文件分词成功")运行结果: Model loaded succeed 我_r 爱_v 北京_ns 天安门_ns Model loaded succeed successfully cut file input2.txt! 文件分词成功 Process finished with exit code 0生成的output2.txt文件: |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |