英文分词&词性赋码 您所在的位置:网站首页 communicate词性转换 英文分词&词性赋码

英文分词&词性赋码

2023-03-28 02:04| 来源: 网络整理| 查看: 265

1.什么是分词、如何分词?

分词(tokenization),指将一连串的字符转换成相互分离、容易识别的形符(tokens)的过程。

在文本采集过程中,由于文本来源不一,格式各异,文本内部存在很大的不一致性,如果不进行分词处理,一来容易导致检索困难,二来可能会使语料库的频率统计出现误差,还可能会影响语料库的标注和后期加工

我们在对语料库中的文本进行分词处理之前,首先需要理解什么是“形符”,给“形符”一个操作层面上的定义。在处理英语时,较为通用的做法是,把所有的单词视为“形符”。这里说的形符,大概有这样几种类型:

(1)全部由英语字母构成(如computer由8个英文字母构成);

(2)由数字或数字和字母构成(如3、1985、21th、3D等);

(3)除了数字和/或字母之外,还带有连字符(-);

(4)带有英语 26 个字母之外的的外来字母(如德语中的音变);

(5)部分符号(如&、$等)。

统计形符时,我们通常不把标点符号(如逗号、句号等)包括在内,但这一点有例外,如数字3.1415925和整数的千分位分隔符(如1000,000)中的逗号等。为了便于统计,对英语进行分词时通常在以上我们所说的“形符”后加空格,使得他们与文本中的其他形符或符号分离开来。

举个简单的小例子 :

分词前分词后

分词前的文本:

“downward”和“pressure”之间有两个空格,如果我们在对文本进行检索时,输入“downward pressure”,将无法检索到这一语言实例,而且在分析多词序列时,语料库分析软件可能也会出错。

“adjustments”和“We”之间没有留出应有的空格,语料库分析工具可能会误把“adjustments.We”看作一个词,在创建词表时,可能会将其作为一个词列出。

以上问题可能会导致语料库自动标注工具在对文本标注时遇到麻烦,标注不准确,影响研究的可靠性。因此,在语料库研究中,分词尤为重要。那么,如何进行分词呢?

Tip:只需要将文档导入YiCorpus,平台会自动分词,方便进行后续一系列的研究,同时,还支持直接导出。

2.什么是词性赋码,如何进行词性赋码?

词性赋码(part-of-speech tagging),指根据文本中的上下文信息,自动标注文本中所有词的词性的过程。

即,利用现有的计算机程序,可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签,以方便检索和语言处理。词性赋码是自然语言处理(Natural Language Processing)中最基本的任务之一。那么,如何进行词性赋码呢?

Tip:同样,只需要将文档导入YiCorpus,平台会自动进行词性赋码,方便进行后续一系列的研究,同时,还支持直接导出。

文中提到的:YiCorpus多功能语料库检索平台 。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有