英文分词&词性赋码

2023-03-28 02:04| 来源: 网络整理| 查看: 265

1.什么是分词、如何分词？

分词（tokenization），指将一连串的字符转换成相互分离、容易识别的形符（tokens）的过程。

在文本采集过程中，由于文本来源不一，格式各异，文本内部存在很大的不一致性，如果不进行分词处理，一来容易导致检索困难，二来可能会使语料库的频率统计出现误差，还可能会影响语料库的标注和后期加工。

我们在对语料库中的文本进行分词处理之前，首先需要理解什么是“形符”，给“形符”一个操作层面上的定义。在处理英语时，较为通用的做法是，把所有的单词视为“形符”。这里说的形符，大概有这样几种类型：

(1)全部由英语字母构成(如computer由8个英文字母构成)；

(2)由数字或数字和字母构成(如3、1985、21th、3D等)；

(3)除了数字和/或字母之外，还带有连字符(-)；

(4)带有英语 26 个字母之外的的外来字母(如德语中的音变)；

(5)部分符号(如&、$等)。

统计形符时，我们通常不把标点符号(如逗号、句号等)包括在内，但这一点有例外，如数字3.1415925和整数的千分位分隔符(如1000,000)中的逗号等。为了便于统计，对英语进行分词时通常在以上我们所说的“形符”后加空格，使得他们与文本中的其他形符或符号分离开来。

举个简单的小例子：

分词前

分词后

分词前的文本：

“downward”和“pressure”之间有两个空格，如果我们在对文本进行检索时，输入“downward pressure”，将无法检索到这一语言实例，而且在分析多词序列时，语料库分析软件可能也会出错。

“adjustments”和“We”之间没有留出应有的空格，语料库分析工具可能会误把“adjustments.We”看作一个词，在创建词表时，可能会将其作为一个词列出。

以上问题可能会导致语料库自动标注工具在对文本标注时遇到麻烦，标注不准确，影响研究的可靠性。因此，在语料库研究中，分词尤为重要。那么，如何进行分词呢？

Tip：只需要将文档导入YiCorpus，平台会自动分词，方便进行后续一系列的研究，同时，还支持直接导出。

2.什么是词性赋码，如何进行词性赋码?

词性赋码(part-of-speech tagging)，指根据文本中的上下文信息，自动标注文本中所有词的词性的过程。

即，利用现有的计算机程序，可以在文本中各类名词、动词、形容词等所有词之后加上对应的标签，以方便检索和语言处理。词性赋码是自然语言处理(Natural Language Processing)中最基本的任务之一。那么，如何进行词性赋码呢？

Tip：同样，只需要将文档导入YiCorpus，平台会自动进行词性赋码，方便进行后续一系列的研究，同时，还支持直接导出。

文中提到的：YiCorpus多功能语料库检索平台。

【本文地址】

公司简介

联系我们