统计自然语言处理（第2版） (中文信息处理丛书): 1.2　自然语言处理研究的内容和面临的困难(情感分类,信息增益)

您所在的位置：网站首页 › 自然语言处理面临的困难 › 统计自然语言处理（第2版） (中文信息处理丛书): 1.2　自然语言处理研究的内容和面临的困难(情感分类,信息增益)

统计自然语言处理（第2版） (中文信息处理丛书): 1.2　自然语言处理研究的内容和面临的困难(情感分类,信息增益)

2024-07-12 13:17| 来源: 网络整理| 查看: 265

1.2　自然语言处理研究的内容和面临的困难

1.2.1　自然语言处理研究的内容

自然语言处理研究的内容十分广泛，根据其应用目的不同，我们可以大致列举如下一些研究方向：

（1）机器翻译（machine translation, MT）：实现一种语言到另一种语言的自动翻译。

（2）自动文摘（automatic summarizing或automatic abstracting）：将原文档的主要内容和含义自动归纳、提炼出来，形成摘要或缩写。

（3）信息检索（information retrieval）：信息检索也称情报检索，就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种或两种以上语言的信息检索叫做跨语言信息检索（cross-language/trans-lingual information retrieval）。

（4）文档分类（document categorization/classification）：文档分类也称文本分类（text categorization/classification）或信息分类（information categorization/classification），其目的就是利用计算机系统对大量的文档按照一定的分类标准（例如，根据主题或内容划分等）实现自动归类。近年来，情感分类（sentiment classification）或称文本倾向性识别（text orientation identification）成为本领域研究的热点。该项技术拥有广泛的用途，公司可以利用该技术了解用户对产品的评价，政府部门可以通过分析网民对某一事件、政策法规或社会现象的评论，实时了解百姓的态度。因此，情感分类已经成为支撑舆情分析（public opinion analysis）的基本技术。

（5）问答系统（question-answering system）：通过计算机系统对用户提出的问题的理解，利用自动推理等手段，在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入、输出技术，以及人-机交互技术等相结合，构成人-机对话系统（human-computer dialogue system）。

（6）信息过滤（information filtering）：通过计算机系统自动识别和过滤那些满足特定条件的文档信息。通常指网络有害信息的自动识别和过滤，主要用于信息安全和防护、网络内容管理等。

（7）信息抽取（information extraction）：指从文本中抽取出特定的事件（event）或事实信息，有时候又称事件抽取（event extraction）。例如，从时事新闻报道中抽取出某一恐怖事件的基本信息：时间、地点、事件制造者、受害人、袭击目标、伤亡人数等；从经济新闻中抽取出某些公司发布的产品信息：公司名称、产品名称、开发时间、某些性能指标等。前一种事件一般是过程性的，有一定的因果关系，而后一类事件则是静态事实性的。信息抽取与信息检索不同，信息抽取直接从自然语言文本中抽取信息框架，一般是用户感兴趣的事实信息，而信息检索主要是从海量文档集合中找到与用户需求（一般通过关键词表达）相关的文档列表，而信息抽取则是希望直接从文本中获得用户感兴趣的事实信息。当然，信息抽取与信息检索也有密切的关系，信息抽取系统通常以信息检索系统（如文本过滤）的输出作为输入，而信息抽取技术又可以用来提高信息检索系统的性能［李保利等，2003］。

信息抽取与问答系统也有密切的联系。一般而言，信息抽取系统要抽取的信息是明定的、事先规定好的，系统只是将抽取出来的事实信息填充在给定的框架槽里，而问答系统面对的用户问题往往是随机的、不确定的，而且系统需要将问题的答案生成自然语言句子，通过自然、规范的语句准确地表达出来，使系统与用户之间形成一问一答的交互过程。

（8）文本挖掘（text mining）：有时又称数据挖掘（data mining），是指从文本（多指网络文本）中获取高质量信息的过程。文本挖掘技术一般涉及文本分类、文本聚类（text clustering）、概念或实体抽取（concept/entity extraction）、粒度分类、情感分析（sentiment analysis）、自动文摘和实体关系建模（entity relation modeling）等多种技术〔6〕。当然，数据挖掘有时具有更广泛的含义，可以包括音视频数据、图像数据和统计数据等。

（9）舆情分析（public opinion analysis）：舆情是指在一定的社会空间内，围绕中介性社会事件的发生、发展和变化，民众对社会管理者产生和持有的社会政治态度。它是较多群众关于社会中各种现象、问题所表达的信念、态度、意见和情绪等等表现的总和〔7〕。网络环境下舆情信息的主要来源有：新闻评论、网络论坛（bulletin board system, BBS）、聊天室、博客（Blog）、新浪微博、聚合新闻（或称“简易供稿”（really simple syndication, RSS））、Facebook、QQ、Twitter等社交网站。由于网上的信息量十分巨大，仅仅依靠人工的方法难以应对海量信息的收集和处理，需要加强相关信息技术的研究，形成一套自动化的网络舆情分析系统，及时应对网络舆情，由被动防堵变为主动梳理、引导。显然，舆情分析是一项十分复杂、涉及问题众多的综合性技术，它涉及网络文本挖掘、观点（意见）挖掘（opinion mining）等各方面的问题。

（10）隐喻计算（metaphorical computation）：“隐喻”就是用乙事物或其某些特征来描述甲事物的语言现象［周昌乐，2009］。简要地讲，隐喻计算就是研究自然语言语句或篇章中隐喻修辞的理解方法。

（11）文字编辑和自动校对（automatic proofreading）：对文字拼写、用词，甚至语法、文档格式等进行自动检查、校对和编排。

（12）作文自动评分：对作文质量和写作水平进行自动评价和打分。

（13）光读字符识别（optical character recognition, OCR）：通过计算机系统对印刷体或手写体等文字进行自动识别，将其转换成计算机可以处理的电子文本，简称字符识别或文字识别。相对而言，文字识别研究的主要内容更多地属于字符（汉字）图像识别问题，通常被看作是一个模式识别问题，但作者认为，对于一个高性能的文字识别系统而言，如果没有任何自然语言理解技术的参与是不可想像的。

（14）语音识别（speech recognition）：将输入计算机的语音信号识别转换成书面语表示。语音识别也称自动语音识别（automatic speech recognition, ASR）。

（15）文语转换（text-to-speech conversion）：将书面文本自动转换成对应的语音表征，又称语音合成（speech synthesis）。

（16）说话人识别／认证／验证（speaker recognition/identification/verification）：对一说话人的言语样本做声学分析，依此推断（确定或验证）说话人的身份。

综上所述，涉及人类语言的任何应用技术几乎都隐含着自然语言处理的问题。当然，上面所列举的这些研究内容覆盖面较广，有很多内容不仅仅是自然语言处理的问题，例如信息检索、舆情分析、文字识别，甚至社交网络（social network）、社会计算（social computing）等，除此之外，还有情感计算（affective computing）、语言教学（language teaching）、口语考试自动评分等等，这些研究往往包含很多其他技术。本书不想陷入关于这些内容归属问题的争论，只是由于这些研究与自然语言处理密切相关，而简单地将其划归为自然语言处理研究的范畴，这也算是作者对自然语言处理学科的“偏心”吧。另外需要指出的是，语音识别、语音合成和说话人识别这三项内容常常被单独看作“语音技术”，本书不涉及对这三项内容的具体介绍。

1.2.2　自然语言处理涉及的几个层次

如果撇开语音学研究的层面，自然语言处理研究的问题一般会涉及自然语言的形态学、语法学、语义学和语用学等几个层次。

形态学（morphology）：形态学（又称“词汇形态学”或“词法”）是语言学的一个分支，研究词的内部结构，包括屈折变化和构词法两个部分。由于词具有语音特征、句法特征和语义特征，形态学处于音位学、句法学和语义学的结合部位，所以形态学是每个语言学家都要关注的一门学科［Matthews,2000］。

语法学（syntax）：研究句子结构成分之间的相互关系和组成句子序列的规则。其关注的中心是：为什么一句话可以这么说，也可以那么说？

语义学（semantics）：是一门研究意义，特别是语言意义的学科［毛茂臣，1988］。语义学的研究对象是语言的各级单位（词素、词、词组、句子、句子群、整段整篇的话语和文章，乃至整个著作）的意义，以及语义与语音、语法、修辞、文字、语境、哲学思想、社会环境、个人修养的关系，等等［陆善采，1993］。其重点在探明符号与符号所指的对象之间的关系，从而指导人们的言语活动。它所关注的重点是：这个语言单位到底说了什么？

语用学（pragmatics）：是现代语言学用来指从使用者的角度研究语言，特别是使用者所作的选择、他们在社会互动中所受的制约、他们的语言使用对信递活动中其他参与者的影响。目前还缺乏一种连贯的语用学理论，主要是因为它必须说明的问题是多方面的，包括直指、会话隐含、预设、言语行为、话语结构等。部分原因是由于这一学科的范围太宽泛，因此出现多种不一致的定义。从狭隘的语言学观点看，语用学处理的是语言结构中有形式体现的那些语境。相反，语用学最宽泛的定义是研究语义学未能涵盖的那些意义［克里斯特尔，2002］。因此，语用学可以是集中在句子层次上的语用研究，也可以是超出句子，对语言的实际使用情况的调查研究，甚至与会话分析、语篇分析相结合，研究在不同上下文中的语句应用，以及上下文对语句理解所产生的影响。其关注的重点在于：为什么在特定的上下文中要说这句话？

在实际问题的研究中，上述几方面的问题，尤其是语义学和语用学的问题往往是相互交织在一起的。语法结构的研究离不开对词汇形态的分析，句子语义的分析也离不开对词汇语义的分析、语法结构和语用的分析，它们之间往往互为前提。

1.2.3　自然语言处理面临的困难

根据上面的介绍，自然语言处理涉及形态学、语法学、语义学和语用学等几个层面的问题，其最终应用目标包括机器翻译、信息检索、问答系统等非常广泛的应用领域。其实，如果进一步归结，实现所有这些应用目标最终需要解决的关键问题就是歧义消解（disambiguation）问题和未知语言现象的处理问题。一方面，自然语言中大量存在的歧义现象，无论在词法层次、句法层次，还是在语义层次和语用层次，无论哪类语言单位，其歧义性始终都是困扰人们实现应用目标的一个根本问题。因此，如何面向不同的应用目标，针对不同语言单位的特点，研究歧义消解和未知语言现象的处理策略及实现方法，就成了自然语言处理面临的核心问题。

词汇形态歧义消解是自然语言处理需要解决的基本问题。请看如下例句：

例句1 　I'll see Prof. Zhang home.

例句2 　He books two tickets.

对于例句1，系统需要正确地识别“I'll”是单词I和will的缩写，而“Prof.”中的“.”只是表明“Prof.”是“Professor”的缩写，并非句子的结束。

例句3 　自动化研究所取得的成就。

对于汉语而言，尽管不存在形态变化的问题，但如何划分词的边界始终是中文信息处理中面临的一个难题。例句3可以有两种划分：

（1）自动化　研究所　取得　的　成就。

（2）自动化　研究　所　取得　的　成就。

显然，“所”一旦被切分为介词，整个句子的结构就完全不一样了。

请看如下典型的结构歧义例句：

例句4 　Put the block in the box on the table.

在例句4中，“on the table”既可以修饰“box”，也可以限定“block”。于是，我们可以得到两种不同的句法结构：

（1）Put the block ［in the box on the table］.

（2）Put ［the block in the box］ on the table.

如果在这个句子中再增加一个介词短语（...in the kitchen），我们可以得到5种可能的分析结果，另外再增加一个的话，就可以得到14种可能的分析结构［Samuelsson and Wiren，2000］。

类似地，见例句5：

例句5 　I saw a man in the park with a telescope.

可以得到5种不同的分析结构［冯志伟，1996］，而W.A.Martin曾报道他们的系统对于以下句子可以给出455个不同的句法分析结果［Martin et al.,1987］：

例句6 　List the sales of the products produced in 1973 with the products produced in 1972.

实际上，这种歧义结构分析结果的数量是随介词短语数目的增加呈指数上升的，其歧义组合的复杂程度随着介词短语个数的增加而不断加深，这个歧义结构的组合数称为开塔兰数（Catalan numbers，记作C n ），即如果句子中存在这样n（n为自然数）个介词短语，C n 可以由下式获得［Samuelsson and Wiren，2000］：

由此，歧义结构数目的急剧增加，使得句法分析算法面临的困难迅速增大，句法分析算法不得不消耗大量的时间在这样一个组合爆炸的候选结构中搜索可能的路径，以实现局部歧义和全局歧义的有效消解。

在现代汉语中，尽管一般不会出现像上述英语例句那样由于多个介词结构的挂靠成分不同而引起句子歧义结构数目大量存在的现象，但是，汉语中的各类歧义现象却也是普遍存在的。请看如下例句：

例句7 　喜欢乡下的孩子。

这个句子可以理解为“［喜欢／乡下］的孩子。”也可以理解为“喜欢［乡下／的／孩子］。”而句子：

例句8 　关于鲁迅的著作。

可以解析为“关于［鲁迅／的／著作］”，也可以解析为“［关于／鲁迅］的著作”。

句法结构歧义固然是自然语言处理中典型的问题，而词汇的词类（part-of-speech）歧义、词义歧义和句子的语义歧义等也同样是自然语言处理中普遍存在的问题。例如，英语动词“swallow”通常需要有生命的动物作为主语，客观存在的有形的东西（被吞咽的对象）作为宾语，但在实际运用中，当用于隐喻时就出现了例外。例如［Manning and Schütze，1999］：

例句9 　I swallowed his story, hook, line, and sinker.

例句10 　The supernova swallowed the planet.

在汉语中，似是而非、模棱两可的句子更是司空见惯。句子“咬死猎人的狗”既可以指“那只狗是咬死了猎人的狗”，也可以指“把那只猎人的狗咬死”；我们说“今天中午吃食堂”绝不意味着今天中午要把食堂吃下去，而是要在食堂吃午饭。而“今天中午吃馒头”和“今天中午吃大碗”与这句话有相同的表达形式，却有完全不同的含义；我们夸奖一个人说“这个人真牛”时，并不是说这个人是真正的牛，而是夸奖他真有能耐；说一个人嘴很硬，也不是指这个人的嘴长得坚硬，而是指他（她）守口如瓶，或坚决不承认、不改变自己说过的话；“火烧圆明园”与“火烧驴肉”也绝非同一种结构和含义。在《现代汉语词典》（1999，商务印书馆）里“打”字做实词使用时就有25种含义，在“打鼓、打架、打球、打酒、打电话、打毛衣”等用法中，“打”字的含义各有不同。除此之外，“打”字还可以用作介词（如：自打今天起）和量词（如：一打铅笔）。如何根据特定的上下文让计算机自动断定“打”字的确切含义恐怕不是一件容易的事情。

作为一个例子，请看如下这段幽默小片段：

他说：“她这个人真有意思（funny）。”她说：“他这个人怪有意思的（funny）。”于是人们以为他们有了意思（wish），并让他向她意思意思（express）。他火了：“我根本没有那个意思（thought）！”她也生气了：“你们这么说是什么意思（intention）？”事后有人说：“真有意思（funny）。”也有人说：“真没意思（nonsense）”。（原文见《生活报》1994.11.13.第六版）［吴尉天，1999］

在整个片段中，“意思”一词在不同的语境里共有6个不同的含义。如果实现这个词义的自动理解，恐怕不是目前的自然语言处理系统所能够胜任的。当然，这个片段可能是人为编造出来的，实际运用中一般不会出现如此复杂的用词方法。我们使用这个例子的意思也绝不是说一个自然语言处理系统必须具备如此复杂的歧义消解能力才算得上是真正实用的系统，而只是想说明，歧义是自然语言中普遍存在的语言现象，它们广泛地存在于词法、句法、语义、语用和语音等每一个层面。任何一个自然语言处理系统，都无法回避歧义的消解问题。

另一方面，对于一个特定系统来说，总是有可能遇到未知词汇、未知结构等各种意想不到的情况，而且每一种语言又都随着社会的发展而动态变化着，新的词汇（尤其是一些新的人名、地名、组织机构名和专用词汇）、新的词义、新的词汇用法（新词类），甚至新的句子结构都在不断出现，尤其在口语对话或计算机网络对话（通过MSN、QQ、GTalk、Skype等形式）、微博、博客等中，稀奇古怪的词语和话语结构更是司空见惯。因此，一个实用的自然语言处理系统必须具有较好的未知语言现象的处理能力，而且有足够的对各种可能输入形式的容错能力，即我们通常所说的系统的鲁棒性（robustness）问题。当然，对于机器翻译、信息检索、文本分类等特定的自然语言处理任务来说，还存在若干与任务相关的其他问题，诸如如何处理不同语言的差异、如何提取文本特征等。

总而言之，目前的自然语言处理研究面临着若干问题的困扰，既有数学模型不够奏效、有些算法的复杂度过高、鲁棒性太差等理论问题，也有数据资源匮乏、覆盖率低、知识表示困难等知识资源方面的问题，当然，还有实现技术和系统集成方法不够先进等方面的问题。正是这些问题和困难，才使得自然语言处理研究更加充满挑战性，更需要我们去创新和探索。

【本文地址】

公司简介

联系我们

统计自然语言处理（第2版） (中文信息处理丛书): 1.2 自然语言处理研究的内容和面临的困难(情感分类,信息增益)

统计自然语言处理（第2版） (中文信息处理丛书): 1.2　自然语言处理研究的内容和面临的困难(情感分类,信息增益)