知识图谱与自然语言处理 您所在的位置:网站首页 自然语言处理的过程包括哪些阶段 知识图谱与自然语言处理

知识图谱与自然语言处理

2023-07-20 08:57| 来源: 网络整理| 查看: 265

       最近,在学习AI领域中,非常前沿的一项技术——知识图谱。知识图谱和自然语言处理有着紧密的联系,都属于比较顶级的AI技术。在AI金字塔中处于认知层面。目前,人工智能在学习数据的内在表示,或者根据算法训练得到的模型来进行结果的预测和判别方面表现出了强大的能力,尤其是在感知层面上,比如目前的计算机视觉领域,对于很多人肉眼无法判别的事物,而模型却能作出高精度的识别,并且也有了非常多的工业级的落地产品投入使用。然而在认知层面,目前AI的发展还并未成熟,需要很长的一段路要走,比如NLP和知识图谱。这些领域需要复杂的背景知识和前后上下文的认知和推理以及理解,比如,有一堆数据,我想让模型自己学习和推理出正确的知识,以及知识和知识之间的联系,来学会举一反三。是不是瞬间觉得这才是AI要研究的“智能”。

       知识图谱,这个概念是谷歌在2012年提出的,当时主要是为了将传统的Keyword-Base搜索模型向基于语义的搜索升级。知识图谱可以用来更高的查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。相比于传统的机器学习算法,我们都明白,利用这些算法训练得到的模型虽然在预测能力上很不错,但是在数据的描述能力上非常弱,知识图谱刚好弥补了这部分的薄弱点。

知识图谱经历了如下几个阶段的演变:

从发展的过程来看,知识图谱是在NLP的基础上发展而来的。关于知识图谱的概念,并没有严格的定义。但一般来讲,知识图谱主要目标是用来描述真实世界中存在的各种实体和概念,以及他们之间的关系,通过这种关系来描述实体之间的关联,比如Yoshua Bengio和蒙特利尔大学的关系,和Hinton之间的关系,和NLP之间的关系等等。知识图谱还可以通过人为构建和定义,去描述各种概念之间的弱的关系,比如”上学“和”放学“。具体一点,知识图谱,简单理解就是一个知识库,我们利用这个知识库,给定你要查询的内容,然后到知识库中去进行关联分析和推理,试图让机器理解你的意图,反馈和你查询相关内容的更多关联信息。举个例子,用NLP中的所有研究领域构建知识图谱。然后询问“NLP中的机器翻译的研究学习路线”。知识图谱会查询"NLP"、“机器翻译”和“研究学习”在所有的学习图谱中的直接关系和间接关系,然后给你推荐几个最佳的学习路线。目前,知识图谱在自然语言处理领域有两大类的应用:1)搜索和问答领域。2)自然语言理解类的场景,比如在具体的机器翻译领域,句法分析相关的工作。目前在业界,典型的应用场景如下:

既然知识图谱的核心元素是知识库。那么什么是知识库呢?简单来讲,知识库包含了所有规则的集合,通过这些规则将事实和数据相联系起来,是一种基于知识的系统,具有智能性。目前常见的知识库有很多,如下图所示:

上图所示的内容均为目前比较流行的知识库。比如NLP中常用的WordNet。更通俗的理解,知识库就是大量知识的汇聚。比如我们可以从维基百科,百度百科,搜狗百科等网站获取大量的知识,但是这些知识是由非结构化的自然语言组合而来的,虽然这样有助于人们阅读,但是并不适合计算机处理。所以为了让计算机方便处理和理解,我们需要更加形式化、简洁化的方式来表示知识,因此,引入了三元组。三元组的模型简单的可以表示为(实体,实体关系,实体)。如果把实体看作是结点,把实体关系(包括属性、特征、类别等等)看作是一条边,那么包含了大量三元组的知识库就成为了一个庞大的知识图。实体有时也称为topic,实体关系也可以分为两种,一种是属性(或者称为特征),一种是关系。如下图所示:

                                                                              图1:Justin Bieber知识图

其中蓝色方块表示topic,橙色椭圆包括属性值,他们都属于知识库的实体;蓝色直线表示关系,橙色直线表示属性,他们都统称为知识库的实体关系,都可以用三元组刻画实体和实体之间的关系。

       属性和关系最大的区别在于,属性所在的三元组对应的两个实体,常常是一个topic和一个字符串,如上图所示的Type/Gender,对应的三元组(Justin Bieber, Type, Person),而关系所在的三元组所对应的两个实体,常常是两个topic。如关系Place_of_brith,对应的三元组(Justin Bieber, Place_of_Brith, London)。

       通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。知识图谱在NLP中得到了大量的应用,如下图所示:

                                                                            图2:知识图谱在NLP中的应用

从上图可以看出,在NLP领域,知识图谱的应用主要集中在搜索和推荐领域,问答系统(其本质也是搜索和推荐的延伸)。在语义搜索这一块,知识图谱的搜索不同于常规的搜索,常规的搜索是根据keyword找到对应的网页集合,然后通过Page Rank等算法去给网页集合内的网页进行排名,然后展示给用户;基于知识图谱的搜索是在已有的图谱知识库中遍历知识,然后将查询到的知识返回给用户,通常如果路径正确,查询出来的知识只有1个或几个,并且相当精准。在问答系统中,系统同样会首先在知识图谱的帮助下对用户使用自然语言提出的问题进行语义分析和句法分析,进而将其转化成结构化形式的查询语句,然后在知识图谱中查询答案。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有