一文带你了解知识图谱的前世今生 您所在的位置:网站首页 谷歌的概念是什么 一文带你了解知识图谱的前世今生

一文带你了解知识图谱的前世今生

2024-07-09 22:36| 来源: 网络整理| 查看: 265

诞生背景

随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。如果说以往的智能分析专注在每一个个体上,在移动互联网时代则除了个体,这种个体之间的关系也必然成为我们需要深入分析的很重要一部分。 在一项任务中,只要有关系分析的需求,知识图谱就“有可能”派的上用场。

在这里插入图片描述

什么是知识图谱

知识图谱由谷歌在2012年最早提出,目的是提升其搜索质量。在当前的人工智能大数据时代,知识图谱作为重要的知识表示方式之一,为机器语言认知提供了丰富的背景知识,使得机器对人类自然语言的理解更加精确。知识图谱本质上是语义网络(semantic network)的知识库,从应用的角度可以说知识图谱是一种多关系图谱(multi-relational graph)。

在这里插入图片描述

那什么叫多关系图呢? 学过数据结构的都应该知道什么是图(Graph)。图是由节点(Vertex)和边(Edge)来构成,但这些图通常只包含一种类型的节点和边。但相反,多关系图一般包含多种类型的节点和多种类型的边。比如左下图表示一个经典的图结构,右边的图则表示多关系图,因为图里包含了多种类型的节点和边。这些类型由不同的颜色来标记。

在这里插入图片描述

知识图谱的表示

在知识图谱里,我们通常用“实体(Entity)”来表达图里的节点、用“关系(Relation)”来表达图里的“边”。实体指的是现实世界中的事物比如人、地名、概念、药物、公司等,关系则用来三元组表达不同实体之间的某种联系,比如人-“居住在”-北京、张三和李四是“朋友”、逻辑回归是深度学习的“先导知识”等等。

现实世界中的很多场景非常适合用知识图谱来表达。 比如一个社交网络图谱里,我们既可以有“人”的实体,也可以包含“公司”实体。人和人之间的关系可以是“朋友”,也可以是“同事”关系。人和公司之间的关系可以是“现任职”或者“曾任职”的关系。 类似的,一个风控知识图谱可以包含“电话”、“公司”的实体,电话和电话之间的关系可以是“通话”关系,而且每个公司它也会有固定的电话。

在这里插入图片描述 在现实世界中,实体和关系也会拥有各自的属性,比如人可以有“姓名”和“年龄”。当一个知识图谱拥有属性时,我们可以用属性图(Property Graph)来表示。下面的图表示一个简单的属性图。李明和李飞是父子关系,并且李明拥有一个138开头的电话号,这个电话号开通时间是2018年,其中2018年就可以作为关系的属性。类似的,李明本人也带有一些属性值比如年龄为25岁、职位是总经理等。

在这里插入图片描述

知识抽取

知识图谱的构建是后续应用的基础,而且构建的前提是需要把数据从不同的数据源中抽取出来。对于垂直领域的知识图谱来说,它们的数据源主要来自两种渠道:一种是业务本身的数据,这部分数据通常包含在公司内的数据库表并以结构化的方式存储;另一种是网络上公开、抓取的数据,这些数据通常是以网页的形式存在所以是非结构化的数据。

信息抽取的难点在于处理非结构化数据。在下面的图中,我们给出了一个实例。左边是一段非结构化的英文文本,右边是从这些文本中抽取出来的实体和关系。在构建类似的图谱过程当中,主要涉及以下几个方面的自然语言处理技术:

a. 实体命名识别(Name Entity Recognition)b. 关系抽取(Relation Extraction)c. 实体统一(Entity Resolution)d. 指代消解(Coreference Resolution)

在这里插入图片描述

知识图谱的数据存储

可以用RDF来表示,也可以用以Neo4j为首的原生图数据库表示。它们之间的区别如下图所示。RDF一个重要的设计原则是数据的易发布以及共享,图数据库则把重点放在了高效的图查询和搜索上。其次,RDF以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本的表示形式,所以实体和关系可以包含属性,这就意味着更容易表达现实的业务场景。

在这里插入图片描述

其中RDF主要还是用于学术的场景,在工业界我们更多的还是采用图数据库(比如用来存储属性图)的方式。 在这里插入图片描述 部分图数据库排行榜: 在这里插入图片描述

知识图谱的构建流程

在这里插入图片描述

知识图谱的可视化

我们可以使用echarts的关系图来简单实现,地址是:https://www.makeapie.com/editor.html?c=xAbGndvqFE

在这里插入图片描述

知识图谱存在的意义

知识图谱从语义角度出发,通过描述客观世界中概念、实体及其关系,从而让计算机具备更好地组织、管理和理解互联网上海量信息的能力。

更具体的说,在人类与互联网世界交互的过程中,产生了繁杂庞大的信息,这些信息一般被图片声音文字视频这些数据载体保存。我们希望计算机可以分析阅读理解这些数据,精准挖掘找到数据背后隐藏的有价值的知识,在用户需要的时候提供知识服务。

在这里插入图片描述

现阶段知识图谱的应用

除了金融领域,知识图谱的应用可以涉及到很多其他的行业,包括医疗、教育、证券投资、推荐等等。其实,只要有关系存在,则有知识图谱可发挥价值的地方。 在这里简单举几个垂直行业中的应用。

信息检索/搜索:搜索引擎中对实体信息的精准聚合和匹配、对关键词的理解以及对搜索意图的语义分析等;自然语言理解:知识图谱中的知识作为理解自然语言中实体和关系的背景信息;问答系统:匹配问答模式和知识图谱中知识子图之间的映射;推荐系统:将知识图谱作为一种辅助信息集成到推荐系统中以提供更加精准的推荐选项,知识图谱+推荐系统;电子商务:构建商品的知识图谱用于精准匹配用户的购买意愿和商品候选集,知识图谱+推荐系统;金融风控:利用实体之间的关系分析金融活动的风险以提供在风险触发后的补救措施(如反欺诈等);公安刑侦:分析实体和实体之间的关系获取案件线索等;司法辅助:法律条文的结构化表示和查询用于辅助案件的判决等;教育医疗:提供可视化的知识表示,用于药物分析、疾病诊断等;社交类业务:社交类业务具备高度连接的特点,比如 好友关系 等,。辅助决策:构建决策主题研究相关知识库、政策分析模型库和情报研究方法库,建设并不断完善辅助决策系统,为决策主题提供全方位、多层次的决策支持和知识服务。


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有