FB15K 您所在的位置:网站首页 知识图谱例子及解析 FB15K

FB15K

2023-08-06 01:33| 来源: 网络整理| 查看: 265

FB15k-237是知识图谱Freebase的子集,15k表示其中知识库中有15k个主题词,237表示共有237种关系。

一、FB15K-237的知识库

整个Freebase知识图谱共有19亿个三元组,如下图。

而FB15k-237的知识库是从Freebase中取出一小部分主题词组成的子图,它的统计数据如下:

主题词总数14505三元组总数544230关系的种类数474每个主题词的平均三元组数37.5每个主题词的平均关系数10.3每个关系连接的平均实体数3.57

 注:

[1] FB15k存在着正反关系,他们意义相同,指向相反。上表的统计数据中,将一对正反关系视为不同的关系,因此统计数为237*2=474。

FB15k-237又被拆分成train、valid、test三个子集用于训练与验证,统计数据如下

统计属性\集合trainvalidtest主题词总数1378176528171三元组总数2721151753520466关系的种类数237223224每个主题词的平均三元组数19.752.292.50每个主题词的平均关系数6.781.581.68每个关系连接的平均实体数2.911.451.49

注:

[1] train、valid、test集中,不存在反向关系,因此关系数最多为237。 

二、FB15K-237的问题集

知识图谱(graph)有544230个三元组、train有272115个三元组、test中有20466个三元组、dev中有17535个三元组。它们都是从freebase的所有三元组的子集,其中:

train的三元组全部包含在graph内;

test和dev的三元组都不在graph或train内;

链路预测/知识图谱补全分为两种补全类型,不妨设已知(h,r)预测t,一种是在原KG中(train)h存在r这条边,但是ground-truth的t不在(h,r)后(缺失答案实体);另一种是原KG中的h不存在r这条边(缺失边)。当然还有一种,h不存在KG中(缺失问题实体),理论上就无法预测了,不讨论。详细情况如下表:

任务数据集容量

缺失问

题实体

缺失边

缺失答

案实体

预测尾实体test2046675480615585valid1753544415013341预测头实体test2046687191318466valid1753560153115944

可见,作为一个链路预测的数据集,test和dev相对于train,多了未知的实体间的连接关系,而实体集是不变的。

三、FB15K-237中的一对多的三元组

FB15K中的三元组有很多不是“一对一”的,很多是“多对一”和“一对多”的。

下表是一对多关系与多对一关系的平均连接的实体数目

集合\关系一对多多对一train6.418.67valid3.535.94test3.585.96

一对多:某个地方包含某些地方

多对一:某些人的性别为男

具体例子如下:

一对多:

(2008 Summer Olympics, participating_countries, Djibouti) (2008 Summer Olympics, participating_countries, Mauritania)

 多对一:

(The Last King of Scotland, /film/genre, War film) (Legends of the Fall, /film/genre, War film) (Henry V, /film/genre, War film)



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有