FB15K | 您所在的位置:网站首页 › 知识图谱例子及解析 › FB15K |
FB15k-237是知识图谱Freebase的子集,15k表示其中知识库中有15k个主题词,237表示共有237种关系。 一、FB15K-237的知识库整个Freebase知识图谱共有19亿个三元组,如下图。 而FB15k-237的知识库是从Freebase中取出一小部分主题词组成的子图,它的统计数据如下: 主题词总数14505三元组总数544230关系的种类数474每个主题词的平均三元组数37.5每个主题词的平均关系数10.3每个关系连接的平均实体数3.57注: [1] FB15k存在着正反关系,他们意义相同,指向相反。上表的统计数据中,将一对正反关系视为不同的关系,因此统计数为237*2=474。 FB15k-237又被拆分成train、valid、test三个子集用于训练与验证,统计数据如下 统计属性\集合trainvalidtest主题词总数1378176528171三元组总数2721151753520466关系的种类数237223224每个主题词的平均三元组数19.752.292.50每个主题词的平均关系数6.781.581.68每个关系连接的平均实体数2.911.451.49注: [1] train、valid、test集中,不存在反向关系,因此关系数最多为237。 二、FB15K-237的问题集知识图谱(graph)有544230个三元组、train有272115个三元组、test中有20466个三元组、dev中有17535个三元组。它们都是从freebase的所有三元组的子集,其中: train的三元组全部包含在graph内; test和dev的三元组都不在graph或train内; 链路预测/知识图谱补全分为两种补全类型,不妨设已知(h,r)预测t,一种是在原KG中(train)h存在r这条边,但是ground-truth的t不在(h,r)后(缺失答案实体);另一种是原KG中的h不存在r这条边(缺失边)。当然还有一种,h不存在KG中(缺失问题实体),理论上就无法预测了,不讨论。详细情况如下表: 任务数据集容量缺失问 题实体 缺失边缺失答 案实体 预测尾实体test2046675480615585valid1753544415013341预测头实体test2046687191318466valid1753560153115944可见,作为一个链路预测的数据集,test和dev相对于train,多了未知的实体间的连接关系,而实体集是不变的。 三、FB15K-237中的一对多的三元组FB15K中的三元组有很多不是“一对一”的,很多是“多对一”和“一对多”的。 下表是一对多关系与多对一关系的平均连接的实体数目 集合\关系一对多多对一train6.418.67valid3.535.94test3.585.96一对多:某个地方包含某些地方 多对一:某些人的性别为男 具体例子如下: 一对多: (2008 Summer Olympics, participating_countries, Djibouti) (2008 Summer Olympics, participating_countries, Mauritania)多对一: (The Last King of Scotland, /film/genre, War film) (Legends of the Fall, /film/genre, War film) (Henry V, /film/genre, War film) |
CopyRight 2018-2019 实验室设备网 版权所有 |