# Wikidata知识图谱嵌入数据集:480万实体、828种关系、超2100万三元组的大规模知识图谱补全与链接预测训练数据
## 引言与背景
知识图谱作为人工智能领域重要的知识表示形式,在自然语言理解、智能问答、推荐系统和信息检索等方向发挥着不可替代的作用。然而,现实世界中的知识图谱往往存在严重的不完整性,大量实体之间的潜在关联未被显式记录。知识图谱补全(Knowledge Graph Completion)与链接预测(Link Prediction)任务正是为了解决这一问题而提出的核心研究课题,其目标是通过已知的三元组结构推断出缺失的实体关系,从而丰富和完善知识图谱的覆盖范围。
本数据集是基于Wikidata构建的大规模知识图谱嵌入(Knowledge Graph Embedding)训练数据,完整覆盖了实体映射、关系映射、训练三元组、验证三元组和测试三元组等核心组成部分。数据集包含实体ID到Wikidata QID的完整映射表(entity_ids.del)、关系ID到Wikidata PID的映射表(relation_ids.del)、大规模训练三元组集合(train.del)、验证集(valid.del)以及测试集(test.del),同时还提供了实体和关系的频率统计信息(parameter.frequencies.tsv)。数据集的全部内容来源于Wikidata这一全球最大、覆盖领域最广的开放知识图谱,涵盖了人物、地理、生物、体育、文化、科技、历史等几乎所有知识领域。
该数据集对于知识图谱嵌入算法的研究与评估具有极高的价值。研究者可以利用其中的训练三元组学习实体和关系的低维向量表示,通过验证集和测试集对模型性能进行标准化评估,从而推动TransE、RotatE、ComplEx、ConvE等经典模型以及各类新型知识图谱嵌入方法的发展。全量数据超过2134万个三元组,规模之大足以支撑深度学习模型的有效训练,而多样化的关系类型(828种)则对模型的泛化能力提出了更高的要求,是检验和对比各类知识图谱嵌入算法性能的理想基准数据集。
## 数据基本信息
### 数据规模与构成
本数据集包含实体总数4818679个,关系类型总数828种,训练集三元组数量为21343681条,验证集三元组数量为5357条,测试集三元组数量为5321条。所有实体均映射为Wikidata的QID编号,所有关系均映射为Wikidata的PID编号,确保数据标准化和可追溯性。数据文件采用.del格式存储,以制表符分隔各字段,便于程序读取和处理。整个数据集压缩包大小约为190MB,解压后数据总量超过600MB,属于中等规模的知识图谱嵌入数据集,兼顾了数据规模和计算资源的可用性。
### 数据字段说明
下表详细列出了各数据文件的字段结构及其含义:
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| entity_id | 整数(Integer) | 实体在数据集中的唯一数字编号 | 0 | 100%(4818679条) |
| wikidata_qid | 字符串(String) | 实体对应的Wikidata QID标识符 | Q29387131 | 100%(4818679条) |
| relation_id | 整数(Integer) | 关系在数据集中的唯一数字编号 | 0 | 100%(828条) |
| wikidata_pid | 字符串(String) | 关系对应的Wikidata PID标识符 | P31 | 100%(828条) |
| head_id | 整数(Integer) | 三元组中头实体的数字编号 | 1508248 | 100%(训练集21343681条) |
| relation_id_triple | 整数(Integer) | 三元组中关系的数字编号 | 0 | 100%(训练集21343681条) |
| tail_id | 整数(Integer) | 三元组中尾实体的数字编号 | 69 | 100%(训练集21343681条) |
| type | 字符串(String) | 频率统计类型(e=实体, r=关系) | e | 100%(4819507条) |
| stat_id | 整数(Integer) | 被统计实体或关系的数字编号 | 1 | 100%(4819507条) |
| frequency | 整数(Integer) | 出现频率计数 | 1529972 | 100%(4819507条) |
### 关系类型分布
训练集中共包含828种关系类型,下表列出了出现频率最高的前20种关系,合计占比超过65%,反映了数据集在多个人们关心的核心维度上拥有丰富的知识覆盖:
| 关系ID | Wikidata PID | 关系含义 | 三元组数量 | 占比(%) | 累计占比(%) |
|-------|-------------|---------|-----------|----------|-------------|
| 0 | P31 | instance of(实例) | 4179564 | 19.58 | 19.58 |
| 16 | P17 | country(所属国家) | 1394090 | 6.53 | 26.11 |
| 11 | P106 | occupation(职业) | 1175253 | 5.51 | 31.62 |
| 3 | P27 | country of citizenship(国籍) | 1153785 | 5.41 | 37.03 |
| 5 | P131 | located in administrative entity(位于行政实体) | 925411 | 4.34 | 41.37 |
| 4 | P54 | member of sports team(体育俱乐部成员) | 922194 | 4.32 | 45.69 |
| 12 | P735 | given name(名字) | 876264 | 4.11 | 49.80 |
| 6 | P19 | place of birth(出生地) | 860075 | 4.03 | 53.83 |
| 8 | P161 | cast member(参演者) | 516978 | 2.42 | 56.25 |
| 17 | P641 | sport(运动项目) | 489498 | 2.29 | 58.54 |
| 14 | P69 | educated at(毕业院校) | 440848 | 2.07 | 60.61 |
| 24 | P47 | shares border with(接壤) | 430089 | 2.02 | 62.63 |
| 20 | P421 | located in time zone(所处时区) | 405638 | 1.90 | 64.53 |
| 38 | P136 | genre(类型/流派) | 378139 | 1.77 | 66.30 |
| 15 | P105 | taxon rank(生物分类等级) | 377293 | 1.77 | 68.07 |
### 实体类型分布
通过对P31(instance of)关系的尾实体进行分析,可以揭示数据集中实体的主要类型分布。以下是出现频率最高的实体类型:
| 实体ID | Wikidata QID | 实体含义 | 出现次数 | 占比(%) |
|-------|-------------|---------|---------|----------|
| 1 | Q5 | human(人类) | 1518499 | 36.33 |
| 69 | Q16521 | taxon(生物分类单元) | 363781 | 8.70 |
| 88 | Q4167410 | Wikimedia disambiguation page(消歧义页) | 118963 | 2.85 |
| 223 | Q11424 | film(电影作品) | 114615 | 2.74 |
| 440 | Q16521 | Wikimedia template(模板页) | 110947 | 2.65 |
| 134 | Q173021 | television series(电视剧集) | 108308 | 2.59 |
| 61 | Q16521 | Wikimedia category(分类页) | 98707 | 2.36 |
| 1172 | Q4830453 | business(企业) | 62819 | 1.50 |
| 1160 | Q7725634 | literary work(文学作品) | 55415 | 1.33 |
| 59 | Q4167410 | anatomical structure(解剖结构) | 48286 | 1.16 |
### 主要实体频率分布
以下是在整个数据集中出现频率最高的实体(作为头实体或尾实体出现的总次数):
| 实体ID | Wikidata QID | 实体含义 | 频率 |
|-------|-------------|---------|------|
| 1 | Q5 | human(人类) | 1529972 |
| 116 | Q30 | United States(美国) | 817667 |
| 69 | Q16521 | taxon(生物分类单元) | 363971 |
| 146 | Q7432 | species(物种) | 286494 |
| 306 | Q145 | United Kingdom(英国) | 265427 |
| 98 | Q1860 | Portuguese language(葡萄牙语) | 230247 |
| 128 | Q2736 | Saint Petersburg(圣彼得堡) | 222630 |
| 118 | Q82955 | German football club(德国足球俱乐部) | 164455 |
| 249 | Q937857 | administrative division of Portugal(葡萄牙行政区划) | 150159 |
| 879 | Q6655 | female(女性) | 144303 |
### 数据集划分分布
数据集按标准的知识图谱嵌入实验范式划分为训练集、验证集和测试集三部分:
| 数据集 | 三元组数量 | 占比(%) |
|-------|-----------|----------|
| 训练集(train.del) | 21343681 | 99.95 |
| 验证集(valid.del) | 5357 | 0.03 |
| 测试集(test.del) | 5321 | 0.02 |
| 合计 | 21354359 | 100.00 |
验证集和测试集数量相当,确保评估结果的可比性和公正性,同时训练集占据了绝对多数,为模型学习提供了充足的数据基础。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 481万实体、828种关系、2134万训练三元组 | 支撑深度学习模型训练,避免过拟合,提升嵌入表示的泛化能力 |
| 标准化三元组格式 | 采用统一的三元组(头实体、关系、尾实体)格式存储 | 可直接用于TransE、RotatE、ComplEx、ConvE等主流知识图谱嵌入模型的训练与评估 |
| 完整的训练-验证-测试划分 | 严格划分训练集(99.95%)、验证集(0.03%)和测试集(0.02%) | 提供标准化评估基准,便于不同算法之间的公平对比 |
| 实体与关系的完整映射 | 提供实体到QID、关系到PID的完整映射文件 | 便于与Wikidata原始数据关联,支持结果的可解释性分析 |
| 频率统计信息 | 提供parameter.frequencies.tsv文件,包含所有实体和关系的出现频率 | 支持负采样策略优化、基于频率的权重设计和模型训练加速 |
| 覆盖领域广泛 | 涵盖人物、地理、生物、体育、文化、科技、历史等几乎所有知识领域 | 适用于通用知识图谱研究,支持跨领域知识推理与迁移学习 |
| 数据来源权威 | 全部数据来源于Wikidata全球开放知识图谱 | 数据质量有保障,研究成果可直接应用于实际知识图谱场景 |
## 数据样例
由于原始训练集文件较大(316MB),包含超过2100万条三元组,无法在本文中完整列出。以下通过均匀采样的方式从训练集中选取15条代表性三元组,展示数据的格式和内容多样性。每条样例均包含实体数字ID、对应Wikidata QID/PID以及三元组结构信息,读者可以据此了解数据的组织方式。
样例类型:三元组数据样例(展示实体ID、关系ID及其对应的Wikidata标识符)| 序号 | 头实体ID | 头实体QID | 关系PID | 尾实体ID | 尾实体QID | 关系含义简述 |
|-----|---------|-----------|---------|---------|-----------|------------|
| 1 | 1508248 | Q13532169 | P31(instance of) | 69 | Q16521 | 实体Q13532169是生物分类单元Q16521的一个实例 |
| 2 | 1690883 | Q947917 | P155(followed by) | 1602106 | Q5094377 | 实体Q947917的后继是Q5094377 |
| 3 | 3834098 | Q3275088 | P17(country) | 116 | Q30 | 实体Q3275088的所属国家是美国(Q30) |
| 4 | 1547276 | Q147338 | P641(sport) | 2165 | Q5849 | 实体Q147338参与的运动项目是Q5849 |
| 5 | 1267843 | Q24088358 | P161(cast member) | 836261 | Q317740 | 演员Q317740参演了作品Q24088358 |
| 6 | 3687693 | Q660691 | P734(family name) | 377343 | Q16865715 | 实体Q660691的姓氏为Q16865715 |
| 7 | 2860616 | Q7172761 | P3373(sibling) | 710088 | Q693204 | 实体Q7172761的兄弟姐妹是Q693204 |
| 8 | 3468749 | Q6385194 | P735(given name) | 924 | Q1159033 | 实体Q6385194的名字为Q1159033 |
| 9 | 2418456 | Q5343527 | P735(given name) | 839 | Q278835 | 实体Q5343527的名字为Q278835 |
| 10 | 1711714 | Q3189176 | P106(occupation) | 54653 | Q805221 | 实体Q3189176的职业是Q805221 |
| 11 | 1206241 | Q452004 | P735(given name) | 58168 | Q2087646 | 实体Q452004的名字为Q2087646 |
| 12 | 1672983 | Q18046123 | P31(instance of) | 2255 | Q7187 | 实体Q18046123是基因Q7187的一个实例 |
| 13 | 1875750 | Q23615101 | P1344(participant in) | 14575 | Q8128 | 实体Q23615101参与了Q8128(某事件) |
| 14 | 399974 | Q22003562 | P20(place of death) | 3209 | Q28848 | 实体Q22003562的死亡地是Q28848 |
| 15 | 91789 | Q1633380 | P106(occupation) | 944 | Q36834 | 实体Q1633380的职业是Q36834 |
从以上样例可以看出,本数据集涵盖了人物属性(职业、姓名、国籍、出生地等)、地理信息(所属国家)、生物信息(分类单元、物种、基因)、体育运动、文化作品(参演关系)等多个领域的知识,数据多样性突出。实际数据集中包含完整的4818679个实体映射和21343681条训练三元组,远不止样例所能展示的范畴。
此外,验证集和测试集的样例如下:
验证集样例: - 223125(Q3576734) --[P495(country of origin, 原产国)]--> 116(Q30, 美国) - 1874671(Q641724) --[P1412(languages spoken, 使用语言)]--> 98(Q1860, 葡萄牙语) - 3978539(Q4263990) --[P105(taxon rank, 分类等级)]--> 146(Q7432, 物种)测试集样例: - 3142376(Q7965079) --[P27(country of citizenship, 国籍)]--> 246(Q16, 加拿大) - 575167(Q6719921) --[P31(instance of)]--> 4106(Q11446, 体育赛事) - 2849660(Q11010724) --[P734(family name, 姓氏)]--> 550(Q59853, 特定姓氏)## 应用场景
### 知识图谱补全与链接预测研究
本数据集最直接的应用场景在于知识图谱补全和链接预测任务的研究与评估。研究者可以利用训练集中的2134万条三元组训练各类知识图谱嵌入模型,包括基于平移距离的模型(TransE、TransH、TransR)、基于张量分解的模型(ComplEx、TuckER)、基于深度学习的模型(ConvE、ConvKB)以及基于图神经网络的模型(R-GCN、CompGCN)等。模型训练完成后,通过验证集和测试集对预测性能进行标准化评估,计算MRR(平均倒数排名)、Hits@K(前K命中率)等核心指标。该数据集包含828种不同类型的关系,覆盖了从简单的属性关系到复杂的语义关系,对模型的表达能力提出了全面考验。研究者可以通过对比不同模型在该数据集上的表现,深入分析各类模型的优缺点和适用场景,推动知识图谱嵌入理论的发展。
### 大规模知识表示学习
知识表示学习是自然语言处理和人工智能的基础性研究方向,其核心目标是将符号化的知识转化为低维稠密向量,便于计算机进行处理和推理。本数据集包含超过480万个实体和2100万个三元组,规模足以支撑大规模知识表示学习的研究工作。研究者可以在该数据集上训练大规模知识图谱嵌入,获得实体和关系的向量表示,并将这些预训练表示迁移到其他自然语言处理任务中,如关系抽取、实体链接、智能问答等。与传统的仅为特定领域设计的小规模知识图谱不同,本数据集的实体覆盖了Wikidata中的广泛概念,因此学习到的嵌入表示具有更强的通用性和迁移能力。此外,数据集中提供的parameter.frequencies.tsv频率统计信息还可以用于设计基于频率的负采样策略,提升模型训练效率和质量。
### 跨领域知识推理
由于本数据集包含的人物、地理、生物、体育、文化、科技、历史等多领域知识,特别适合用于跨领域知识推理的研究。传统知识图谱推理通常局限于单一领域内的关系预测,而跨领域推理要求模型能够理解不同领域知识之间的隐含联系。例如,模型需要能够推断出一个人的职业(P106)与其出生地(P19)之间的关联模式,或者一个物种的分类等级(P105)与其地理分布(P17)之间的关系。利用本数据集训练的知识图谱嵌入模型,可以在不同领域之间建立语义桥梁,实现跨领域的知识发现和推理,这对于构建通用人工智能系统具有重要的理论和实践意义。
### 推荐系统与信息检索增强
知识图谱嵌入技术在推荐系统和信息检索领域有广泛的应用前景。本数据集提供的实体和关系向量表示可以作为推荐系统中的辅助特征,用于改善用户画像和物品表征的质量。例如,利用数据集中的人物实体(Q5)及其职业关系(P106)、国籍关系(P27)等,可以构建细粒度的用户兴趣模型;利用作品中演员的参演关系(P161)和作品类型(P136)等信息,可以增强电影和音乐推荐系统的准确性和多样性。在信息检索方面,知识图谱嵌入可以用于查询扩展和语义匹配,帮助搜索引擎理解用户查询背后的实体和关系语义,从而返回更加精准的搜索结果。2134万条三元组所提供的丰富语义关联,为构建高质量的推荐和检索增强系统提供了坚实的数据基础。
### 可解释人工智能研究
随着人工智能系统在关键领域(如医疗诊断、金融风控、法律辅助等)的广泛应用,模型的可解释性成为亟待解决的重要问题。知识图谱天然具有可解释性的优势,因为其推理路径以显式的三元组形式呈现,每一步推理都可以追溯到具体的实体和关系。本数据集包含828种定义清晰的语义关系和481万个具有明确Wikidata标识的实体,为构建可解释的知识推理系统提供了理想的数据基础。研究者可以利用本数据集训练具有可解释性的知识图谱推理模型,如基于路径的推理方法和基于规则的知识图谱补全模型,通过对推理路径的可视化分析,揭示模型的决策依据,增强人工智能系统的透明度和可信度。
## 结尾
本数据集是一个基于Wikidata构建的大规模知识图谱嵌入标准化训练数据,涵盖481万个实体、828种关系和超过2134万条训练三元组,并附带了完整的验证集和测试集划分。数据集采用标准的三元组格式存储,提供实体与关系的完整QID/PID映射,并包含频率统计信息,可直接用于各类知识图谱嵌入算法的训练与评估。其数据来源权威可靠,覆盖领域广泛多样,关系类型丰富,是进行知识图谱补全、链接预测、知识表示学习以及跨领域知识推理研究的理想数据资源。数据集的规模适中,既能够满足深度学习模型对训练数据量的需求,又不会对计算资源造成过高的负担,非常适合作为知识图谱嵌入研究的基准数据集使用。
数据集包含完整的三元组原始文件(train.del、valid.del、test.del),以及完整的实体映射文件(entity_ids.del)和关系映射文件(relation_ids.del),用户可以直接获取全量数据进行模型训练和评估,无需额外进行数据预处理或格式转换。这一完整性极大地降低了研究者的数据准备成本,使得研究者可以专注于算法创新和模型优化本身。
有需要可私信获取更多信息或数据集文件。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






