panpan

verify-tag维基百科人物传记数据集:66万+多语种名人信息库助力NLP研究与知识图谱构建

人物传记数据Wiki-Dataset维基百科人物传记数据集

19.9

251.3MB

数据标识:D17809843481254977

发布时间:2026/06/09

## 引言与背景

维基百科人物传记数据集是一个规模庞大、内容丰富的多语种名人信息集合,包含超过66万条人物传记记录。该数据集源自维基百科的结构化摘要信息,涵盖了古今中外各个领域的知名人物,是自然语言处理、知识图谱构建、推荐系统等研究领域的宝贵资源。

数据集包含三个主要文件:训练集(wiki-train.json)、验证集(wiki-dev.json)和测试集(wiki-test.json),采用JSON格式存储,每条记录包含人物名称、简介摘要和职业分类标签。这种结构化的数据形式为科研人员提供了便捷的数据接口,便于快速开展各种文本挖掘和机器学习任务。

该数据集对于推动NLP技术发展具有重要价值。通过分析海量人物传记文本,可以深入研究命名实体识别、关系抽取、文本分类等核心任务,同时为知识图谱的构建提供丰富的实体和关系数据。此外,数据集涵盖的多语种特性使其成为跨语言NLP研究的理想测试平台。

## 数据基本信息

### 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|-------|
| title | 字符串 | 人物名称(英文原名) | "George_Washington" | 100% |
| summary | 字符串 | 人物简介摘要 | "George Washington was one of the Founding Fathers..." | 100% |
| occupations | 数组 | 职业分类标签(YAGO知识库标签) | ["yago:Politician", "yago:Writer"] | 约95% |

### 数据规模分布

| 数据集划分 | 记录数量 | 占比 |
|-----------|---------|-----|
| 训练集 (wiki-train.json) | 266,938 | 40.0% |
| 测试集 (wiki-test.json) | 201,406 | 30.1% |
| 验证集 (wiki-dev.json) | 200,000 | 29.9% |
| 总计 | 668,344 | 100% |

### 职业分类分布(Top 10)

| 职业标签 | 记录数量 | 占比 |
|---------|---------|-----|
| yago:Politician | 约85,000 | 12.7% |
| yago:Writer | 约62,000 | 9.3% |
| yago:Football_player | 约38,000 | 5.7% |
| yago:Singer | 约28,000 | 4.2% |
| yago:Actor | 约25,000 | 3.7% |
| yago:Film_actor | 约22,000 | 3.3% |
| yago:Composer | 约18,000 | 2.7% |
| yago:Poet | 约15,000 | 2.2% |
| yago:University_teacher | 约12,000 | 1.8% |
| yago:Musician | 约10,000 | 1.5% |

### 数据特征概览

- 数据格式: JSON格式,每行一条记录
- 文本语言: 主要为英文,包含少量其他语言
- 人物覆盖范围: 涵盖政治、艺术、体育、学术、商业等多个领域
- 时间跨度: 从古代历史人物到当代知名人士
- 标注类型: YAGO知识库职业分类标签

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 规模庞大 | 总计超过66万条人物传记记录 | 满足大规模机器学习训练需求,提高模型泛化能力 |
| 结构清晰 | 统一的JSON格式,包含名称、摘要、职业三个核心字段 | 便于数据预处理和特征提取,降低使用门槛 |
| 标注质量高 | 采用YAGO知识库标准化职业标签 | 支持监督学习任务,提高分类和实体链接精度 |
| 领域覆盖广 | 涵盖政治、艺术、体育、学术等多个领域 | 支持跨领域研究,适用于多样化应用场景 |
| 文本质量优 | 源自维基百科权威内容,信息准确可靠 | 作为基准数据集具有较高可信度和可比性 |
| 多语种支持 | 包含多种语言的人物简介 | 支持跨语言NLP研究和多语言知识图谱构建 |
| 划分合理 | 训练/验证/测试集比例约为4:3:3 | 符合机器学习标准评估流程,便于模型验证 |

## 数据样例

以下为数据集中的人物传记样例,涵盖不同领域和职业类型:

json
{"title": "George_Washington", "summary": "George Washington was one of the Founding Fathers of the United States of America and served as the nation's first president (1789–1797).", "occupations": ["yago:Politician"]}

{"title": "Meryl_Streep", "summary": "Mary Louise 'Meryl' Streep is an American actress. Often described as the 'best actress of her generation', Streep is particularly known for her versatility and accent adaptation.", "occupations": ["yago:Actor", "yago:Film_actor"]}

{"title": "Marie_Curie", "summary": "Marie Skłodowska Curie was a Polish and naturalized-French physicist and chemist who conducted pioneering research on radioactivity.", "occupations": ["yago:University_teacher"]}

{"title": "David_Bowie", "summary": "David Robert Jones, known professionally as David Bowie, was an English singer, songwriter and actor. He was a leading figure in the music industry and is often considered to be one of the most influential musicians of the 20th century.", "occupations": ["yago:Actor", "yago:Singer", "yago:Composer", "yago:Film_actor"]}

{"title": "Plato", "summary": "Plato was a philosopher in Classical Greece and the founder of the Academy in Athens, the first institution of higher learning in the Western world.", "occupations": ["yago:Poet"]}

{"title": "Zinedine_Zidane", "summary": "Zinedine Yazid Zidane is a French former professional footballer and current manager. Widely regarded as one of the greatest players of all time, Zidane was named the FIFA World Player of the Year three times.", "occupations": ["yago:Football_player"]}

{"title": "Albert_Einstein", "summary": "Albert Einstein was a German-born theoretical physicist who developed the theory of relativity, one of the two pillars of modern physics.", "occupations": ["yago:University_teacher"]}

{"title": "Shakespeare", "summary": "William Shakespeare was an English poet, playwright, and actor, widely regarded as the greatest writer in the English language and the world's pre-eminent dramatist.", "occupations": ["yago:Writer", "yago:Poet"]}

{"title": "Oprah_Winfrey", "summary": "Oprah Gail Winfrey is an American media executive, actress, talk show host, television producer, and philanthropist. She is best known for her talk show The Oprah Winfrey Show, which was the highest-rated television program of its kind in history.", "occupations": ["yago:Actor", "yago:Singer", "yago:Film_actor"]}

{"title": "Stephen_Hawking", "summary": "Stephen William Hawking was an English theoretical physicist, cosmologist, and author who was director of research at the Centre for Theoretical Cosmology at the University of Cambridge.", "occupations": ["yago:University_teacher"]}

## 应用场景

### 1. 命名实体识别与链接

该数据集是训练命名实体识别(NER)和实体链接模型的理想资源。通过对大量人物名称和上下文的学习,模型可以自动从文本中识别出人物实体,并将其链接到知识库中的对应条目。这在信息检索、问答系统和知识图谱构建中具有重要应用价值。研究人员可以利用数据集中丰富的人物名称和描述信息,训练高精度的NER模型,实现对文本中人物实体的自动识别和分类。

### 2. 文本分类与情感分析

数据集中的职业标签为文本分类任务提供了天然的标注数据。研究人员可以基于这些标签训练人物职业分类模型,实现对人物简介文本的自动分类。此外,通过分析人物简介的语言特征,还可以开展情感分析研究,探索不同职业领域人物描述的语言模式差异。这种分析对于理解媒体报道倾向、构建个性化推荐系统具有重要意义。

### 3. 知识图谱构建

数据集为知识图谱的构建提供了丰富的实体和关系数据。每条记录中的人物名称、简介和职业标签可以直接映射为知识图谱中的节点和边。研究人员可以利用这些数据构建大规模的人物知识图谱,实现人物关系的可视化展示和智能推理。知识图谱在搜索引擎优化、智能问答、个性化推荐等领域具有广泛应用前景。

### 4. 问答系统与信息检索

基于该数据集,可以构建高性能的问答系统和信息检索系统。通过对人物传记文本的深入分析,可以实现对人物相关问题的精准回答。例如,用户询问"谁是美国第一任总统?"时,系统可以快速定位到George Washington的相关信息并给出准确回答。此外,该数据集还可以用于改进搜索引擎的相关性排序算法,提高人物相关搜索结果的准确性。

### 5. 跨语言NLP研究

虽然数据集主要包含英文内容,但其中也包含少量其他语言的人物简介。研究人员可以利用这些数据开展跨语言NLP研究,探索不同语言之间的语义映射关系。例如,可以训练跨语言实体链接模型,实现不同语言文本中人物实体的统一识别和链接。这对于构建多语言知识图谱和跨语言信息检索系统具有重要意义。

## 结尾

维基百科人物传记数据集是一个规模宏大、质量优良的多语种名人信息资源库,总计包含超过66万条人物传记记录。其结构化的数据格式、高质量的标注信息和广泛的领域覆盖,使其成为自然语言处理、知识图谱构建等研究领域的重要基础资源。

该数据集的核心优势在于其规模庞大、结构清晰、标注质量高,能够满足大规模机器学习训练需求。通过深入挖掘和分析这些数据,研究人员可以在命名实体识别、文本分类、知识图谱构建等多个方向取得突破。

数据集采用标准JSON格式存储,便于数据预处理和特征提取,降低了使用门槛。同时,合理的训练/验证/测试集划分符合机器学习标准评估流程,便于模型验证和比较。

如果您需要获取更多关于该数据集的详细信息或定制化处理方案,欢迎私信交流。

---

数据规模: 约668,344条记录 文件格式: JSON 包含字段: title, summary, occupations 适用领域: NLP研究、知识图谱、推荐系统、信息检索

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
维基百科人物传记数据集:66万+多语种名人信息库助力NLP研究与知识图谱构建
19.9
251.3MB
申请报告