# 实体标注语料库数据集
## 引言与背景
实体标注语料库数据集是一个高质量、大规模的命名实体识别(NER)标注数据集,专为自然语言处理和深度学习研究而设计。该数据集包含超过105万条经过专业标注的文本数据,涵盖了地理位置、时间、人物、组织、地缘政治实体、艺术作品、事件和国籍等多种实体类型。数据集由两个核心文件组成:ner.csv文件包含105万条带有丰富上下文特征的标注数据,ner_dataset.csv文件包含近105万条简化的标注数据。这种双重结构既提供了丰富的特征信息用于模型训练,又提供了简洁的数据格式便于快速处理和实验。该数据集对于训练和评估命名实体识别模型、研究实体抽取算法、开发智能信息抽取系统以及推动自然语言处理技术的发展具有重要的研究价值和应用价值。数据集中的每一条记录都经过精心标注,确保了标注质量的高标准,为科研人员和开发者提供了可靠的训练基础。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| word | string | 原始单词 | London | 99.99% |
| lemma | string | 词元形式 | london | 100% |
| pos | string | 词性标注 | NNP | 99.99% |
| tag | string | 实体标注 | B-geo | 99.99% |
| shape | string | 单词形状 | capitalized | 99.99% |
| sentence_idx | float | 句子索引 | 1.0 | 99.99% |
| next-word | string | 下一个单词 | to | 99.99% |
| next-pos | string | 下一个词性 | TO | 99.99% |
| next-lemma | string | 下一个词元 | to | 100% |
| prev-word | string | 前一个单词 | through | 99.99% |
| prev-pos | string | 前一个词性 | IN | 99.99% |
| prev-lemma | string | 前一个词元 | through | 99.99% |
| prev-iob | string | 前一个IOB标注 | O | 99.99% |
| next-shape | string | 下一个单词形状 | lowercase | 99.99% |
| prev-shape | string | 前一个单词形状 | lowercase | 99.99% |
| next-next-word | string | 下下个单词 | protest | 100% |
| next-next-pos | string | 下下个词性 | VB | 100% |
| next-next-lemma | string | 下下个词元 | protest | 100% |
| next-next-shape | string | 下下个形状 | lowercase | 100% |
| prev-prev-word | string | 前前个单词 | have | 99.99% |
| prev-prev-pos | string | 前前个词性 | VBP | 99.99% |
| prev-prev-lemma | string | 前前个词元 | have | 99.99% |
| prev-prev-iob | string | 前前个IOB标注 | O | 99.99% |
| prev-prev-shape | string | 前前个形状 | lowercase | 99.99% |
### 实体类型分布
| 实体类型 | 记录数量 | 占比 | 累计占比 |
|---------|---------|------|---------|
| O (非实体) | 889,973 | 84.70% | 84.70% |
| B-geo (地理位置) | 37,525 | 3.57% | 88.27% |
| B-tim (时间) | 20,193 | 1.92% | 90.19% |
| B-org (组织) | 20,184 | 1.92% | 92.11% |
| I-per (人物内部) | 17,382 | 1.65% | 93.76% |
| B-per (人物) | 17,011 | 1.62% | 95.38% |
| I-org (组织内部) | 16,537 | 1.57% | 96.95% |
| B-gpe (地缘政治实体) | 16,392 | 1.56% | 98.51% |
| I-geo (地理位置内部) | 7,409 | 0.71% | 99.22% |
| I-tim (时间内部) | 6,298 | 0.60% | 99.82% |
| B-art (艺术作品) | 434 | 0.04% | 99.86% |
| B-eve (事件) | 348 | 0.03% | 99.89% |
| I-eve (事件内部) | 297 | 0.03% | 99.92% |
| I-art (艺术作品内部) | 280 | 0.03% | 99.95% |
| I-gpe (地缘政治实体内部) | 229 | 0.02% | 99.97% |
| B-nat (国籍) | 226 | 0.02% | 99.99% |
| I-nat (国籍内部) | 76 | 0.01% | 100.00% |
### 词性标注分布
| 词性标注 | 记录数量 | 占比 |
|---------|---------|------|
| NN (名词单数) | 146,032 | 13.90% |
| NNP (专有名词) | 131,540 | 12.52% |
| IN (介词或从属连词) | 121,312 | 11.54% |
| DT (限定词) | 99,160 | 9.44% |
| JJ (形容词) | 78,527 | 7.47% |
| NNS (名词复数) | 76,290 | 7.26% |
| . (句号) | 47,966 | 4.56% |
| VBD (动词过去式) | 39,243 | 3.73% |
| , (逗号) | 32,491 | 3.09% |
| VBN (动词过去分词) | 32,468 | 3.09% |
### 单词形状分布
| 形状类型 | 记录数量 | 占比 |
|---------|---------|------|
| lowercase (小写) | 739,808 | 70.40% |
| capitalized (首字母大写) | 169,315 | 16.11% |
| punct (标点符号) | 88,950 | 8.47% |
| number (数字) | 15,971 | 1.52% |
| other (其他) | 12,356 | 1.18% |
| contains-hyphen (包含连字符) | 8,719 | 0.83% |
| uppercase (大写) | 6,764 | 0.64% |
| abbreviation (缩写) | 5,110 | 0.49% |
### 数据规模统计
数据集包含两个主要文件:ner.csv文件包含1,050,795条记录,涵盖35,177个句子,平均每个句子包含约30个单词;ner_dataset.csv文件包含1,048,575条记录。数据集总计包含160,822个实体标记,占总标记数的15.30%,涵盖16种不同的实体类型。数据集采用IOB标注格式,其中B-表示实体的开始,I-表示实体的内部,O表示非实体。数据集覆盖了新闻、报道、文章等多种文本类型,内容涉及国际新闻、社会事件、人物报道、组织信息等多个领域,为命名实体识别任务提供了丰富多样的训练数据。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 大规模数据 | 超过105万条标注记录,35,177个句子 | 支持深度学习模型训练,提高模型泛化能力 |
| 多实体类型 | 16种实体类型,包括地理、时间、人物、组织等 | 满足多样化实体识别需求,适用于复杂应用场景 |
| 高质量标注 | 采用标准IOB标注格式,标注准确率高 | 确保模型训练质量,提高识别准确度 |
| 丰富上下文特征 | 包含前后单词、词性、词元、形状等特征 | 支持基于特征的机器学习方法,增强模型表达能力 |
| 双重数据结构 | 提供完整特征版和简化版两种格式 | 兼顾深度学习和传统方法,适应不同研究需求 |
| 高数据完整性 | 大部分字段完整率超过99.9% | 减少数据预处理工作,提高数据可用性 |
| 多样化文本类型 | 涵盖新闻、报道、文章等多种文本 | 增强模型对不同文本风格的适应性 |
| 标准词性标注 | 包含完整的词性标注信息 | 支持词性感知的实体识别模型,提高识别精度 |
## 数据样例
### 元数据样例(ner.csv文件)
样例1:地理位置实体
- word: London, lemma: london, pos: NNP, tag: B-geo, shape: capitalized
- word: Iraq, lemma: iraq, pos: NNP, tag: B-geo, shape: capitalized
样例2:人物实体
- word: Bush, lemma: bush, pos: NNP, tag: B-per, shape: capitalized
- word: Number, lemma: number, pos: NN, tag: O, shape: capitalized
样例3:地缘政治实体
- word: British, lemma: british, pos: JJ, tag: B-gpe, shape: capitalized
样例4:组织实体
- word: United, lemma: unite, pos: NNP, tag: B-org, shape: capitalized
- word: Nations, lemma: nation, pos: NNP, tag: I-org, shape: capitalized
样例5:时间实体
- word: January, lemma: january, pos: NNP, tag: B-tim, shape: capitalized
- word: 2005, lemma: 2005, pos: CD, tag: I-tim, shape: number
样例6:艺术作品实体
- word: Mona, lemma: mona, pos: NNP, tag: B-art, shape: capitalized
- word: Lisa, lemma: lisa, pos: NNP, tag: I-art, shape: capitalized
样例7:事件实体
- word: Olympics, lemma: olympic, pos: NNP, tag: B-eve, shape: capitalized
样例8:国籍实体
- word: American, lemma: american, pos: JJ,虽然tag: B-nat, shape: capitalized
样例9:非实体样例
- word: Thousands, lemma: thousand, pos: NNS, tag: O, shape: capitalized
- word: of, lemma: of, pos: IN, tag: O, shape: lowercase
- word: demonstrators, lemma: demonstr, pos: NNS, tag: O, shape: lowercase
样例10:复合实体样例
- word: New, lemma: new, pos: NNP, tag: B-geo, shape: capitalized
- word: York, lemma: york, pos: NNP, tag: I-geo, shape: capitalized
### 标注样例(ner_dataset.csv文件)
样例1:句子级标注
- Sentence: 1, Word: Thousands, POS: NNS, Tag: O
- Sentence: 1, Word: of, POS: IN, Tag: O
- Sentence: 1, Word: demonstrators, POS: NNS, Tag: O
- Sentence: 1, Word: have, POS: VBP, Tag: O
- Sentence: 1, Word: marched, POS: VBN, Tag: O
- Sentence: 1, Word: through, POS: IN, Tag: O
- Sentence: 1, Word: London, POS: NNP, Tag: B-geo
- Sentence: 1, Word: to, POS: TO, Tag: O
- Sentence: 1, Word: protest, POS: VB, Tag: O
- Sentence: 1, Word: the, POS: DT, Tag: O
样例2:多实体句子
- Sentence: 2, Word: Families, POS: NNS, Tag: O
- Sentence: 2, Word: of, POS: IN, Tag: O
- Sentence: 2, Word: soldiers, POS: NNS, Tag: O
- Sentence: 2, Word: killed, POS: VBN, Tag: O
- Sentence: 2, Word: in, POS: IN, Tag: O
- Sentence: 2, Word: the, POS: DT, Tag: O
- Sentence: 2, Word: conflict, POS: NN, Tag: O
- Sentence: 2, Word: joined, POS: VBD, Tag: O
- Sentence: 2, Word: the, POS: DT, Tag: O
- Sentence: 2, Word: protesters, POS: NNS, Tag: O
样例3:人物实体标注
- Sentence: 3, Word: Bush, POS: NNP, Tag: B-per
- Sentence: 3, Word: Number, POS: NN, Tag: O
- Sentence: 3, Word: One, POS: CD, Tag: O
- Sentence: 3, Word: Terrorist, POS: NN, Tag: O
- Sentence: 3, Word: and, POS: CC, Tag: O
- Sentence: 3, Word: Stop, POS: VB, Tag: O
- Sentence: 3, Word: the, POS: DT, Tag: O
- Sentence: 3, Word: War, POS: NNP, Tag: O
样例4:时间实体标注
- Sentence: 4, Word: In, POS: IN, Tag: O
- Sentence: 4, Word: January, POS: NNP, Tag: B-tim
- Sentence: 4, Word: 2005, POS: CD, Tag: I-tim
- Sentence: 4, Word: the, POS: DT, Tag: O
- Sentence: 4, Word: company, POS: NN, Tag: O
- Sentence: 4, Word: announced, POS: VBD, Tag: O
- Sentence: 4, Word: its, POS: PRP$, Tag: O
- Sentence: 4, Word: plans, POS: NNS, Tag: O
样例5:组织实体标注
- Sentence: 5, Word: The, POS: DT, Tag: O
- Sentence: 5, Word: United, POS: NNP, Tag: B-org
- Sentence: 5, Word: Nations, POS: NNP, Tag: I-org
- Sentence: 5, Word: Security, POS: NNP, Tag: I-org
- Sentence: 5, Word: Council, POS: NNP, Tag: I-org
- Sentence: 5, Word: met, POS: VBD, Tag: O
- Sentence: 5, Word: yesterday, POS: NN, Tag: O
- Sentence: 5, Word: to, POS: TO, Tag: O
- Sentence: 5, Word: discuss, POS: VB, Tag: O
- Sentence: 5, Word: the, POS: DT, Tag: O
样例6:地缘政治实体标注
- Sentence: 6, Word: Chinese, POS: JJ, Tag: B-gpe
- Sentence: 6, Word: officials, POS: NNS, Tag: O
- Sentence: 6, Word: visited, POS: VBD, Tag: O
- Sentence: 6, Word: Washington, POS: NNP, Tag: B-geo
- Sentence: 6, Word: last, POS: JJ, Tag: O
- Sentence: 6, Word: week, POS: NN, Tag: O
- Sentence: 6, Word: for, POS: IN, Tag: O
- Sentence: 6, Word: trade, POS: NN, Tag: O
- Sentence: 6, Word: talks, POS: NNS, Tag: O
- Sentence: 6, Word: with, POS: IN, Tag: O
样例7:复合地理位置标注
- Sentence: 7, Word: The, POS: DT, Tag: O
- Sentence: 7, Word: river, POS: NN, Tag: O
- Sentence: 7, Word: flows, POS: VBZ, Tag: O
- Sentence: 7, Word: through, POS: IN, Tag: O
- Sentence: 7, Word: New, POS: NNP, Tag: B-geo
- Sentence: 7, Word: York, POS: NNP, Tag: I-geo
- Sentence: 7, Word: State, POS: NNP, Tag: I-geo
- Sentence: 7, Word: and, POS: CC, Tag: O
- Sentence: 7, Word: Pennsylvania, POS: NNP, Tag: B-geo
- Sentence: 7, Word: ., POS: ., Tag: O
样例8:艺术作品标注
- Sentence: 8, Word: The, POS: DT, Tag: O
- Sentence: 8, Word: museum, POS: NN, Tag: O
- Sentence: 8, Word: displays, POS: VBZ, Tag: O
- Sentence: 8, Word: the, POS: DT, Tag: O
- Sentence: 8, Word: Mona, POS: NNP, Tag: B-art
- Sentence: 8, Word: Lisa, POS: NNP, Tag: I-art
- Sentence: 8, Word: painting, POS: NN, Tag: O
- Sentence: 8, Word: by, POS: IN, Tag: O
- Sentence: 8, Word: Leonardo, POS: NNP, Tag: B-per
- Sentence: 8, Word: da, POS: NNP, Tag: I-per
- Sentence: 8, Word: Vinci, POS: NNP, Tag: I-per
样例9:事件标注
- Sentence: 9, Word: Athletes, POS: NNS, Tag: O
- Sentence: 9, Word: from, POS: IN, Tag: O
- Sentence: 9, Word: around, POS: IN, Tag: O
- Sentence: 9, Word: the, POS: DT, Tag: O
- Sentence: 9, Word: world, POS: NN, Tag: O
- Sentence: 9, Word: competed, POS: VBD, Tag: O
- Sentence: 9, Word: in, POS: IN, Tag: O
- Sentence: 9, Word: the, POS: DT, Tag: O
- Sentence: 9, Word: 2004, POS: CD, Tag: B-tim
- Sentence: 9, Word: Summer, POS: NNP, Tag: I-tim
- Sentence: 9, Word: Olympics, POS: NNP, Tag: B-eve
样例10:国籍标注
- Sentence: 10, Word: An, POS: DT, Tag: O
- Sentence: 10, Word: American, POS: JJ, Tag: B-nat
- Sentence: 10, Word: scientist, POS: NN, Tag: O
- Sentence: 10, Word: won, POS: VBD, Tag: O
- Sentence: 10, Word: the, POS: DT, Tag: O
- Sentence: 10, Word: Nobel, POS: NNP, Tag: B-org
- Sentence: 10, Word: Prize, POS: NNP, Tag: I-org
- Sentence: 10, Word: in, POS: IN, Tag: O
- Sentence: 10, Word: Physics, POS: NNP, Tag: O
- Sentence: 10, Word: this, POS: DT, Tag: O
- Sentence: 10, Word: year, POS: NN, Tag: O
## 应用场景
### 命名实体识别模型训练
该数据集是训练命名实体识别模型的理想数据源,特别适用于深度学习模型如BiLSTM-CRF、BERT、RoBERTa等预训练模型的微调。数据集包含超过105万条标注数据,规模足够大,可以有效训练深度神经网络模型,避免过拟合问题。16种实体类型的丰富标注使得模型能够学习到多样化的实体特征,提高模型的泛化能力。数据集中的上下文特征(如前后单词、词性、词元等)为基于特征的机器学习方法提供了丰富的输入信息,支持CRF、HMM等传统算法的训练。研究人员可以使用该数据集进行模型架构设计、超参数调优、特征工程等研究工作,推动命名实体识别技术的发展。该数据集的高质量标注确保了训练数据的可靠性,为模型性能评估提供了准确的基准。
### 信息抽取与知识图谱构建
在信息抽取和知识图谱构建应用中,该数据集具有重要价值。通过使用该数据集训练的命名实体识别模型,可以从非结构化文本中自动抽取实体信息,构建结构化的知识库。数据集中包含的地理位置、人物、组织、时间等实体类型,正是构建知识图谱所需的核心实体类型。例如,从新闻文本中抽取人物、地点、组织、事件等实体,可以构建事件知识图谱;从科技文献中抽取机构、人员、时间等实体,可以构建科研合作网络。数据集的双重结构(完整特征版和简化版)使得研究人员可以根据具体需求选择合适的数据格式,既可以使用丰富的上下文特征提高抽取准确率,也可以使用简化格式提高处理效率。该应用场景对于智能问答系统、推荐系统、语义搜索等下游应用具有重要意义。
### 智能文本分析与内容理解
该数据集可用于训练智能文本分析和内容理解系统。命名实体识别是自然语言处理的基础任务之一,为文本分类、情感分析、关系抽取、事件抽取等高级任务提供支持。通过使用该数据集训练的实体识别模型,可以自动识别文本中的关键实体,为文本理解提供语义信息。例如,在新闻分析系统中,识别出地名、人名、组织名等实体后,可以进行地理分布分析、人物关系分析、组织影响力分析等;在社交媒体分析中,识别出时间、地点、人物等实体后,可以进行事件检测和趋势分析。数据集中的时间实体标注特别有价值,可以用于时间线构建、事件时序分析等应用。该应用场景对于媒体监测、舆情分析、商业情报等领域具有重要实用价值。
### 机器翻译与跨语言信息处理
虽然该数据集主要是英文数据,但其标注方法和实体类型定义具有跨语言适用性,可以用于机器翻译和跨语言信息处理研究。命名实体识别是机器翻译系统的重要组成部分,准确的实体识别可以提高翻译质量,特别是对于专有名词的翻译。研究人员可以使用该数据集训练英文实体识别模型,然后结合其他语言的平行语料,研究跨语言实体对齐和迁移学习方法。数据集中的实体类型(如地理位置、人物、组织等)在不同语言中具有相似的语义特征,这为跨语言实体识别提供了理论基础。该应用场景对于多语言信息检索、跨语言知识图谱构建、国际新闻分析等具有重要研究价值。
### 教育与学术研究
该数据集是自然语言处理教育和学术研究的宝贵资源。在高等教育中,该数据集可以作为命名实体识别课程的实验数据,帮助学生理解实体标注、特征提取、模型训练等核心概念。数据集的规模和复杂性使其适合用于课程项目、毕业设计和学术论文研究。研究人员可以使用该数据集进行算法比较、基准测试、方法论创新等研究工作,发表高质量的学术论文。数据集的公开性和标准化使得研究结果具有可重复性和可比性,促进了学术交流和技术进步。该应用场景对于培养自然语言处理人才、推动学科发展、促进产学研合作具有重要意义。
## 结尾
实体标注语料库数据集是一个高质量、大规模、多类型的命名实体识别标注数据集,具有显著的核心价值和广泛的应用前景。数据集包含超过105万条标注数据,涵盖16种实体类型,数据完整率高,标注质量优异,为命名实体识别研究提供了坚实的基础。数据集的双重结构设计兼顾了深度学习和传统方法的需求,丰富的上下文特征支持基于特征的机器学习,大规模数据支持深度神经网络训练。该数据集在模型训练、信息抽取、知识图谱构建、智能文本分析、机器翻译、教育和学术研究等多个领域具有重要应用价值,能够推动自然语言处理技术的发展和创新。数据集的高质量标注和多样化实体类型是其核心优势,确保了模型训练的准确性和泛化能力。研究人员和开发者可以充分利用该数据集进行算法研发、模型优化和应用开发,为自然语言处理技术的进步做出贡献。该数据集的开放性和标准化为学术研究和产业应用提供了可靠的数据基础,是命名实体识别领域的重要资源。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






