数据描述
数据集简介
Aristo Mini Corpus(Dec2016版)是面向英文常识推理与科学教育的高质量文本语料库,包含119万余条简明英文句子,内容涵盖动植物、能量、物质、生命、自然现象等基础科学常识。该数据集广泛用于自然语言理解、常识推理、知识图谱构建、教育AI等领域,是权威的科学常识文本资源。
字段描述表
| 字段名 | 类型 | 含义 | 示例 | 完整性 |
|---|---|---|---|---|
| sentence | 字符串 | 英文常识句子 | "Plants can do both." | 100% |
分布与统计
-
总句数:1196911条(Aristo-Mini-Corpus-Dec2016.txt)
-
语言:英文
-
主题:动植物、能量、物质、生命、自然现象、科学常识
-
句型:陈述句为主,简明直接,适合NLP任务
-
文件格式:纯文本,每行一句
数据优势三列表
| 优势 | 具体表现 | 应用价值 |
|---|---|---|
| 规模大覆盖广 | 119万条科学常识句,主题丰富 | 支撑大规模NLP训练、常识推理、知识图谱构建 |
| 结构极简 | 每行一句,纯文本无冗余 | 便于高效处理、分词、嵌入与批量建模 |
| 权威科学内容 | 内容聚焦基础科学教育与常识 | 适合教育AI、科学问答、推理与理解任务 |
多样化样本(节选)
-
Plants can do both.
-
Energy often moves.
-
The water does not change, it is still water.
-
Animals get their food from plants.
-
Both animals and plants need water.
-
Plants make their own food for energy.
-
Animals get their energy from eating plants or other animals which eat plants.
-
Both animals and plants grow.
-
Some animals eats both plants and animals.
-
Plants also depend on animals for energy.
应用场景
-
常识推理与自然语言理解模型训练 该数据集为常识推理、科学问答、文本蕴含等NLP任务提供了丰富的训练语料。通过大规模英文常识句子,支持模型学习基础科学知识、推理关系、事实判断等能力,提升AI系统的理解力与推理能力。
-
知识图谱与教育AI内容构建 结构化的科学常识句子可直接用于知识图谱实体与关系抽取、教育AI内容生成、自动教材编写等。助力智能教育、科学普及、自动化知识管理等场景。
-
文本生成与语义检索评测基准 作为英文常识文本基准,可用于文本生成、语义检索、句子嵌入等模型的评测与对比。支持多种NLP下游任务的效果验证与算法创新。
结论
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






