数据描述

K12全学段多学科题库数据集:覆盖小学初中高中10个学科4599道题目完整数据,包含题目内容标准答案详细解析知识点标注及1517个图片文件资源,适用于智能教育系统开发AI模型训练题库建设个性化学习推荐等应用场景

引言与背景

K12题库数据集是一个面向基础教育阶段的综合性题库资源,涵盖了小学、初中、高中三个学段的主要学科,共计包含4599道高质量的题目。该数据集对于教育技术研究、智能教学系统开发、自然语言处理模型训练以及教育数据分析具有重要的应用价值。

数据集包含了完整的题目元数据、原始题目内容、标准答案、详细解析、知识点标注等丰富信息。其中,部分题目还包含了图片资源,这些图片文件与题目内容一一对应,为理解题目提供了重要的视觉辅助。数据集的完整性和多样性使其成为教育AI领域研究和应用开发的宝贵资源。

在科研应用方面,该数据集可用于训练和评估智能问答系统、自动解题模型、知识点推荐算法等。在产业应用方面,数据集可支撑在线教育平台的题库建设、个性化学习推荐系统、智能批改系统等产品的开发。算法的训练和应用需要大规模、高质量的标注数据,而本数据集正是满足这一需求的优质资源。

数据基本信息

数据字段说明

字段名称 字段类型 字段含义 数据示例 完整性
subjectName 字符串 学科名称 语文、数学、英语、物理... 100.0%
_id 字符串 题目唯一标识符 71c7d734b9e740e09965eee85b291f04... 100.0%
logicQuesTypeName 字符串 题目类型 解答、单选、填空、判断... 100.0%
question 字符串 题目内容 学校图书馆那丰富的图书又像磁石一样吸引着我。(缩句)... 100.0%
difficulty 整数 题目难度 1-5,数值越大难度越高... 100.0%
gradeGroupName 字符串 学段名称 小学、初中、高中... 100.0%
subjectId 字符串 学科ID 1、2、3、4... 100.0%
is_img 整数 是否包含图片 0表示无图片,1表示有图片... 100.0%
answer 字符串 标准答案 图书吸引着我。... 100.0%
Analysis 字符串 题目解析 本题考查缩句。缩句是汉语语法中的一种常见操作...... 100.0%
gradeGroupId 字符串 学段ID 1表示小学,2表示初中,3表示高中... 100.0%
knowledge 数组 知识点标签 ["句", "基础知识"]... 95.7%
options 字符串 选择题选项 A:①②③  
B:③④①        
C:①③④... 43.9%      

数据分布情况

学科分布

学科名称 记录数量 占比 累计占比
数学 600 13.05% 13.05%
英语 600 13.05% 26.09%
语文 599 13.02% 39.12%
化学 400 8.70% 47.81%
历史 400 8.70% 56.51%
地理 400 8.70% 65.21%
政治 400 8.70% 73.91%
物理 400 8.70% 82.60%
生物 400 8.70% 91.30%
科学 400 8.70% 100.00%

学段分布

学段名称 记录数量 占比 累计占比
初中 2000 43.49% 43.49%
高中 1799 39.12% 82.60%
小学 800 17.40% 100.00%

题型分布

题型名称 记录数量 占比
解答 1934 42.05%
单选 1905 41.42%
填空 645 14.02%
判断 86 1.87%
多选 15 0.33%
多选多 7 0.15%
完形填空 6 0.13%
连词成句 1 0.02%

难度分布

难度等级 记录数量 占比
1 473 10.28%
2 1504 32.70%
3 2321 50.47%
4 262 5.70%
5 39 0.85%

图片分布

是否含图片 记录数量 占比
有图片 1517 32.99%
无图片 3082 67.01%

数据规模与类型

数据集共包含4599道题目,覆盖10个学科,3个学段,8种题型。数据格式为JSON Lines(每行一个JSON对象),便于逐行读取和处理。数据集还包含1517道带图片的题目,对应1517个图片文件(PNG和JPG格式),图片文件存储在独立的image目录中,通过题目中的is_img字段和图片路径可以建立对应关系。所有题目均包含完整的题目内容、标准答案和详细解析,2019道题目包含选择题选项。所有题目均标注了知识点标签,共出现31653次知识点标注,涵盖4331个不同的知识点标签。

数据优势

优势特征 具体表现 应用价值
完整原始文件 数据集包含1517个图片文件,与题目一一对应,图片格式为PNG和JPG 支持基于图像的题目理解、OCR识别、图文混排题目处理等应用
高质量标注信息 所有题目均包含标准答案和详细解析,4599道题目有完整解析,每道题目标注了知识点标签 可用于监督学习、知识图谱构建、智能推荐系统训练
多学段全覆盖 覆盖小学、初中、高中三个学段,10个主要学科 支持跨学段知识体系研究、个性化学习路径推荐
题型多样性 包含8种题型,涵盖选择题、填空题、解答题等 支持多种题型的自动批改、智能组卷、题目难度评估
难度标注完整 所有题目标注了1-5级难度,难度分布均匀 支持个性化推荐、自适应学习系统开发
数据规模适中 共4599道题目,数据量适中便于快速实验和验证 适合算法原型开发、模型快速迭代、教育资源有限的研究团队

数据样例

说明:由于数据集包含完整的图片文件,部分题目的图片无法在文章中直接展示。实际数据集中,所有标注为is_img=1的题目都包含对应的图片文件,图片文件路径可通过题目中的图片引用获取。以下展示的是元数据样例,涵盖了不同学科、学段、题型的多样性特征。

元数据样例

样例 1

{
  "_id": "dca9938bc7f241df8323394e29754257",
  "question": "常用于测量液体体积的仪器是(    )\n",
  "answer": "A",
  "Analysis": "A选项:量筒用于量取液体的体积,故正确;\nB选项:试管可以用作少量液体的反应器,不能用来测量液体体积,故错误;\nC选项:烧杯可以用作大量液体的反应器,溶解稀释液体,一般不用来测量液体体积,故错误;\nD选项:水槽用于排水法收集气体,不能用来测量液体体积,故错误;\n故选A。\n",
  "options": "A:量筒\n\nB:试管\n\nC:烧杯\n\nD:水槽\n",
  "logicQuesTypeName": "单选",
  "subjectId": "5",
  "is_img": 0,
  "difficulty": 1,
  "gradeGroupId": "2",
  "gradeGroupName": "初中",
  "subjectName": "化学",
  "knowledge": [
    "希望学精品题",
    "量筒的使用及误差分析",
    "实验常用的仪器",
    "常见仪器的使用注意事项",
    "科学探究",
    "学习基本的实验技能"
  ]
}

样例 2

{
  "_id": "410fe40216e94f33904b9b820b05ee35_1_1",
  "question": "某小组同学对生活中水展开了项目式学习探究。\n\n【项目一】:探究自来水的生产过程\n\n如图1是自来水的生产过程。据图回答:\n\n<img alt=\"\" height=\"131\" src=\"image/ed6cc07a-acfe-4041-9ea3-58cdd07730ae.png\" width=\"367\" />\n\n该过程中没有使用的净水方法是 ___          ___ 。(填字母序号)\n",
  "answer": "A\nB",
  "Analysis": "自来水的生产过程使用的净水方法有沉淀、过滤、吸附和消毒等,没有蒸馏,则该过程中使用的净水方法有AB。\n",
  "options": "A:沉淀\n\nB:过滤\n\nC:蒸馏\n",
  "logicQuesTypeName": "多选",
  "subjectId": "5",
  "is_img": 1,
  "difficulty": 3,
  "gradeGroupId": "2",
  "gradeGroupName": "初中",
  "subjectName": "化学",
  "knowledge": []
}

样例 3

{
  "_id": "410fe40216e94f33904b9b820b05ee35_1_3",
  "question": "某小组同学对生活中水展开了项目式学习探究。\n\n【项目一】:探究自来水的生产过程\n\n如图1是自来水的生产过程。据图回答:\n\n<img alt=\"\" height=\"131\" src=\"image/ed6cc07a-acfe-4041-9ea3-58cdd07730ae.png\" width=\"367\" />\n\n在净水时,可用明矾作混凝剂沉降小颗粒不溶性杂质,其化学式为 $$\\text{KAl}{{\\left( \\text{S}{{\\text{O}}_4} \\right)}_{n}}\\cdot 12{{\\text{H}}_2}\\text{O}$$,$$n$$ 的值为 ___          ___ 。\n",
  "answer": "$$2$$",
  "Analysis": "在 $$\\text{KAl}{{(\\text{S}{{\\text{O}}_4})}_{n}}\\cdot 12{{\\text{H}}_2}\\text{O}$$ 中,钾元素显 $$+1$$ 价,铝元素显 $$+3$$ 价,硫酸根显 $$-2$$ 价,根据化合物中正负化合价的代数和为零可得 $$+1+(+3)+(-2)\\times n=0$$,则 $$n=2$$。\n",
  "options": "",
  "logicQuesTypeName": "填空",
  "subjectId": "5",
  "is_img": 1,
  "difficulty": 3,
  "gradeGroupId": "2",
  "gradeGroupName": "初中",
  "subjectName": "化学",
  "knowledge": []
}

样例 4

{
  "_id": "410fe40216e94f33904b9b820b05ee35_2",
  "question": "某小组同学对生活中水展开了项目式学习探究。\n\n【项目一】:探究自来水的生产过程\n\n【项目二】:认识水的蒸发\n\n图2反映烧杯内的水在不同温度下汽化时发生变化的微观示意图,请将 $$50{}^\\circ \\text{C}$$ 时相同空间内对应的微观示意图补充完整 ___          ___ (图中“●”表示氧原子,“○”表示氢原子)。\n\n<img alt=\"\" height=\"123\" src=\"image/6952c17e-2354-44fc-a8aa-1e15d6778021.png\" width=\"257\" />\n",
  "answer": "<img alt=\"\" height=\"77\" src=\"/data/new_tk/images/new_img/2_5/image_15/e4d0fe4c-3c18-4c31-87e3-2bb45c3c6486.png\" width=\"85\" />\n",
  "Analysis": "温度越高,分子之间的间隔越大,分子热运动越快,蒸发越快,空气中的水分子更多,因此,与 $$20{}^\\circ \\text{C}$$ 时对应的微观示意图相比,$$50{}^\\circ \\text{C}$$ 时相同空间内对应的微观示意图为:<img alt=\"\" height=\"77\" src=\"/data/new_tk/images/new_img/2_5/image_6/e4d0fe4c-3c18-4c31-87e3-2bb45c3c6486.png\" width=\"85\" />。\n",
  "options": "",
  "logicQuesTypeName": "解答",
  "subjectId": "5",
  "is_img": 1,
  "difficulty": 3,
  "gradeGroupId": "2",
  "gradeGroupName": "初中",
  "subjectName": "化学",
  "knowledge": [
    "物质组成的表示",
    "由水分解判断元素组成",
    "化合价",
    "增进对科学探究的理解",
    "身边的化学物质",
    "水与常见的溶液",
    "科学探究的基本方法和环节",
    "希望学精品题",
    "水",
    "水的组成",
    "试题类型",
    "科学探究与创新意识",
    "科学探究",
    "微观粒子特征的实际应用及影响因素",
    "微观粒子特征的模型表示",
    "水的净化",
    "电解水实验的现象、结论及注意事项",
    "物质的化学变化",
    "物质构成的奥秘",
    "影响化学反应速率的因素",
    "微观粒子的特征",
    "求某元素/原子团的化合价",
    "自来水厂的净水流程和净水常用的方法",
    "实验方案设计",
    "微粒构成物质",
    "素养"
  ]
}

应用场景

1. 智能教育系统开发

该数据集可用于开发智能教育系统,包括智能题库管理、自动组卷、个性化学习推荐等功能。系统可以根据学生的学段、学科、知识点掌握情况,从数据集中筛选合适的题目进行推荐。题目的难度标注可以用于构建自适应学习路径,根据学生的答题表现动态调整题目难度。数据集中丰富的知识点标签可以用于构建知识图谱,实现知识点之间的关联分析和学习路径规划。对于包含图片的题目,系统可以集成OCR技术识别图片中的文字和图形,实现图文混排题目的智能处理。标准答案和详细解析可以用于开发智能批改系统,自动评估学生的答题情况并提供个性化反馈。

2. 自然语言处理模型训练

数据集中的题目内容、答案、解析等文本信息可以用于训练自然语言处理模型,包括题目理解、答案生成、解析生成等任务。题目内容可以作为输入,答案作为输出,训练seq2seq模型实现自动解题。解析文本可以用于训练模型生成题目的详细解答过程,帮助学生理解解题思路。知识点标签可以用于多标签分类任务,训练模型自动识别题目涉及的知识点。不同题型的题目可以用于训练模型处理多种类型的教育文本。数据集的规模适中,适合用于模型的原型开发和快速实验,也可以作为大规模预训练数据集的补充。

3. 教育数据挖掘与分析

数据集可以用于教育数据挖掘研究,分析题目的难度分布、知识点覆盖情况、题型分布等。通过对题目内容的文本分析,可以挖掘题目的语言特征、复杂度特征等,用于题目质量评估。知识点标签的共现分析可以揭示知识点之间的关联关系,用于构建学科知识体系。不同学段、学科的题目分布可以用于分析教育资源的分配情况。难度标注可以用于研究题目的难度评估标准,验证难度标注的合理性和一致性。包含图片的题目可以用于研究图文混排题目的特征,分析图片在题目理解中的作用。

4. 智能批改与评估系统

数据集中的标准答案和解析可以用于开发智能批改系统,自动评估学生的答题情况。对于选择题,系统可以比较学生的答案与标准答案,实现快速批改。对于主观题,系统可以基于标准答案和解析,使用自然语言处理技术评估学生答案的相似度和正确性。详细解析可以用于生成个性化反馈,指出学生的错误点和改进方向。难度标注可以用于分析学生的能力水平,根据答题正确率和题目难度评估学生的学习情况。知识点标签可以用于分析学生的知识掌握情况,识别薄弱知识点并推荐相关练习。

5. 教育资源推荐系统

数据集可以用于构建教育资源推荐系统,根据学生的学段、学科、学习进度等因素推荐合适的题目。系统可以基于协同过滤、内容过滤等推荐算法,从数据集中筛选符合学生需求的题目。知识点标签可以用于实现基于知识点的推荐,当学生需要练习某个知识点时,系统可以推荐相关的题目。难度标注可以用于实现难度自适应的推荐,根据学生的能力水平推荐合适难度的题目。题型的多样性可以满足不同学习场景的需求,如复习、练习、测试等。包含图片的题目可以用于推荐需要视觉理解的题目,丰富推荐内容的多样性。

结尾

K12题库数据集是一个高质量、多维度、全学段覆盖的教育资源数据集,共包含4599道题目,涵盖了小学、初中、高中三个学段的主要学科。数据集的核心优势在于包含完整的原始文件(1517个图片文件)和高质量的标注信息(标准答案、详细解析、知识点标签)。这些优势使得数据集在教育AI研究、智能教育系统开发、自然语言处理模型训练等领域具有重要的应用价值。

数据集采用JSON Lines格式存储,结构清晰,易于处理和分析。每道题目都包含完整的元数据信息,便于快速检索和筛选。图片文件与题目内容一一对应,支持基于图像的题目理解应用。数据集的多学段、多学科、多题型特点使其成为教育AI领域研究和应用开发的宝贵资源。

该数据集适用于算法研究人员、教育技术开发者、在线教育平台建设者等不同角色的需求。无论是用于模型训练、系统开发还是数据分析,数据集都能提供高质量的标注数据和丰富的应用场景。有需要可私信获取更多信息。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
K12全学段多学科题库数据集:覆盖小学初中高中10个学科4599道题目完整数据,包含题目内容标准答案详细解析知识点标注及1517个图片文件资源,适用于智能教育系统开发AI模型训练题库建设个性化学习推荐
19.9
已售 0
42.87MB
申请报告