panpan

verify-tag巴西 2010-2019 年教育统计与 ENEM 考试成绩综合数据集:覆盖 27 州 5570 城市、包含百万级考生微数据与基础教育指标的多维度教育研究数据资源

数据优势分析地域覆盖标签时间跨度

29

1.66GB

数据标识:D17797665224061515

发布时间:2026/05/26

## 引言与背景

教育是国家发展的基石,教育数据的系统化收集与分析对于制定科学的教育政策、评估教育质量、促进教育公平具有至关重要的意义。巴西作为拉丁美洲最大的经济体,其教育体系的发展与改革一直备受关注。巴西国家高中考试(Exame Nacional do Ensino Médio,简称 ENEM)是巴西最重要的高中教育评估考试,不仅是高中毕业的重要参考,更是学生进入高等院校的主要依据。

本数据集整合了巴西 2010 年至 2019 年期间的多维度教育数据,涵盖了全国 27 个州(Unidades da Federação)、超过 5,500 个城市的教育统计信息、ENEM 考试成绩数据、基础教育指标、人口统计数据以及地理信息数据。数据集的构建旨在为教育研究者、政策制定者、数据科学家提供一个全面、系统、高质量的巴西教育研究数据资源。

数据集的核心价值在于其多维度、多层次的数据组织结构。从宏观的州级统计数据到微观的考生个体成绩,从基础教育阶段的入学人数到 ENEM 考试的详细表现,从人口统计到地理分布,数据集提供了丰富的研究视角。这些数据对于研究巴西教育发展的区域差异、评估教育政策效果、分析影响教育质量的因素、开发教育预测模型等具有重要的应用价值。

## 数据基本信息

### 数据集构成

本数据集包含多个子数据集,形成了一个完整的教育数据生态系统:

主数据集(df_2014-2019.csv):这是数据集的核心部分,整合了 2014 年至 2019 年期间巴西各市的教育统计数据。该数据集以城市为基本统计单元,每条记录代表一个城市在特定年份的教育状况,包含了人口、面积、各级教育入学人数、学校数量、教师数量、ENEM 考试成绩等综合信息。ENEM 微数据集:包含 2014 年至 2018 年的 ENEM 考试个体考生数据,每年提供两种规模的样本集(10K 样本和 500K 样本)。这些微数据记录了每位考生的详细信息,包括人口统计学特征、考试表现、各科目成绩、作文成绩、答题情况、社会经济背景问卷等。州级表现数据集(desempenho_uf):涵盖 2010 年至 2019 年的州级教育统计数据,以州为统计单元,提供宏观层面的教育发展指标。基础教育数据集(educacao_basica):包含 2014 年至 2019 年的基础教育详细统计数据,涵盖幼儿教育、小学、中学、职业教育等各个教育阶段。人口数据集(pop_mun):提供 2014 年至 2019 年各市的人口统计数据,为教育数据分析提供人口学背景。领土数据集(territorio_mun):包含各市的领土面积信息,用于计算人口密度、学校密度等衍生指标。地理坐标数据(localidadesBR_LON_LAT.csv):提供巴西各城市的经纬度坐标,支持地理空间分析和可视化。

### 数据字段说明

以下是主数据集(df_2014-2019.csv)的核心字段说明:

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| ano | 数值型 | 数据年份 | 2014.0 | 100% |
| NM_UF_SIGLA | 字符型 | 州缩写代码 | RO, SP, RJ | 100% |
| COD. MUNIC | 数值型 | 城市代码 | 1100015 | 100% |
| NOME_MUNICÍPIO | 字符型 | 城市名称 | ALTA FLORESTA D'OESTE | 100% |
| AREA_km² | 数值型 | 城市面积(平方公里) | 7067.025 | 100% |
| POPULAÇÃO ESTIMADA | 数值型 | 估计人口数 | 25652 | 100% |
| MAT_Edu_Infantil | 数值型 | 幼儿教育入学人数 | 490 | 100% |
| MAT_Ens_Fundamental | 数值型 | 小学教育入学人数 | 4145 | 100% |
| MAT_Ens_Médio | 数值型 | 中学教育入学人数 | 1046 | 100% |
| MAT_Educ_Prof_Técnica_Médio | 数值型 | 中等职业技术教育入学人数 | 0 | 95% |
| MAT_EJA | 数值型 | 青年成人教育入学人数 | 580 | 100% |
| QTD_Edu_Infantil | 数值型 | 幼儿教育机构数量 | 10 | 98% |
| DOCENTE_Fundamental | 数值型 | 小学教师数量 | 263 | 99% |
| ESC_Estadual_final | 数值型 | 州立学校数量(最终阶段) | 10 | 98% |
| NU_NOTA_CN | 数值型 | 自然科学科目平均成绩 | 498.55 | 85% |
| NU_NOTA_CH | 数值型 | 人文科学科目平均成绩 | 555.7 | 85% |
| NU_NOTA_LC | 数值型 | 语言代码科目平均成绩 | 494.8 | 85% |
| NU_NOTA_MT | 数值型 | 数学科目平均成绩 | 463.2 | 85% |
| NU_NOTA_REDACAO | 数值型 | 作文成绩 | 410.0 | 85% |
| MEDIA_NOTAS | 数值型 | 综合平均成绩 | 484.45 | 85% |
| TOTAL_MATRICULA | 数值型 | 总入学人数 | 6399 | 100% |
| TOTAL_ESCOLA | 数值型 | 学校总数 | 64 | 99% |
| TOTAL_DOCENTE | 数值型 | 教师总数 | 584 | 99% |
| HAB/km² | 数值型 | 人口密度(人/平方公里) | 3.63 | 95% |
| MATRIC/ESCOLA | 数值型 | 校均学生数 | 99.98 | 95% |
| DOCENTE/ESCOLA | 数值型 | 校均教师数 | 9.125 | 95% |

### 数据分布情况

#### 时间分布

| 年份 | 主数据集记录数 | 占比 | ENEM 微数据规模 |
|-----|--------------|------|---------------|
| 2010 | - | - | 州级表现数据 |
| 2011 | - | - | 州级表现数据 |
| 2012 | - | - | 州级表现数据 |
| 2013 | - | - | 州级表现数据 |
| 2014 | ~5,570 | 16.7% | 10K + 500K 样本 |
| 2015 | ~5,570 | 16.7% | 10K + 500K 样本 |
| 2016 | ~5,570 | 16.7% | 10K + 500K 样本 |
| 2017 | ~5,570 | 16.7% | 10K + 500K 样本 |
| 2018 | ~5,570 | 16.7% | 10K + 500K 样本 |
| 2019 | ~5,570 | 16.7% | - |

#### 州级分布(按记录数排序,前 10 位)

| 州代码 | 州名称 | 记录数 | 占比 |
|-------|--------|--------|------|
| SP | 圣保罗州 | ~35,000 | 12.8% |
| MG | 米纳斯吉拉斯州 | ~28,000 | 10.2% |
| RS | 南里奥格兰德州 | ~25,000 | 9.1% |
| BA | 巴伊亚州 | ~22,000 | 8.0% |
| PR | 巴拉那州 | ~20,000 | 7.3% |
| PE | 伯南布哥州 | ~15,000 | 5.5% |
| CE | 塞阿拉州 | ~14,000 | 5.1% |
| GO | 戈亚斯州 | ~12,000 | 4.4% |
| MA | 马拉尼昂州 | ~11,000 | 4.0% |
| 其他 | 其他 17 个州 | ~65,000 | 23.6% |

#### 文件格式分布

| 文件类型 | 文件格式 | 文件数量 | 总记录数 |
|---------|---------|---------|---------|
| 主数据集 | CSV | 1 | ~33,420 |
| ENEM 微数据 | CSV(分号分隔) | 10 | ~2,550,000 |
| 州表现数据 | CSV(分号分隔) | 10 | ~270 |
| 基础教育数据 | CSV(分号分隔) | 6 | ~33,420 |
| 人口数据 | CSV(分号分隔) | 6 | ~33,420 |
| 领土数据 | CSV(分号分隔) | 6 | ~33,420 |
| 地理坐标 | CSV(分号分隔) | 1 | ~5,570 |
| 其他结果 | CSV | 3 | ~100 |

#### 教育阶段分布(以 2014 年数据为例)

| 教育阶段 | 入学人数占比 | 学校数量占比 | 教师数量占比 |
|---------|------------|------------|------------|
| 幼儿教育 | 5-8% | 8-10% | 5-7% |
| 小学教育 | 45-50% | 40-45% | 45-50% |
| 中学教育 | 12-15% | 15-18% | 15-18% |
| 职业教育 | 3-5% | 2-3% | 3-4% |
| 成人教育 | 8-12% | 5-8% | 6-9% |

#### ENEM 成绩分布(以 2014 年 500K 样本为例)

| 科目 | 平均分 | 中位数 | 标准差 | 最低分 | 最高分 |
|-----|--------|--------|--------|--------|--------|
| 自然科学(CN) | 460-480 | 460 | 120-140 | 0 | 800+ |
| 人文科学(CH) | 540-560 | 540 | 100-120 | 0 | 800+ |
| 语言代码(LC) | 500-520 | 500 | 110-130 | 0 | 800+ |
| 数学(MT) | 440-460 | 440 | 130-150 | 0 | 800+ |
| 作文(Redação) | 400-440 | 420 | 140-160 | 0 | 1000 |

### 数据规模总结

本数据集总体规模庞大,包含以下关键统计:

- 总记录数:超过 260 万条记录
- 时间跨度:2010 年至 2019 年(10 年)
- 地理覆盖:巴西全国 27 个州,5,570 个城市
- ENEM 考生样本:每年 10K+500K 样本,5 年累计超过 250 万考生记录
- 字段数量:主数据集 76 个字段,ENEM 微数据 76+ 个字段
- 数据文件:43 个 CSV 文件
- 数据体积:原始 CSV 文件总计约 5GB+

## 数据优势

本数据集相较于其他教育数据资源,具有以下显著优势:

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 时间跨度长 | 涵盖 2010-2019 年共 10 年的连续数据 | 支持纵向研究、趋势分析、政策效果评估 |
| 地理覆盖全 | 覆盖巴西全部 27 个州、5,570 个城市 | 支持区域比较研究、地理空间分析、教育公平研究 |
| 数据维度丰富 | 包含人口、经济、教育、成绩、地理等多维度数据 | 支持多变量分析、因果关系研究、综合评估 |
| 微观宏观结合 | 既有个体考生微数据,又有汇总统计数据 | 支持多层次分析、从微观到宏观的跨层次研究 |
| 样本量大 | ENEM 微数据包含超过 250 万考生记录 | 支持机器学习、深度学习等大数据分析方法 |
| 数据质量高 | 来自巴西教育部和官方统计机构 | 数据可靠性高、口径一致、可比性强 |
| 标注信息完整 | ENEM 数据包含详细的社会经济背景问卷 | 支持教育公平、影响因素、群体差异研究 |
| 格式统一规范 | 所有数据均为结构化 CSV 格式 | 易于处理、分析、导入各种分析工具 |
| 包含地理坐标 | 提供城市级经纬度坐标 | 支持 GIS 分析、空间可视化、区域聚类 |
| 多教育阶段 | 涵盖幼儿教育到成人教育各阶段 | 支持全生命周期教育研究、教育体系分析 |

特别值得强调的是,本数据集包含完整的 ENEM 考试微数据,这是极其宝贵的研究资源。这些微数据不仅包含考生的各科目成绩,还包含了考生的个人特征(年龄、性别、种族)、社会经济背景(父母教育程度、家庭收入、居住地区)、学校信息(公立/私立、地理位置)、考试参与情况、答题情况、作文评分详情等丰富信息。这些详细的标注信息为深入理解教育成就的影响因素、分析教育不平等、开发个性化教育干预措施提供了坚实的数据基础。

此外,数据集将教育数据与人口统计、地理信息进行了有机整合,使得研究者可以在更广阔的社会经济背景下理解教育现象,进行跨学科的综合研究。

## 数据样例

以下展示数据集中部分具有代表性的样例,涵盖不同类型、不同年份、不同地区的数据记录,以展示数据的多样性和丰富性。

### 样例 1:主数据集 - 朗多尼亚州城市(2014 年)

年份:2014
州:RO(朗多尼亚州)
城市:ALTA FLORESTA D'OESTE
面积:7,067.025 km²
人口:25,652
幼儿入学:490 | 小学入学:4,145 | 中学入学:1,046
ENEM 成绩:CN=498.55, CH=555.7, LC=494.8, MT=463.2, 作文=410.0
综合平均分:484.45

### 样例 2:主数据集 - 圣保罗州城市(2014 年)

年份:2014
州:SP(圣保罗州)
城市:SAO PAULO
面积:1,521.11 km²
人口:11,895,893
幼儿入学:200,932 | 小学入学:553,762 | 中学入学:1,928,274
ENEM 成绩:CN=491.6, CH=569.0, LC=532.7, MT=479.6, 作文=520.0
综合平均分:518.58

### 样例 3:主数据集 - 里约热内卢州(2014 年)

年份:2014
州:RJ(里约热内卢州)
城市:RIO DE JANEIRO
面积:1,200.27 km²
人口:6,453,682
幼儿入学:58,206 | 小学入学:215,999 | 中学入学:599,482
ENEM 成绩:CN=486.5, CH=569.5, LC=529.8, MT=472.0, 作文=540.0
综合平均分:519.56

### 样例 4:ENEM 微数据样例(2014 年考生)

考生编号:140000100004
考试年份:2014
居住地:TERESINA, PI(皮奥伊州)
学校所在地:SAO PAULO, SP(圣保罗州)
年龄:23 岁 | 性别:女
学校类型:私立学校 | 毕业年份:2009
各科成绩:
  - 自然科学:636.80
  - 人文科学:657.10
  - 语言代码:573.40
  - 数学:698.20
  - 作文:800.0(满分)
综合总分:3,365.50

### 样例 5:ENEM 微数据样例(2014 年考生)

考生编号:140000100023
考试年份:2014
居住地:SALVADOR, BA(巴伊亚州)
年龄:19 岁 | 性别:女
学校类型:私立学校
各科成绩:
  - 自然科学:539.70
  - 人文科学:522.60
  - 语言代码:506.50
  - 数学:358.90
  - 作文:420.0
综合总分:2,347.70

### 样例 6:州级表现数据(2014 年)

年份:2014
州:São Paulo(圣保罗州)
区域:Sudeste(东南部)
面积:248,219.48 km²
人口:44,035,304
ENEM 参与人数:1,324,557
幼儿入学:2,009,321 | 小学:5,537,627 | 中学:1,928,274
中位成绩:CN=491.6, CH=569.0, LC=532.7, MT=479.6, 作文=520.0

### 样例 7:地理坐标数据

城市代码:1100015
经度:-61.9998239
纬度:-11.9355403
(对应城市:ALTA FLORESTA D'OESTE, RO)

### 样例 8-20:不同州的城市数据多样性展示

| 州 | 城市 | 人口 | 小学入学 | 中学入学 | ENEM 平均分 |
|---|------|------|---------|---------|-----------|
| AM | MANAUS | 2,063,547 | 387,375 | 189,948 | 470.1 |
| BA | SALVADOR | 2,886,698 | 504,824 | 562,012 | 472.5 |
| CE | FORTALEZA | 2,609,716 | 386,496 | 388,457 | 484.4 |
| DF | BRASILÍLIA | 2,852,372 | 88,219 | 110,591 | 511.0 |
| ES | VITÓRIA | 388,504 | 166,904 | 134,950 | 486.4 |
| GO | GOIÂNIA | 6,523,222 | 200,143 | 259,497 | 492.7 |
| MA | SÃO LUÍS | 6,850,884 | 339,586 | 311,618 | 475.0 |
| MG | BELO HORIZONTE | 20,734,097 | 707,892 | 796,167 | 514.5 |
| MS | CAMPO GRANDE | 2,619,657 | 112,279 | 99,328 | 479.9 |
| MT | CUIABÁ | 3,224,357 | 137,596 | 159,680 | 472.6 |
| PA | BELÉM | 8,073,924 | 293,899 | 359,736 | 474.8 |
| PB | JOÃO PESSOA | 3,943,885 | 141,499 | 138,252 | 482.7 |
| PE | RECIFE | 9,277,727 | 326,668 | 383,909 | 485.5 |
| PI | TERESINA | 3,194,718 | 137,763 | 137,773 | 476.5 |
| PR | CURITIBA | 11,081,692 | 400,136 | 476,207 | 484.5 |
| RJ | RIO DE JANEIRO | 16,461,173 | 582,067 | 599,482 | 514.5 |
| RN | NATAL | 3,408,510 | 143,133 | 135,609 | 491.7 |
| RO | PORTO VELHO | 1,748,531 | 48,780 | 65,223 | 472.0 |
| RR | BOA VISTA | 496,936 | 21,630 | 22,721 | 475.2 |

说明:以上样例仅展示了数据集的一小部分记录。实际数据集中包含超过 260 万条记录,涵盖巴西全国所有州和城市的完整数据。ENEM 微数据由于包含考生个人隐私信息,此处仅展示了脱敏后的样例,实际数据集中包含完整的考生个体记录。

## 应用场景

本数据集具有广泛的应用场景,适用于教育研究、政策分析、数据科学、机器学习等多个领域。以下是几个主要的应用场景:

### 应用场景一:教育质量评估与区域差异研究

本数据集为研究巴西教育质量的区域差异提供了理想的数据基础。研究者可以利用主数据集中的 ENEM 成绩数据,分析不同州、不同城市之间的教育质量差异。通过计算各地区的平均分、及格率、优秀率等指标,可以绘制巴西教育质量地图,识别教育发达地区和教育落后地区。

结合人口统计数据(如人口密度、城市化水平)和地理信息(如经纬度、面积),可以进一步分析影响教育质量的地理和人口学因素。例如,可以研究城市规模与教育质量的关系、人口密度对教育成就的影响、地理可达性与教育资源分配的关系等。

基于州级表现数据的 10 年时序数据,研究者可以进行纵向比较,分析各地区教育质量的变化趋势,评估教育政策的长期效果。这些研究结果对于制定差异化的教育政策、优化教育资源配置、促进教育公平具有重要的决策参考价值。

### 应用场景二:教育公平与社会经济影响因素分析

ENEM 微数据包含详细的社会经济背景问卷信息,为研究教育公平问题提供了宝贵的数据资源。研究者可以分析考生的家庭背景(父母教育程度、家庭收入)、个人特征(性别、种族、年龄)、学校类型(公立/私立)等因素对考试成绩的影响。

通过建立多元回归模型、结构方程模型等统计模型,可以量化各种因素对教育成就的影响程度,识别教育不平等的根源。例如,可以研究公立学校与私立学校学生的成绩差距、不同种族群体之间的教育机会差异、家庭社会经济地位对教育成就的代际传递效应等。

这类研究对于制定促进教育公平的政策措施、设计针对弱势群体的教育扶持项目、评估反歧视政策的效果具有重要的现实意义。

### 应用场景三:机器学习与教育预测模型开发

本数据集包含超过 250 万条 ENEM 考生记录,是训练机器学习模型的理想大数据资源。可以利用这些数据开发多种教育预测模型,如:

成绩预测模型:基于考生的个人特征、学校信息、历史成绩等,预测其在 ENEM 考试中的表现。这类模型可以帮助学生了解自身的学习状况,为备考提供个性化建议。升学概率预测:结合 ENEM 成绩和高等院校的录取分数线,预测考生被心仪大学录取的概率。这可以为考生的志愿填报提供数据驱动的决策支持。辍学风险预警:基于学生的在校表现、出勤率、成绩变化等数据,识别有辍学风险的学生,提前进行干预。这对于提高教育完成率、降低辍学率具有积极作用。教育资源需求预测:基于人口数据和入学率趋势,预测未来各地区、各教育阶段的学位需求,为教育基础设施规划提供依据。

### 应用场景四:教育政策效果评估

本数据集涵盖 2010-2019 年共 10 年的数据,为评估教育政策的长期效果提供了理想的研究窗口。研究者可以利用双重差分法(DID)、断点回归(RDD)等因果推断方法,评估特定教育政策的实施效果。

例如,可以评估巴西联邦政府的教育投资计划(如 FUNDEB 教育基金)对各州教育质量的影响、分析教师培训计划对学生成绩的溢出效应、研究学校基础设施改善项目的效果、评估奖学金和助学金政策对低收入家庭学生升学率的影响等。

这类政策评估研究对于优化教育政策设计、提高教育投资效率、促进教育可持续发展具有重要的决策支持价值。

### 应用场景五:地理空间分析与教育资源优化配置

结合地理坐标数据和教育统计数据,可以进行深入的地理空间分析。利用 GIS(地理信息系统)技术,可以绘制教育资源的地理分布图,分析学校布局的合理性、识别教育资源匮乏的"教育荒漠"地区。

通过空间计量经济学模型,可以研究教育资源的溢出效应、分析邻近地区教育发展的相互影响、识别教育发展的空间集聚模式。这些分析结果对于优化学校布局、合理规划教育基础设施、促进区域教育协调发展具有重要的应用价值。

此外,还可以结合交通网络数据、人口流动数据,分析学生的通学距离、评估学校可达性、优化校车路线等,为提高教育服务的便利性提供数据支持。

### 应用场景六:教育统计指标体系构建与监测

基于本数据集的丰富指标,可以构建 comprehensive 的教育统计指标体系,用于监测和评估教育发展状况。指标体系可以涵盖教育投入(如生均经费、教师配备)、教育过程(如师生比、校均规模)、教育产出(如考试成绩、毕业率)、教育公平(如不同群体入学机会差异)等多个维度。

利用这些指标,可以编制教育发展指数、教育公平指数、教育质量指数等综合指数,为政府、研究机构、社会公众提供直观的教育发展监测工具。这些指数可以用于地区间的横向比较、不同时期的纵向比较,为教育决策提供量化依据。

## 结尾总结

本数据集是一个全面、系统、高质量的巴西教育研究数据资源,涵盖了 2010-2019 年期间巴西全国 27 个州、5,570 个城市的多维度教育数据。数据集的核心价值体现在以下几个方面:

数据完整性:数据集整合了 ENEM 考试成绩、基础教育统计、人口数据、地理信息等多种数据源,形成了一个完整的教育数据生态系统。特别是包含超过 250 万条 ENEM 考生微数据记录,这是极其宝贵的研究资源。时间跨度长:10 年的连续数据为纵向研究、趋势分析、政策效果评估提供了理想的数据基础。研究者可以追踪教育发展的动态变化,识别长期趋势,评估政策的滞后效应。地理覆盖广:覆盖巴西全国所有州和城市,支持区域比较研究、地理空间分析、教育公平研究。无论是宏观的州级分析,还是微观的城市级分析,都能得到充分的数据支持。数据质量高:所有数据均来自巴西教育部和官方统计机构,数据可靠性高、统计口径一致、时间序列可比性强。这为严谨的学术研究提供了坚实的数据基础。应用前景广阔:数据集适用于教育经济学、教育社会学、教育政策学、教育测量与评价、地理教育学等多个学科领域的研究,也适用于机器学习、数据科学等前沿技术的应用开发。

需要特别说明的是,本数据集包含完整的 ENEM 考试微数据,这些微数据由于包含考生个人隐私信息,在使用时需要遵守相关的数据保护和隐私法规。建议研究者在合法合规的前提下使用这些数据,确保数据安全和个人隐私保护。

本数据集对于希望研究巴西教育、拉美教育、教育公平、教育评估、教育大数据应用的研究者、政策制定者、数据科学家来说,是一个不可多得的宝贵资源。无论是进行学术研究、政策分析、商业应用还是技术开发,本数据集都能提供强有力的数据支持。

有需要可私信获取更多信息或数据访问方式。

---

数据集版本:2024 版 数据更新时间:2024 年 数据格式:CSV(逗号分隔/分号分隔) 适用领域:教育研究、政策分析、数据科学、机器学习、地理空间分析

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
巴西 2010-2019 年教育统计与 ENEM 考试成绩综合数据集:覆盖 27 州 5570 城市、包含百万级考生微数据与基础教育指标的多维度教育研究数据资源
29
1.66GB
申请报告