Li

verify-tag高校学生综合数据集(含学业 行为 风险标签)早期干预 个性化支持建模适配

高校学生数据集AI 教育管理数据学业行为记录人口统计特征LMS 参与度风险等级标签学生画像建模干预规划分析个性化学习支持多维度融合

1.99

已售 0
29.5KB

数据标识:D17519598354974645

发布时间:2025/07/08

数据描述

本数据集专为高等教育领域 AI 驱动的教育管理系统研发设计,包含匿名化学生记录,融合三大核心维度:人口统计信息(年龄、性别、专业等)、学业表现数据(GPA、课程负荷、平均成绩、出勤率等)、学习管理系统(LMS)行为指标(登录次数、会话时长、作业提交率等),并附带用于早期干预的风险等级标签(低 / 中 / 高)。数据支持构建学生画像模型、学术预警系统及个性化学习支持工具,帮助高校通过 AI 技术精准识别学生需求,优化教育管理策略。

产品基本信息

● 数据规模:包含数千条匿名学生记录(具体数量未明确,涵盖多专业、多年级)
● 核心字段说明:

  • 人口统计student_id(唯一标识)、age(年龄)、gender(性别)、major(专业)
  • 学业记录GPA(累积平均绩点)、course_load(注册课程数)、avg_course_grade(课程平均成绩)、attendance_rate(出勤率)、enrollment_status(注册状态)
  • 行为参与度lms_logins_past_month(近一月 LMS 登录次数)、avg_session_duration_minutes(平均会话时长)、assignment_submission_rate(作业按时提交率)、forum_participation_count(论坛参与次数)、video_completion_rate(视频完成率)
  • 风险标签risk_level(风险等级:Low/Medium/High,预测建模目标变量)
    ● 数据特性:已匿名化处理(无个人敏感信息),字段格式标准化(数值型 / 分类型清晰区分)
    ● 适用工具:Python(scikit-learn/tensorflow)、R(caret)、SPSS 等(支持机器学习建模与统计分析)

产品使用说明

  1. 数据预处理
    • 缺失值处理:对lms_logins_past_month等可能存在的缺失值,用专业均值或中位数填充。
    • 特征转换:将gender(分类变量)转换为独热编码,risk_level(有序分类)转换为数值标签(Low=0,Medium=1,High=2)。
    • 异常值处理:过滤avg_course_grade(如 > 100 分)、avg_session_duration_minutes(如 > 1000 分钟)等异常值。
  2. 建模应用步骤
    • 风险预测模型
      1. 特征选择:选取lms_logins_past_monthassignment_submission_rateattendance_rate作为核心特征。
      2. 模型训练:使用随机森林或 XGBoost 算法,以risk_level为目标变量,划分训练集(70%)与测试集(30%)。
      3. 评估优化:通过混淆矩阵计算精确率、召回率,重点提升 “高风险” 学生的识别率(避免漏判)。
    • 学生行为分析
      1. 计算video_completion_rateavg_course_grade的相关性,验证视频学习对成绩的影响。
      2. major分组,对比不同专业学生的forum_participation_count差异(如文科 vs 理工科)。
  3. 使用限制
    • 数据为匿名化记录,无法关联真实学生身份,仅用于系统研发与学术研究。
    • 风险标签基于历史数据标注,需结合高校实际教学场景调整模型阈值(如不同专业的 “高风险” 定义可能不同)。

应用场景

  1. 学业风险预测:以 LMS 登录次数、作业提交率为特征,构建分类模型预测学生风险等级(高 / 中 / 低),提前介入干预。
  2. 学生画像构建:融合人口统计与行为数据,生成 “高参与度低成绩”“低登录高论坛活跃度” 等细分群体画像,辅助学术咨询。
  3. 个性化学习支持:分析视频完成率与课程成绩的关联性,为不同专业学生推荐适配的学习资源(如理工科侧重视频学习,文科侧重论坛讨论)。
  4. 教育管理优化:通过出勤率、课程负荷与风险等级的关联分析,调整教学安排(如为高负荷学生增加辅导场次)。

相似数据

2025年南卡罗来纳州房地产数据 listings 数据集(含 8 大核心维度)房价预测 类型分类 投资分析

美国运通校园挑战数据集(含 55 列全维度)产品赛道建模 行为分析 转化计算适配

CC0 公共领域Spotify 用户收听历史数据集(14.9 万条播放记录)音乐行为数据集、播放历史数据、用户偏好建模


产品来源

数据来源于多所高校公开的匿名化学生记录,经以下流程构建:

  1. 数据采集:从合作高校的 LMS 系统、教务管理系统提取学业成绩与行为指标(已去除个人敏感信息)。
  2. 标签标注:由教育专家团队根据 “成绩下滑幅度”“出勤率”“干预记录” 等因素,人工标注risk_level(低 / 中 / 高)。
  3. 标准化处理:统一字段格式(如attendance_rate转换为 0-100%),去除跨校差异(如 GPA 计算标准统一)。
  4. 合规审核:通过数据伦理委员会审查,确保符合教育数据使用规范,仅限非商业性研发与研究。
 
 

验证报告

以下为卖家选择提供的数据验证报告:

data icon
高校学生综合数据集(含学业 行为 风险标签)早期干预 个性化支持建模适配
1.99
已售 0
29.5KB
申请报告