该数据集提供了一个基于合成患者病例的医疗诊断数据集 。它旨在研究症状 、 前因 、 疾病与鉴别诊断之间的关系。
⚠ 需要注意的是,该数据集为合成数据, 仅供研究和教育用途 。
数据集目标
该数据集的主要目标是支持基于症状的疾病预测和鉴别诊断推理的机器学习模型的开发和评估。该数据集可以帮助用户探索如何利用患者证据预测疾病、排序可能诊断以及分析医疗决策模式。
数据集包含内容
该数据集包含与诊断任务相关的医疗信息的合成患者记录。
包括:
- 患者人口统计信息
- 患者报告的症状
- 前因与风险相关的证据
- 实地真病标签
- 鉴别诊断候选人
- 可能疾病的概率评分
- 症状、前因、疾病及证据值的元数据
数据集采用关系型 CSV 格式组织,便于与 Python、pandas、机器学习模型和数据分析工作流程使用。
数据处理摘要
原始数据集结构被重新组织为更简洁、更易访问的格式,方便用户使用。
预处理重点包括:
- 保留原始列车、验证和测试分割
- 区分症状与前因
- 提取疾病元数据
- 在有证据值时解码
- 将患者证据转换为长格式表格
- 将鉴别诊断列表转换为结构化排名格式
在此过程中没有人工创造新的医疗病例。工作主要集中在清理、重组和准备数据集以便更便捷的机器学习使用。
可能的使用场景
该数据集可用于多种机器学习和数据科学任务,例如:
- 疾病预测
- 基于症状的分类
- 多类别医学诊断
- 鉴别诊断排名
- Top-k 疾病预测
- 医疗推荐系统
- 可解释的人工智能实验
- 医疗数据分析
- 合成患者建模
- 教育医学人工智能项目
它还可以用于比较经典机器学习模型、深度学习模型和基于排名的方法。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:

症状到疾病医学数据集
2GB
申请报告





