online

PubMedVision 医疗多模态评估数据集

医疗多模态评估数据集

￥4,899

2.31GB

数据标识：D17823964811965201

发布时间：2026/06/25

# PubMedVision医疗多模态评估数据集

## 引言与背景

随着人工智能技术在医疗领域的快速发展，医疗多模态大语言模型（Multimodal Large Language Models, MLLMs）已成为医学影像分析、辅助诊断和医学知识问答等领域的重要研究方向。然而，评估这些模型在医疗场景下的性能需要高质量、大规模的医疗多模态数据集作为支撑。PubMedVision医疗多模态评估数据集正是为满足这一需求而构建的综合性评估基准，旨在为医疗多模态大语言模型提供标准化的评估框架。

该数据集整合了六个权威医疗视觉问答（VQA）基准，包括VQA-RAD、SLAKE、PathVQA、PMC-VQA、OmniMedVQA和MMMU-Medical-Tracks，共计17,303条标注样本。数据集包含完整的原始医学影像文件（以images.zip形式提供）以及对应的问答对、选项和标准答案，形成了一套完整的医疗多模态评估体系。这些数据覆盖了多种医学影像模态，包括核磁共振成像（MRI）、计算机断层扫描（CT）、X射线、超声、皮肤镜、眼底摄影、光学相干断层扫描（OCT）和显微镜图像等，能够全面评估模型在不同医学影像类型上的理解能力。

PubMedVision数据集的核心价值在于为医疗多模态大模型提供了统一的评估基准。通过该数据集，研究人员可以系统地评估模型在医学影像识别、病变检测、解剖结构定位、医学知识问答等多个维度的性能，从而推动医疗AI技术的进步。该数据集已被HuatuoGPT-Vision等领先医疗多模态模型采用，成为衡量模型医疗视觉能力的重要参考标准。

## 数据基本信息

### 数据字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| question | 字符串 | 针对医学影像的问题描述 | "What can be observed in this image?" | 100.00% |
| image | 数组 | 关联的医学影像文件路径列表 | ["images/ankle071718.png"] | 100.00% |
| options | 数组 | 问题的候选答案选项列表 | ["Shin splints", "Tennis elbow", "Plantar fascia pathology", "Meniscal tear"] | 99.97% |
| answer | 字符串 | 问题的正确答案 | "Plantar fascia pathology" | 100.00% |
| dataset | 字符串 | 数据来源的基准数据集名称 | "OmniMedVQA" | 100.00% |
| subset | 字符串 | 数据所属的影像类型子集 | "MR (Magnetic Resonance Imaging)" | 65.16% |

### 数据集来源分布

| 数据集来源 | 记录数量 | 占比 |
|-----------|---------|------|
| OmniMedVQA | 11,124 | 64.29% |
| PathVQA_test | 3,362 | 19.43% |
| PMC-VQA_test | 2,000 | 11.56% |
| SLAKE_test | 416 | 2.40% |
| VQA-RAD_test | 251 | 1.45% |
| MMMU_Medical_Validation | 150 | 0.87% |

### 医学影像类型分布

| 影像类型 | 记录数量 | 占比 |
|---------|---------|------|
| 未分类 | 6,029 | 34.84% |
| 核磁共振成像（MRI） | 4,040 | 23.35% |
| 计算机断层扫描（CT） | 1,991 | 11.51% |
| 超声 | 1,354 | 7.83% |
| X射线 | 1,019 | 5.89% |
| 皮肤镜 | 796 | 4.60% |
| 显微镜图像 | 728 | 4.21% |
| 眼底摄影 | 626 | 3.62% |
| 光学相干断层扫描（OCT） | 570 | 3.29% |

### 图像文件格式分布

| 文件格式 | 记录数量 | 占比 |
|---------|---------|------|
| PNG | 8,717 | 50.36% |
| JPG | 7,509 | 43.38% |
| JPEG | 714 | 4.12% |
| TIFF | 313 | 1.81% |
| BMP | 58 | 0.34% |

### 数据规模概述

PubMedVision数据集共包含17,303条标注样本，每条样本均包含问题、影像路径、候选选项和标准答案四个核心要素。数据集覆盖6个权威医疗VQA基准，涵盖9种主要医学影像类型，支持多种图像格式。答案长度从1个字符到307个字符不等，平均长度约为14个字符，表明数据集中既包含简单的二选一问题，也包含需要详细描述的诊断类问题。

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 多数据源整合 | 整合VQA-RAD、SLAKE、PathVQA、PMC-VQA、OmniMedVQA、MMMU-Medical-Tracks六个权威基准 | 提供统一评估框架，避免单独评估多个数据集的繁琐流程 |
| 多模态影像覆盖 | 包含MRI、CT、X射线、超声、皮肤镜、眼底摄影、OCT、显微镜图像等9种医学影像类型 | 全面评估模型在不同医学影像模态下的理解能力 |
| 完整原始图像文件 | 配套images.zip包含全部医学影像文件，支持实际图像分析 | 可用于模型训练和推理阶段的端到端测试，验证模型真实性能 |
| 高质量标注信息 | 每个样本均有专业标注的问题、选项和标准答案 | 确保评估结果的准确性和可靠性，支持精确的模型性能对比 |
| 标准化评估格式 | 统一的JSON数据格式，便于程序化处理和评估脚本开发 | 降低评估门槛，加速模型迭代和优化过程 |
| 大规模数据量 | 17,303条标注样本，覆盖多种医学场景和问题类型 | 提供充足的数据支持，确保评估结果具有统计学意义 |

## 数据样例

注意：本文章仅展示元数据样例，实际数据集中包含完整的原始医学影像文件（images.zip）可供使用。

以下为15条元数据样例，涵盖不同数据集来源和影像类型：

### 样例1：MRI影像 - 踝关节病变

- 问题：What can be observed in this image?
- 图像：images/ankle071718.png
- 选项：Shin splints / Tennis elbow / Plantar fascia pathology / Meniscal tear
- 答案：Plantar fascia pathology
- 来源：OmniMedVQA
- 影像类型：MR (Magnetic Resonance Imaging)

### 样例2：病理图像 - 心血管检测

- 问题：is cardiovascular present?
- 图像：images/RADvqa_test_848.jpg
- 选项：yes / no
- 答案：yes
- 来源：PathVQA_test
- 影像类型：（未分类）

### 样例3：皮肤镜 - 黑色素细胞痣

- 问题：What is the specific skin anomaly exhibited in this picture?
- 图像：images/ISIC_0068448.jpg
- 选项：Melanocytic nevus / Squamous cell carcinoma / Psoriasis / Rosacea
- 答案：Melanocytic nevus
- 来源：OmniMedVQA
- 影像类型：Dermoscopy

### 样例4：超声 - 胰腺识别

- 问题：What part is shown in this ultrasound image?
- 图像：images/usn361077.png
- 选项：Adrenal gland / Bone / pancreas / Thyroid gland
- 答案：pancreas
- 来源：OmniMedVQA
- 影像类型：ultrasound

### 样例5：CT扫描 - 肺部病变

- 问题：What is the designation of the anomaly shown in the visual representation?
- 图像：images/lung078317.png
- 选项：Nodule formation / Pulmonary embolism / Airspace opacity / Pleural effusion
- 答案：Airspace opacity
- 来源：OmniMedVQA
- 影像类型：CT(Computed Tomography)

### 样例6：OCT - 黄斑裂孔

- 问题：What is the demonstrated anomaly in this image?
- 图像：images/mh_test_1110.jpg
- 选项：Astigmatism / Drusen / Retinal detachment / Diabetic retinopathy
- 答案：Drusen
- 来源：OmniMedVQA
- 影像类型：OCT (Optical Coherence Tomography)

### 样例7：X射线 - COVID-19检测

- 问题：What medical condition does this image represent?
- 图像：images/person1669_virus_2885.jpeg
- 选项：Pneumonia / Emphysema / Common cold / Sinusitis
- 答案：Pneumonia
- 来源：OmniMedVQA
- 影像类型：X-Ray

### 样例8：眼底摄影 - 眼轴方向

- 问题：What is the orientation (horizontal or vertical) of the eye axis in this image?
- 图像：images/test_1641.png
- 选项：Diagonal eye axis / Curved eye axis / Oblique eye axis / Transverse eye axis
- 答案：Transverse eye axis
- 来源：OmniMedVQA
- 影像类型：Fundus Photography

### 样例9：显微镜图像 - 乳腺病理

- 问题：What does this image show?
- 图像：images/SOB_B_F-14-29960AB-100-003.png
- 选项：Benign skin histopathology / Malignant prostate histopathology / Benign breast histopathology / Inflammatory bowel histopathology
- 答案：Benign breast histopathology.
- 来源：OmniMedVQA
- 影像类型：Microscopy Images

### 样例10：PMC-VQA - 膀胱造影

- 问题： Where does the contrast track into?
- 图像：images/PMC8672462_Fig3.jpg
- 选项：The bladder on the right side / The bladder on the left side / The ureters on the left side / The vagina on the right side
- 答案：The vagina on the right side
- 来源：PMC-VQA_test
- 影像类型：（未分类）

### 样例11：SLAKE - 腹部检查确认

- 问题：Is this a study of the abdomen?
- 图像：images/xmlab543_source.jpg
- 选项：No / Yes
- 答案：Yes
- 来源：SLAKE_test
- 影像类型：（未分类）

### 样例12：VQA-RAD - 肠道气体检测

- 问题：is air present in the bowels?
- 图像：images/RADvqa_test_230.jpg
- 选项：yes / no
- 答案：yes
- 来源：VQA-RAD_test
- 影像类型：（未分类）

### 样例13：MMMU验证集 - 公共卫生

- 问题：What type of medical imaging was utilized for this image to be obtained?
- 图像：images/knee132314.png
- 选项：Mammography / Ultrasound / Angiography / MRI
- 答案：MRI
- 来源：MMMU_Medical_Validation
- 影像类型：MR (Magnetic Resonance Imaging)

### 样例14：PathVQA - 肺囊性纤维化

- 问题：does this image show lung, cystic fibrosis?
- 图像：images/RADvqa_test_5666.jpg
- 选项：yes / no
- 答案：yes
- 来源：PathVQA_test
- 影像类型：（未分类）

### 样例15：MRI - 脊柱椎间盘病变

- 问题：What can be observed in this image?
- 图像：images/spine017099.png
- 选项：Disc pathology / Bone fracture / Tissue inflammation / Muscular dystrophy
- 答案：Disc pathology
- 来源：OmniMedVQA
- 影像类型：MR (Magnetic Resonance Imaging)

## 应用场景

### 医疗多模态大语言模型评估

PubMedVision数据集的核心应用场景是医疗多模态大语言模型的性能评估。随着GPT-4V、HuatuoGPT-Vision等多模态模型的出现，如何系统地评估这些模型在医疗领域的能力成为重要课题。该数据集提供了标准化的评估基准，研究人员可以通过在数据集上运行模型并计算准确率、F1分数等指标，来量化模型的医学影像理解能力。评估内容涵盖病变识别、解剖结构定位、影像模态判断、病理特征描述等多个维度，能够全面反映模型的医疗视觉智能水平。通过对比不同模型在该数据集上的表现，研究人员可以发现模型的优势和不足，从而指导模型的优化和改进。

### 医学影像诊断辅助系统开发

该数据集可用于开发和优化医学影像诊断辅助系统。传统的医学影像分析模型通常针对单一模态或单一任务，而PubMedVision数据集涵盖了多种医学影像类型和多样化的诊断问题，为开发通用的医学影像诊断系统提供了丰富的数据支持。开发人员可以利用该数据集训练能够处理多种医学影像的统一模型，实现从图像输入到诊断结论的端到端推理。例如，模型可以根据输入的MRI图像回答关于病变位置、类型和严重程度的问题，为临床医生提供诊断参考。此外，数据集中的选项信息还可以用于开发交互式诊断辅助工具，帮助医生在多个候选诊断中做出更准确的判断。

### 医学教育与培训

PubMedVision数据集在医学教育领域也具有重要应用价值。医学生和年轻医生需要通过大量的医学影像案例来培养和提升影像诊断能力，但实际临床中的病例资源有限且获取困难。该数据集提供了数千个标注完整的医学影像案例，涵盖各种常见疾病和影像学表现，可作为医学教育的辅助教材。教育工作者可以利用这些数据开发在线学习平台，让学生通过问答形式学习和巩固医学影像知识。此外，数据集还可以用于评估医学生的影像诊断能力，通过对比学生的回答与标准答案，找出知识薄弱环节并进行针对性训练。

### 医疗AI算法研究与创新

作为大规模的医疗多模态数据集，PubMedVision为医疗AI算法研究提供了宝贵的实验资源。研究人员可以基于该数据集开展多种类型的算法研究，包括但不限于：医学影像分类、目标检测、语义分割、图像生成、视觉问答等。特别是在视觉问答领域，数据集提供了丰富的问题类型和答案形式，支持开放式问答和多项选择题等不同任务形式的研究。此外，数据集的多模态特性还为跨模态学习、知识蒸馏、迁移学习等前沿研究方向提供了实验基础。研究人员可以探索如何将医学文本知识与影像特征相结合，提升模型的诊断准确性和可解释性。

### 医疗数据标准化与质量控制

PubMedVision数据集的构建过程本身就是医疗数据标准化的实践。数据集整合了六个不同来源的医疗VQA数据集，通过统一的数据格式和标注规范，解决了不同数据集之间的兼容性问题。这种标准化的方法为医疗数据的管理和共享提供了参考范例。在实际应用中，医疗机构和数据平台可以借鉴这种标准化思路，建立统一的数据采集和标注规范，提高医疗数据的质量和可用性。此外，数据集的高质量标注也为医疗数据标注的质量控制提供了标准，有助于推动医疗AI领域的数据标注行业规范化发展。

## 结尾

PubMedVision医疗多模态评估数据集是一个综合性的医疗视觉问答基准，整合了六个权威医疗VQA数据集，共计17,303条标注样本。数据集涵盖MRI、CT、X射线、超声、皮肤镜、眼底摄影、OCT和显微镜图像等9种医学影像类型，包含完整的原始图像文件和高质量的问答标注，为医疗多模态大语言模型的评估提供了全面、标准化的测试平台。

该数据集的核心优势在于其多源整合、多模态覆盖和完整原始文件的特性，使其不仅适用于模型评估，还可用于医学影像诊断辅助系统开发、医学教育、算法研究等多个领域。作为HuatuoGPT-Vision等领先医疗多模态模型的评估基准，PubMedVision正在成为衡量医疗AI模型视觉能力的重要参考标准。

数据集采用Apache-2.0开源许可，研究人员可自由使用和分发。如需获取完整数据集（包括images.zip），可参考项目相关资源。如有需要可私信获取更多信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

PubMedVision 医疗多模态评估数据集

￥4,899

2.31GB

申请报告

PubMedVision 医疗多模态评估数据集

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群