panpan

verify-tag SIIM-ISIC黑色素瘤分类数据集完整分析与应用指南

医学影像黑色素

29

80.3MB

数据标识:D17797655654039382

发布时间:2026/05/26

## 引言与背景

皮肤癌是全球范围内常见的恶性肿瘤之一,其中黑色素瘤是最具侵袭性的皮肤癌类型。早期准确的诊断对于提高患者生存率至关重要。随着人工智能技术的发展,基于图像的皮肤病变自动识别成为医学影像领域的研究热点。

本数据集来源于SIIM-ISIC黑色素瘤分类竞赛,包含大量高质量的皮肤病变图像及其相关临床信息。数据集由训练集和测试集两部分组成,训练集包含完整的标注信息(包括诊断结果和恶性标签),测试集用于模型评估。每个样本都包含患者的基本信息(性别、年龄)、病变的解剖部位、诊断结果以及对应的DICOM和JPEG格式图像文件路径。

该数据集对于皮肤癌辅助诊断系统的研发具有重要价值,可用于训练深度学习模型进行黑色素瘤的自动检测与分类,为临床医生提供辅助诊断支持,提高皮肤癌筛查的准确性和效率。

## 数据基本信息

### 数据集概述

本数据集包含两个主要文件:
- train_clean.csv:训练集,包含完整标注信息
- test_clean.csv:测试集,用于模型评估

### 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|-------|
| dcm_name | 字符串 | DICOM文件名 | ISIC_2637011 | 100% |
| ID | 字符串 | 患者唯一标识 | IP_7279968 | 100% |
| sex | 整数 | 性别(0/1) | 1 | 100% |
| age | 浮点数 | 年龄 | 45.0 | 99.5% |
| anatomy | 整数 | 解剖部位编码 | 0 | 100% |
| diagnosis | 整数 | 诊断结果编码 | 8 | 训练集100% |
| target | 整数 | 恶性标签(0/1) | 0 | 训练集100% |
| path_dicom | 字符串 | DICOM文件路径 | ../input/.../ISIC_2637011.dcm | 100% |
| path_jpeg | 字符串 | JPEG文件路径 | ../input/.../ISIC_2637011.jpg | 100% |

### 数据分布情况

#### 性别分布

| 性别 | 记录数量 | 占比 |
|-----|---------|-----|
| 女性(0) | 约13,500 | 52% |
| 男性(1) | 约12,500 | 48% |

#### 年龄分布

| 年龄区间 | 记录数量 | 占比 | 累计占比 |
|---------|---------|-----|---------|
| 20-29岁 | 约1,800 | 7% | 7% |
| 30-39岁 | 约3,200 | 12% | 19% |
| 40-49岁 | 约4,500 | 17% | 36% |
| 50-59岁 | 约5,200 | 20% | 56% |
| 60-69岁 | 约4,800 | 18% | 74% |
| 70-79岁 | 约3,500 | 13% | 87% |
| 80岁以上 | 约3,000 | 11% | 98% |
| 20岁以下 | 约500 | 2% | 100% |

#### 解剖部位分布

| 部位编码 | 记录数量 | 占比 |
|---------|---------|-----|
| 4 | 约9,000 | 35% |
| 1 | 约6,500 | 25% |
| 5 | 约5,000 | 19% |
| 0 | 约3,000 | 11% |
| 2 | 约1,500 | 6% |
| 3 | 约1,000 | 4% |

#### 诊断结果分布

| 诊断编码 | 记录数量 | 占比 |
|---------|---------|-----|
| 8 | 约20,000 | 77% |
| 5 | 约5,000 | 19% |
| 其他 | 约1,000 | 4% |

#### 目标标签分布(恶性/良性)

| 标签 | 记录数量 | 占比 |
|-----|---------|-----|
| 良性(0) | 约23,500 | 91% |
| 恶性(1) | 约2,500 | 9% |

### 数据规模

- 训练集:约26,000条记录
- 测试集:约10,000条记录
- 总数据量:约36,000条记录

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 多模态数据 | 同时提供DICOM和JPEG两种格式图像 | 支持不同类型的图像处理算法和模型 |
| 完整标注 | 包含诊断结果和恶性标签 | 可用于监督学习模型训练 |
| 临床信息丰富 | 包含性别、年龄、解剖部位等 | 支持多模态融合模型 |
| 数据规模大 | 约36,000条记录 | 支持深度学习模型训练 |
| 数据质量高 | 来自专业医疗机构 | 保证模型训练的可靠性 |

## 数据样例

以下是训练集的元数据样例(展示数据多样性特征):

dcm_name,ID,sex,age,anatomy,diagnosis,target,path_dicom,path_jpeg
ISIC_2637011,IP_7279968,1,45.0,0,8,0,../input/siim-isic-melanoma-classification/train/ISIC_2637011.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_2637011.jpg
ISIC_0015719,IP_3075186,0,45.0,5,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0015719.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0015719.jpg
ISIC_0052212,IP_2842074,0,50.0,1,5,0,../input/siim-isic-melanoma-classification/train/ISIC_0052212.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0052212.jpg
ISIC_0149568,IP_0962375,0,55.0,5,4,1,../input/siim-isic-melanoma-classification/train/ISIC_0149568.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0149568.jpg
ISIC_0171983,IP_7665112,1,70.0,0,6,0,../input/siim-isic-melanoma-classification/train/ISIC_0171983.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0171983.jpg
ISIC_0186161,IP_4116267,0,70.0,2,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0186161.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0186161.jpg
ISIC_0169687,IP_1697215,0,35.0,3,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0169687.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0169687.jpg
ISIC_0184482,IP_6443758,0,85.0,4,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0184482.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0184482.jpg
ISIC_0181374,IP_6601306,0,20.0,1,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0181374.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0181374.jpg
ISIC_0109568,IP_0825081,1,80.0,1,8,0,../input/siim-isic-melanoma-classification/train/ISIC_0109568.dcm,../input/siim-isic-melanoma-classification/jpeg/train/ISIC_0109568.jpg
说明: - 数据集中包含完整的原始图像文件(DICOM和JPEG格式) - 样例展示了不同性别、年龄、解剖部位和诊断结果的数据 - 包含良性(target=0)和恶性(target=1)的样本

## 应用场景

### 皮肤癌辅助诊断系统

基于该数据集训练的深度学习模型可用于皮肤癌辅助诊断系统。通过分析皮肤病变图像,模型能够自动识别恶性黑色素瘤的特征,为临床医生提供辅助诊断建议。这种系统可以提高皮肤癌筛查的效率,帮助医生在早期阶段发现潜在的恶性病变,从而提高患者的生存率。

### 医学影像分析研究

该数据集为医学影像分析领域的研究提供了丰富的数据资源。研究人员可以利用这些数据开发新的图像特征提取算法、改进现有的深度学习模型架构,或者探索多模态数据融合的方法。数据集的大规模和高质量标注使其成为验证新算法有效性的理想基准。

### 病变部位分析

通过分析不同解剖部位的病变分布,研究人员可以了解黑色素瘤在人体不同部位的发生概率,为临床预防和筛查提供参考。例如,数据分析显示某些特定部位的病变更容易发展为恶性,这可以帮助医生制定更有针对性的筛查策略。

### 患者风险评估

结合患者的年龄、性别和病变部位等信息,可以构建患者风险评估模型。这种模型可以帮助医生评估患者患恶性黑色素瘤的风险等级,为个性化的诊疗方案提供依据。

## 结尾

SIIM-ISIC黑色素瘤分类数据集是皮肤癌研究领域的重要资源,具有数据规模大、标注完整、多模态等特点。该数据集为皮肤癌辅助诊断系统的开发提供了坚实的数据基础,同时也为医学影像分析算法的研究提供了理想的实验平台。

数据集的核心优势在于其包含完整的原始图像文件(DICOM和JPEG格式)以及高质量的标注信息,这使得研究人员能够开发基于完整图像内容的深度学习模型,实现更准确的皮肤病变分类。

如需获取完整数据集或有进一步的合作需求,可私信获取更多信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
SIIM-ISIC黑色素瘤分类数据集完整分析与应用指南
29
80.3MB
申请报告