数据描述
本数据集是机器学习和医学成像研究中广泛使用的基准数据集,基于细针穿刺(FNA)活检的乳腺组织数字化图像计算特征,共包含 569 个样本。其中恶性(M)样本 212 个,良性(B)样本 357 个,无缺失值。涵盖 30 个数字特征,源自 10 个细胞特征(半径、纹理、周长等)的三种统计值(平均值、标准误差、最差值),可用于构建肿瘤恶性与良性的二元分类模型,为乳腺癌诊断相关研究提供可靠数据支撑。
产品基本信息
- 数据规模:包含 569 个样本,其中恶性 212 个、良性 357 个。
- 特征构成:30 个数字特征,分为 10 个细胞特征(半径、纹理、周长、面积、平滑度等)的平均值、标准误差、最差值(最大)三类统计值。
- 目标变量:肿瘤类型,分为恶性(M)和良性(B)。
- 数据特点:无缺失值,特征源自图像分析,是二元分类任务的经典基准数据。
- 核心用途:用于机器学习二元分类模型训练、医学成像特征分析、乳腺癌诊断辅助研究等。
产品使用说明
- 数据预处理:对 30 个数值特征进行标准化或归一化处理(如使用 Min-Max 缩放或 Z-score 标准化),消除量纲差异对模型的影响;将目标变量(M/B)转换为二进制标签(如 1/0),便于模型识别。
- 模型训练:将数据集按比例划分为训练集和测试集,选择合适的机器学习算法(如逻辑回归、支持向量机、随机森林、神经网络等),以 30 个特征为输入,肿瘤类型为目标变量,训练二元分类模型。
- 模型评估:通过测试集计算模型的准确率、精确率、召回率、F1 值、ROC 曲线下面积(AUC)等指标,评估模型对恶性 / 良性肿瘤的分类性能,重点关注召回率(减少漏诊恶性肿瘤)。
- 特征分析:通过特征重要性分析(如随机森林的特征重要性评分),识别对肿瘤分类影响最大的特征(如周长最差值、凹陷度平均值等),为医学上的肿瘤特征研究提供参考。
应用场景
- 医学诊断研究:医疗科研机构可利用该数据集开发乳腺癌自动诊断模型,辅助医生通过 FNA 活检图像特征快速判断肿瘤性质,提高诊断效率和准确性,尤其适合基层医院或经验不足的医师参考。
- 机器学习教学:高校和培训机构可将数据集作为二元分类任务的教学案例,用于讲解数据预处理、模型训练、评估指标等知识点,帮助学生理解机器学习在医学领域的应用。
- 特征工程实践:数据科学家可通过该数据集练习特征选择、降维(如 PCA)等技术,探究如何通过优化特征提升模型性能,为其他医学图像分类任务提供方法论参考。
相似产品
产品来源
本数据集源自乳腺组织细针穿刺(FNA)活检的数字化图像分析,通过提取细胞核的形态特征(半径、纹理等)并计算相关统计值构建而成,是经过广泛验证的公开基准数据集,旨在为乳腺癌诊断的机器学习研究和医学成像分析提供标准化数据资源,推动癌症辅助诊断技术的发展。
验证报告
以下为卖家选择提供的数据验证报告:

乳腺癌诊断数据集 医学研究基准 含 569 个样本 30 个图像特征 区分恶性与良性 支持机器学习二元分类
¥1.99
已售 0
48.65KB
申请报告