数据描述
本电子邮件取证数据集包含 10,000 条真实邮件样本,其中垃圾邮件(spam)约 1,500 条,正常邮件(ham)约 8,500 条,以 CSV 格式存储(2.59 MB),含 3 列核心字段:唯一 ID(id)、完整邮件内容(email)、分类标签(label:spam/ham)。数据可用性达 10.00,采用 Apache 2.0 许可,预期每年更新,专为二元分类任务设计,完美模拟真实邮件流量的复杂性。适用于训练垃圾邮件检测 AI 模型、自然语言处理(NLP)实践、机器学习入门教学等场景,是计算机科学学习者、AI 开发者及网络安全研究者的实用资源。
产品基本信息
- 数据规模:10,000 条邮件记录,含 1,500 条垃圾邮件、8,500 条正常邮件,文件大小 2.59 MB。
- 核心字段:
- id:邮件唯一标识符(整数),用于数据追踪与去重;
- email:完整邮件内容(字符串),包含主题、正文等真实信息;
- label:分类标签(spam/ham),明确区分垃圾邮件与正常邮件。
- 数据特点:无需预处理即可直接用于机器学习项目,存在自然的数据不平衡(垃圾邮件占 15%),贴近真实邮件分布,适合训练实用的垃圾邮件检测器。
- 许可证:Apache 2.0 许可,允许商业使用与修改,需保留原始版权信息。
- 更新频率:每年更新,确保数据时效性(反映最新垃圾邮件特征)。
产品使用说明
-
数据读取与理解
- 用 Python(Pandas 库)读取 CSV 文件,查看邮件内容与标签分布:
python
import pandas as pd df = pd.read_csv('email_classification_dataset.csv') print(f"垃圾邮件占比:{df[df['label']=='spam'].shape[0]/10000:.1%}")
- 分析样本特征:垃圾邮件多含 “促销”“中奖”“链接” 等关键词,正常邮件以日常沟通为主,为特征提取提供方向。
- 用 Python(Pandas 库)读取 CSV 文件,查看邮件内容与标签分布:
-
文本预处理
- 对邮件内容(email 字段)进行清洗:去除标点、小写转换、删除停用词(如 “the”“is”)、词干提取(如 “running”→“run”);
- 转换为数值特征:用 TF-IDF 或词袋模型(CountVectorizer)将文本转为向量,示例代码:
from sklearn.feature_extraction.text import TfidfVectorizer tfidf = TfidfVectorizer(max_features=5000) X = tfidf.fit_transform(df['email']).toarray() y = df['label'].map({'spam':1, 'ham':0}) # 标签二值化
-
模型训练与评估
- 处理数据不平衡:因垃圾邮件仅占 15%,可采用类权重调整(如
class_weight='balanced'
)或 SMOTE 过采样; - 训练二元分类模型:用逻辑回归、朴素贝叶斯或随机森林作为基线模型,划分训练集(80%)与测试集(20%),重点关注召回率(避免漏检垃圾邮件)和精确率(减少正常邮件误判);
- 模型评估:通过混淆矩阵、ROC-AUC、F1 分数(兼顾精确率与召回率)评估性能,示例目标:垃圾邮件 F1 分数≥0.9。
- 处理数据不平衡:因垃圾邮件仅占 15%,可采用类权重调整(如
-
模型解释与优化
- 用 SHAP 值分析模型决策:识别 “免费”“点击链接” 等高频触发垃圾邮件判定的关键词;
- 迭代优化:针对误判样本(如含 “会议链接” 的正常邮件被误判),增加领域特定停用词或调整特征权重。
应用场景
-
垃圾邮件过滤系统开发
邮件服务提供商(如企业邮箱、个人邮箱)可基于数据集训练 AI 过滤模型,自动拦截含诈骗、广告的垃圾邮件,降低用户干扰,减少钓鱼邮件风险。例如,通过模型识别 “恭喜中奖”“立即点击” 等特征,实时标记可疑邮件。 -
机器学习教学实践
高校计算机专业可将数据集作为二元分类入门案例,用于讲解文本预处理(TF-IDF)、不平衡数据处理、模型评估等知识点。学生通过训练模型并优化 F1 分数,理解 NLP 在实际场景中的应用,掌握机器学习项目的完整流程。 -
网络安全研究
研究者可分析不同年份更新的数据集(因年度更新),追踪垃圾邮件特征演变(如从 “促销短信” 到 “AI 生成诈骗邮件” 的变化),为反垃圾邮件技术升级(如对抗生成模型检测)提供数据支持。
相似产品对比
产品来源
数据集源自真实电子邮件流量,经筛选、标注后形成 10,000 条样本,涵盖垃圾邮件与正常邮件的典型特征。由专业团队维护,每年更新以纳入新的垃圾邮件模式,确保数据的实用性。采用 Apache 2.0 许可,使用时需遵守开源协议,注明原始来源。完整数据可直接下载使用,无需额外预处理,是快速启动邮件分类项目的理想选择。
验证报告
以下为卖家选择提供的数据验证报告:

电子邮件分类数据集(10K 样本) 邮件安全研究 AI 垃圾邮件检测训练 支持二元分类
¥1.99
已售 0
122.47KB
申请报告