Li

verify-tag电子邮件分类数据集(10K 样本) 邮件安全研究 AI 垃圾邮件检测训练 支持二元分类

电子邮件分类数据集垃圾邮件检测数据二元分类训练数据邮件内容分析数据AI 邮件过滤训练集10K 邮件样本

1.99

已售 0
122.47KB

数据标识:D17525714985348490

发布时间:2025/07/15

数据描述

本电子邮件取证数据集包含 10,000 条真实邮件样本,其中垃圾邮件(spam)约 1,500 条,正常邮件(ham)约 8,500 条,以 CSV 格式存储(2.59 MB),含 3 列核心字段:唯一 ID(id)、完整邮件内容(email)、分类标签(label:spam/ham)。数据可用性达 10.00,采用 Apache 2.0 许可,预期每年更新,专为二元分类任务设计,完美模拟真实邮件流量的复杂性。适用于训练垃圾邮件检测 AI 模型、自然语言处理(NLP)实践、机器学习入门教学等场景,是计算机科学学习者、AI 开发者及网络安全研究者的实用资源。

产品基本信息

  • 数据规模:10,000 条邮件记录,含 1,500 条垃圾邮件、8,500 条正常邮件,文件大小 2.59 MB。
  • 核心字段
    • id:邮件唯一标识符(整数),用于数据追踪与去重;
    • email:完整邮件内容(字符串),包含主题、正文等真实信息;
    • label:分类标签(spam/ham),明确区分垃圾邮件与正常邮件。
  • 数据特点:无需预处理即可直接用于机器学习项目,存在自然的数据不平衡(垃圾邮件占 15%),贴近真实邮件分布,适合训练实用的垃圾邮件检测器。
  • 许可证:Apache 2.0 许可,允许商业使用与修改,需保留原始版权信息。
  • 更新频率:每年更新,确保数据时效性(反映最新垃圾邮件特征)。

产品使用说明

  1. 数据读取与理解
    • 用 Python(Pandas 库)读取 CSV 文件,查看邮件内容与标签分布:
      python
      import pandas as pd  
      df = pd.read_csv('email_classification_dataset.csv')  
      print(f"垃圾邮件占比:{df[df['label']=='spam'].shape[0]/10000:.1%}")  
      
    • 分析样本特征:垃圾邮件多含 “促销”“中奖”“链接” 等关键词,正常邮件以日常沟通为主,为特征提取提供方向。
  2. 文本预处理
    • 对邮件内容(email 字段)进行清洗:去除标点、小写转换、删除停用词(如 “the”“is”)、词干提取(如 “running”→“run”);
    • 转换为数值特征:用 TF-IDF 或词袋模型(CountVectorizer)将文本转为向量,示例代码:
       
      from sklearn.feature_extraction.text import TfidfVectorizer  
      tfidf = TfidfVectorizer(max_features=5000)  
      X = tfidf.fit_transform(df['email']).toarray()  
      y = df['label'].map({'spam':1, 'ham':0})  # 标签二值化  
      
  3. 模型训练与评估
    • 处理数据不平衡:因垃圾邮件仅占 15%,可采用类权重调整(如class_weight='balanced')或 SMOTE 过采样;
    • 训练二元分类模型:用逻辑回归、朴素贝叶斯或随机森林作为基线模型,划分训练集(80%)与测试集(20%),重点关注召回率(避免漏检垃圾邮件)和精确率(减少正常邮件误判);
    • 模型评估:通过混淆矩阵、ROC-AUC、F1 分数(兼顾精确率与召回率)评估性能,示例目标:垃圾邮件 F1 分数≥0.9。
  4. 模型解释与优化
    • 用 SHAP 值分析模型决策:识别 “免费”“点击链接” 等高频触发垃圾邮件判定的关键词;
    • 迭代优化:针对误判样本(如含 “会议链接” 的正常邮件被误判),增加领域特定停用词或调整特征权重。

应用场景

  1. 垃圾邮件过滤系统开发
    邮件服务提供商(如企业邮箱、个人邮箱)可基于数据集训练 AI 过滤模型,自动拦截含诈骗、广告的垃圾邮件,降低用户干扰,减少钓鱼邮件风险。例如,通过模型识别 “恭喜中奖”“立即点击” 等特征,实时标记可疑邮件。
  2. 机器学习教学实践
    高校计算机专业可将数据集作为二元分类入门案例,用于讲解文本预处理(TF-IDF)、不平衡数据处理、模型评估等知识点。学生通过训练模型并优化 F1 分数,理解 NLP 在实际场景中的应用,掌握机器学习项目的完整流程。
  3. 网络安全研究
    研究者可分析不同年份更新的数据集(因年度更新),追踪垃圾邮件特征演变(如从 “促销短信” 到 “AI 生成诈骗邮件” 的变化),为反垃圾邮件技术升级(如对抗生成模型检测)提供数据支持。

相似产品对比

产品来源

数据集源自真实电子邮件流量,经筛选、标注后形成 10,000 条样本,涵盖垃圾邮件与正常邮件的典型特征。由专业团队维护,每年更新以纳入新的垃圾邮件模式,确保数据的实用性。采用 Apache 2.0 许可,使用时需遵守开源协议,注明原始来源。完整数据可直接下载使用,无需额外预处理,是快速启动邮件分类项目的理想选择。

验证报告

以下为卖家选择提供的数据验证报告:

data icon
电子邮件分类数据集(10K 样本) 邮件安全研究 AI 垃圾邮件检测训练 支持二元分类
1.99
已售 0
122.47KB
申请报告