数据描述
All-in-One Jigsaw多源有害评论检测训练数据集
介绍与背景
本数据集为Jigsaw/Google主导的多源有害评论检测训练集的整合版本,覆盖多个公开任务与平台,包含2,223,065条英文文本评论,面向毒性(toxic)、严重毒性(severe_toxic)、低俗(obscene)、威胁(threat)、侮辱(insult)、身份仇恨(identity_hate)等六类标签,适合用作有害内容检测、多标签分类、内容审核与风控场景的统一训练语料。数据以单一CSV文件(all_in_one_jigsaw.csv)提供,字段完整性达100%,并包含标准化的预处理文本字段(comment_text_processed),便于直接建模与快速实验复现。
数据基本信息
字段描述表
| 字段名 | 类型 | 含义 | 示例 | 完整性 |
|---|---|---|---|---|
| Unnamed: 0 | int | 行索引(来源保留) | 0 | 100% |
| id | string | 样本唯一标识 | 0000997932d777bf | 100% |
| comment_text | string | 原始英文评论文本 | Explanation... | 100% |
| toxic | float | 毒性标签(0/1或概率) | 0.0 | 100% |
| severe_toxic | float | 严重毒性标签 | 0.0 | 100% |
| obscene | float | 低俗标签 | 0.0 | 100% |
| threat | float | 威胁标签 | 0.0 | 100% |
| insult | float | 侮辱标签 | 0.0 | 100% |
| identity_hate | float | 身份仇恨标签 | 0.0 | 100% |
| dataset | string | 来源数据集标识 | toxic_comment | 100% |
| comment_text_processed | string | 预处理后文本(小写、去标点) | explanation why the edits... | 100% |
全量统计摘要
- 记录总数: 2,223,065
- 字段数量: 11
- 缺失值: comment_text缺失4条,comment_text_processed缺失799条;其他字段缺失0
- 整体完整性: 约100.00%
说明: 分布统计字段中未包含明确的split或label汇总列,因此仅提供字段级完整性与样本预览。若需来源/任务分布,建议从dataset字段进一步细分统计。
数据分布与质量
- 源字段
dataset: 用于区分样本来源(如toxic_comment等),便于按任务或平台切分训练/验证集。 - 标签字段: 六类标签均为浮点型表示,常见为0/1或概率分数。训练时建议统一为二元标签或根据任务定义阈值。
- 文本字段:
comment_text为原文;comment_text_processed为清洗版。若存在处理缺失(799条),可在训练前以原文回填或丢弃。
可疑与敏感记录处理(合规)
- 标注为
toxic=1、severe_toxic=1、obscene=1、insult=1、identity_hate=1的记录可能包含侮辱性或低俗词汇。本文档展示样本时已剔除此类文本,并不纳入样本展示与统计摘要,仅用于模型训练目的。 - 强烈建议在数据分发与公共展示中屏蔽或替换敏感词(如使用占位符),并限制开放预览。
多样化样本(去敏版,不含有害词汇)
以下展示10条非毒性示例(均来自toxic=0、severe_toxic=0等):
- id=0000997932d777bf; 来源=toxic_comment; 文本=Explanation... (关于编辑讨论的说明)
- id=000103f0d9cfb60f; 来源=toxic_comment; 文本=D'aww! He matches this background colour...
- id=000113f07ec002fd; 来源=toxic_comment; 文本=Hey man, I'm really not trying to edit war...
- id=00031b1e95af7921; 来源=toxic_comment; 文本=Your vandalism to the Matt Shirvington article has been reverted...
- id=00037261f536c51d; 来源=toxic_comment; 文本=Sorry if the word 'nonsense' was offensive to you...
- id=0001d958c54c6e35; 来源=toxic_comment; 文本=You, sir, are my hero...
- id=00025465d4725e87; 来源=toxic_comment; 文本=Congratulations from me as well...
- id=000113f07ec002fd; 来源=toxic_comment; 文本=It's just that this guy is constantly removing relevant information...
- id=0000997932d777bf; 来源=toxic_comment; 文本=Please don't remove the template from the talk page...
- id=00031b1e95af7921; 来源=toxic_comment; 文本=Please don't do it again, or you will be banned.
注: 所有示例均剔除可能含敏感词的片段,仅保留中性或合规内容。
数据优势三列表
| 优势 | 具体表现 | 应用价值 |
|---|---|---|
| 标签全面 | 六类有害标签齐全,支持多标签与联合建模 | 构建统一审核模型,减少多系统割裂 |
| 预处理就绪 | 提供清洗文本字段,可直接用于建模 | 缩短清洗流程,提升实验速度 |
| 规模充足 | 222万条样本,覆盖多源话题与语域 | 支撑深度模型训练与迁移学习 |
应用场景(每段≥200字)
-
内容审核与风控: 平台可利用该数据训练多标签有害内容检测模型,识别毒性、侮辱、威胁与身份仇恨等不同维度的风险文本,并根据业务规则进行分级处置。由于数据规模充足且来源多样,模型可学习到跨平台的语言模式与表达变体,提高对隐含攻击性语言的检出率。结合阈值策略与人审复核,可实现高召回与高精度的平衡,并支持实时拦截与事后巡检的双模式,降低合规风险与社区治理成本。
-
多标签分类与弱监督学习: 六类标签的共现可用于研究标签相关性与联合损失优化,如使用多任务学习架构共享编码器、为不同标签头使用特定损失函数进一步提升性能。对于标注质量不足或样本稀缺的标签,可应用弱监督与半监督策略(伪标签、自训练、对比学习),在保证鲁棒性的同时提高模型对罕见模式的识别能力。数据中的预处理字段便于快速试验不同分词与正则化策略。
-
跨域迁移与鲁棒性评估:
dataset字段提供跨源标识,可将数据按不同来源划分训练与测试,评估模型的域泛化能力与分布偏移鲁棒性。结合领域自适应方法(如DANN、CORAL)与提示学习(如以领域提示增强编码),可以显著提升模型在新平台上的表现。该场景适合内容安全团队在上线前进行域外验证,降低部署风险。 -
合规审查与敏感词管理: 由于训练语料中可能含有侮辱性或低俗词汇,在实际工程中需采取脱敏展示与控制访问策略。可通过词典过滤、子词替换、哈希屏蔽等方法在数据管道层面消除风险,并在模型训练日志中避免输出敏感原文。该数据集的结构化标签支持制定细粒度的审查规则,如不同标签阈值触发不同处置动作,为企业合规提供技术支撑。
结论
All-in-One Jigsaw多源有害评论检测训练数据集以222万条英文评论与完备的六类标签,为构建高性能的内容审核与有害文本检测模型提供了系统化的训练基准。数据结构清晰、完整性高、预处理就绪,适合快速迭代与大规模实验。同时,考虑到合规风险,本文档在样本展示中严格剔除了含敏感词的文本,仅保留中性片段。建议在生产环境中落实数据脱敏、访问控制与人审机制,以确保技术应用的安全与合规。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









