数据描述
本数据集专为 AI 文本检测研究设计,包含 1460 条文本记录,其中 AI 生成样本 85 条(约 6%)、人工撰写样本 1375 条(约 94%),还原现实世界中 AI 文本占比极低的不平衡场景。数据以 CSV 格式存储(UTF-8 编码),含 “text”(文本内容)和 “generated”(标注,1=AI 生成,0 = 人工撰写)两列,无缺失值,文本长度中位数约 200 个令牌。适用于训练 AI 文本检测器、支持剽窃检查、新闻事实验证等学术与伦理研究,也是基准模型测试(如 TF-IDF+LogReg)和教学实践的理想工具,可探索人类与 LLM 在文本特征上的差异。
产品基本信息
- 数据规模:共 1460 条记录,其中 AI 生成文本 85 条(约 6%),人工撰写文本 1375 条(约 94%)。
- 数据内容:包含两列,“text” 为完整段落(人类或 AI 创作),“generated” 为标注(1 表示 AI 生成,0 表示人工写入)。
- 数据格式:ai_generated_text.csv,UTF-8 编码,无缺失值。
- 文本特征:文本长度中位数约 200 个令牌,涵盖人类与 AI 创作的多样化内容。
- 核心用途:用于训练 AI 文本检测器、学术研究(如合成媒体政策研究)、模型基准测试、教学实践
产品使用说明
- 数据获取与读取:下载 ai_generated_text.csv 文件,使用 Python(Pandas 库)或其他数据处理工具读取,查看 “text” 列文本内容和 “generated” 列标注,确认数据结构(无缺失值)。
- 模型训练准备:针对数据不平衡(AI 样本仅 6%),可采用类权重调整、焦点损失函数或 SMOTE 过采样等方法处理,提升模型对少数类(AI 文本)的识别能力。
- 基线模型构建:使用 TF-IDF 提取文本特征,结合逻辑回归构建基线检测器,评估在 AI 类上的精确率和召回率,作为后续优化的参考。
- 模型优化与解释:尝试微调 Transformer 模型提升检测性能,使用 SHAP 或 LIME 工具分析模型决策依据,识别区分 AI 与人工文本的 “特征短语”(如重复模式、句子复杂性差异)。
- 教学与研究应用:在教学中,让学生基于数据集训练模型,目标是使 AI 类 F1 值≥0.90,并讨论假阳性风险(如误将人工文本判定为 AI 生成);在研究中,可探索词元熵、文本长度等特征与文本来源的关联。
应用场景
- AI 文本检测器开发:科技公司可基于数据集训练内容审核工具,用于社交媒体、学术平台等场景,自动识别 AI 生成文本,辅助剽窃检查或虚假信息筛查,降低人工审核成本。
- 学术研究领域:研究人员可借助数据集探索人类与大语言模型(LLM)的文本生成差异,分析 AI 文本的独特特征(如重复模式、逻辑连贯性),为合成媒体的伦理规范研究提供实证支持。
- 教育教学实践:高校计算机或语言学专业可将数据集作为教学案例,用于自然语言处理(NLP)课程,让学生实践不平衡数据处理、分类模型训练和模型解释等技能,理解 AI 文本检测的技术难点与伦理挑战。
相似产品
产品来源
本数据集为用于 AI 文本检测研究的专用数据,以 CSV 格式提供,包含 1460 条标注文本(AI 生成与人工撰写)。数据集旨在支持 AI 文本检测器开发、学术研究和教学实践,使用时若用于模型或论文,建议引用 Kaggle 页面并注明来源,欢迎合作探索 AI 文本识别技术。
验证报告
以下为卖家选择提供的数据验证报告:

AI 生成的文本数据集 含 1460 条文本 人工与 AI 创作区分 现实世界不平衡比例 支持检测器训练
¥1.99
已售 0
1.39MB
申请报告