用户d205224b719040

AI 生成的文本数据集含 1460 条文本人工与 AI 创作区分现实世界不平衡比例支持检测器训练

AI 生成文本数据集人工与 AI 文本区分数据文本检测器训练数据学术研究文本数据教学用文本识别数据不平衡文本分类数据

￥18.99

已售 10+

1.39MB

数据标识：D17525594793945753

发布时间：2025/07/15

本数据集专为 AI 文本检测研究设计，包含 1460 条文本记录，其中 AI 生成样本 85 条（约 6%）、人工撰写样本 1375 条（约 94%），还原现实世界中 AI 文本占比极低的不平衡场景。数据以 CSV 格式存储（UTF-8 编码），含 “text”（文本内容）和 “generated”（标注，1=AI 生成，0 = 人工撰写）两列，无缺失值，文本长度中位数约 200 个令牌。适用于训练 AI 文本检测器、支持剽窃检查、新闻事实验证等学术与伦理研究，也是基准模型测试（如 TF-IDF+LogReg）和教学实践的理想工具，可探索人类与 LLM 在文本特征上的差异。

产品基本信息

数据规模：共 1460 条记录，其中 AI 生成文本 85 条（约 6%），人工撰写文本 1375 条（约 94%）。
数据内容：包含两列，“text” 为完整段落（人类或 AI 创作），“generated” 为标注（1 表示 AI 生成，0 表示人工写入）。
数据格式：ai_generated_text.csv，UTF-8 编码，无缺失值。
文本特征：文本长度中位数约 200 个令牌，涵盖人类与 AI 创作的多样化内容。
核心用途：用于训练 AI 文本检测器、学术研究（如合成媒体政策研究）、模型基准测试、教学实践

产品使用说明

数据获取与读取：下载 ai_generated_text.csv 文件，使用 Python（Pandas 库）或其他数据处理工具读取，查看 “text” 列文本内容和 “generated” 列标注，确认数据结构（无缺失值）。
模型训练准备：针对数据不平衡（AI 样本仅 6%），可采用类权重调整、焦点损失函数或 SMOTE 过采样等方法处理，提升模型对少数类（AI 文本）的识别能力。
基线模型构建：使用 TF-IDF 提取文本特征，结合逻辑回归构建基线检测器，评估在 AI 类上的精确率和召回率，作为后续优化的参考。
模型优化与解释：尝试微调 Transformer 模型提升检测性能，使用 SHAP 或 LIME 工具分析模型决策依据，识别区分 AI 与人工文本的 “特征短语”（如重复模式、句子复杂性差异）。
教学与研究应用：在教学中，让学生基于数据集训练模型，目标是使 AI 类 F1 值≥0.90，并讨论假阳性风险（如误将人工文本判定为 AI 生成）；在研究中，可探索词元熵、文本长度等特征与文本来源的关联。

应用场景

AI 文本检测器开发：科技公司可基于数据集训练内容审核工具，用于社交媒体、学术平台等场景，自动识别 AI 生成文本，辅助剽窃检查或虚假信息筛查，降低人工审核成本。
学术研究领域：研究人员可借助数据集探索人类与大语言模型（LLM）的文本生成差异，分析 AI 文本的独特特征（如重复模式、逻辑连贯性），为合成媒体的伦理规范研究提供实证支持。
教育教学实践：高校计算机或语言学专业可将数据集作为教学案例，用于自然语言处理（NLP）课程，让学生实践不平衡数据处理、分类模型训练和模型解释等技能，理解 AI 文本检测的技术难点与伦理挑战。

相似产品

情感分析模型训练数据--餐饮行业评价

IMDB情感分析数据集

商品评论情感预测

产品来源

本数据集为用于 AI 文本检测研究的专用数据，以 CSV 格式提供，包含 1460 条标注文本（AI 生成与人工撰写）。数据集旨在支持 AI 文本检测器开发、学术研究和教学实践，使用时若用于模型或论文，建议引用 Kaggle 页面并注明来源，欢迎合作探索 AI 文本识别技术。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

AI 生成的文本数据集含 1460 条文本人工与 AI 创作区分现实世界不平衡比例支持检测器训练

￥18.99

已售 10+

1.39MB

申请报告

AI 生成的文本数据集含 1460 条文本人工与 AI 创作区分现实世界不平衡比例支持检测器训练

产品基本信息

产品使用说明

应用场景

相似产品

产品来源

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群

AI 生成的文本数据集 含 1460 条文本 人工与 AI 创作区分 现实世界不平衡比例 支持检测器训练

产品基本信息

产品使用说明

应用场景

相似产品

产品来源

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群

AI 生成的文本数据集含 1460 条文本人工与 AI 创作区分现实世界不平衡比例支持检测器训练