数据描述
引言与背景
本数据集包含来自12个印度尼西亚主流新闻网站的大规模新闻标题数据,涵盖原始新闻标题和人工标注的点击诱饵标签。数据集总规模超过11万条记录,包含多种文件格式,为研究人员和开发者提供了丰富的资源用于自然语言处理算法训练、内容分类研究以及信息检索系统优化。
数据基本信息
数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| title | 字符串 | 新闻标题 | "Viral! Driver Ojol di Bekasi Antar Pesanan Makanan Pakai Sepeda" | 100%(无缺失值) |
| label | 字符串 | 点击诱饵标签 | "clickbait" / "non-clickbait" | 100%(无缺失值) |
| label_score | 整数 | 标签分数 | 0(non-clickbait)/ 1(clickbait) | 100%(无缺失值) |
数据分布情况
1. 文件格式分布
| 文件类型 | 文件数量 | 记录数量 | 占比 |
|---|---|---|---|
| 原始CSV文件 | 12 | 38,655 | 33.7% |
| 原始XLSX文件 | 12 | 46,119 | 40.2% |
| 标注CSV文件 | 12 | 15,000 | 13.1% |
| 标注XLSX文件 | 12 | 15,000 | 13.0% |
| 总计 | 48 | 114,774 | 100% |
2. 标签分布(标注数据)
| 标签类型 | 记录数量 | 占比 |
|---|---|---|
| non-clickbait | 8,710 | 58.1% |
| clickbait | 6,290 | 41.9% |
| 总计 | 15,000 | 100% |
3. 来源网站分布(原始数据)
| 网站名称 | 记录数量 | 占比 |
|---|---|---|
| tribunnews | 11,162 | 25.0% |
| republika | 11,868 | 26.6% |
| detikNews | 11,320 | 25.2% |
| okezone | 9,328 | 20.7% |
| liputan6 | 9,162 | 20.4% |
| kompas | 6,496 | 14.5% |
| sindonews | 7,144 | 15.9% |
| wowkeren | 6,040 | 13.4% |
| tempo | 8,052 | 18.0% |
| kapanlagi | 2,012 | 4.5% |
| pos_metro | 614 | 1.4% |
| fimela | 1,576 | 3.5% |
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 大规模数据量 | 总计114,774条记录,其中标注数据30,000条 | 提供充足的训练样本,提高模型泛化能力 |
| 多来源覆盖 | 涵盖12个印度尼西亚主流新闻网站 | 确保数据多样性,降低特定网站的 bias |
| 人工精准标注 | 所有标注数据均经过人工审核,标签准确率高 | 为监督学习提供高质量的训练数据 |
| 多格式支持 | 同时提供CSV和XLSX格式文件 | 方便不同工具和平台的数据处理需求 |
| 明确的标签体系 | 采用二元分类标签(clickbait/non-clickbait) | 简化模型设计,便于快速实现分类算法 |
| 完整的元数据 | 包含新闻标题、标签和标签分数三个核心字段 | 支持多种分析角度和应用场景 |
数据样例
标注数据样例(部分)
| 新闻标题 | 标签 | 标签分数 |
|---|---|---|
| "Masuk Radar Pilwalkot Medan, Menantu Jokowi Bertemu DPW NasDem Sumut" | non-clickbait | 0 |
| "Malaysia Sudutkan RI: Isu Kabut Asap hingga Invasi Babi" | non-clickbait | 0 |
| "Viral! Driver Ojol di Bekasi Antar Pesanan Makanan Pakai Sepeda" | clickbait | 1 |
| "Kemensos Salurkan Rp 7,3 M bagi Korban Kerusuhan Sosial di Papua" | non-clickbait | 0 |
| "Ada Motor Nyangkut di Atas Bambu di Sleman, Kok Bisa?" | clickbait | 1 |
| "Pesan Gamblang Poyuono Menolak Revisi UU KPK" | clickbait | 1 |
| "Wanita dengan Tubuh Berisi Terbukti Bikin Pria Lebih Bahagia" | clickbait | 1 |
| "Kualitas Udara di Pontianak Berbahaya, Dinas Kesehatan Siagakan Rumah Oksigen" | non-clickbait | 0 |
| "Sarapan Bikin Ngantuk, Mitos atau Fakta?" | clickbait | 1 |
| "Pikap Tabrak Rumah di Kebon Jeruk, 2 Penghuni Terluka" | non-clickbait | 0 |
应用场景
自然语言处理算法训练
本数据集为自然语言处理领域的研究人员和开发者提供了理想的训练资源,可用于开发和优化点击诱饵检测算法。通过对标注数据的训练,机器学习模型能够学习到点击诱饵标题的语言特征、句式结构和语义模式,从而实现自动识别和分类。这些算法可以进一步集成到新闻推荐系统、内容审核平台和信息检索工具中,帮助用户过滤低质量内容,提升信息获取效率。
在实际应用中,新闻媒体平台可以利用这些算法自动标记潜在的点击诱饵内容,对编辑团队提供参考,确保发布的新闻标题准确反映内容实质,维护媒体的专业性和公信力。此外,社交媒体平台也可以应用此类算法监控用户分享的新闻链接,减少误导性信息的传播,净化网络信息环境。
内容分类与信息检索优化
数据集包含来自多个新闻网站的多样化内容,可以用于训练内容分类模型,实现对新闻主题的自动分类和组织。这对于构建智能新闻推荐系统具有重要意义,能够根据用户的兴趣偏好和阅读习惯,提供更加个性化的内容推荐服务。
同时,数据集还可以用于优化信息检索系统的相关性排序算法。通过分析点击诱饵标题与用户实际点击率之间的关系,开发人员可以调整搜索结果的排序策略,确保高质量、相关性强的内容排在前列,提升用户的搜索体验。此外,研究人员还可以利用这些数据深入分析点击诱饵的语言特征和传播规律,为制定有效的内容治理政策提供科学依据。
跨语言自然语言处理研究
作为印度尼西亚语的大规模标注数据集,本数据集为跨语言自然语言处理研究提供了宝贵的资源。研究人员可以利用这些数据探索印度尼西亚语的语言特性,开发针对该语言的自然语言处理工具和技术。同时,通过与其他语言的点击诱饵数据集进行对比分析,可以揭示不同语言和文化背景下点击诱饵策略的共性和差异,推动跨语言自然语言处理技术的发展。
在全球化背景下,跨语言信息处理能力日益重要。本数据集的开放使用将有助于促进印度尼西亚语自然语言处理技术的发展,缩小与英语等主流语言之间的技术差距,为多语言信息处理和跨文化交流提供技术支持。
结尾
本数据集作为一个大规模、多来源、高质量的点击诱饵标注数据集,具有重要的研究价值和应用潜力。它不仅为自然语言处理算法训练提供了充足的资源,也为内容分类、信息检索优化和跨语言研究提供了有力支持。通过对这些数据的深入分析和应用,可以有效提升网络信息质量,改善用户信息获取体验,推动自然语言处理技术的发展。
数据集提供了CSV和XLSX两种格式,方便不同用户的使用需求。所有标注数据均经过人工审核,确保了标签的准确性和可靠性。研究人员和开发者可以根据自己的研究方向和应用需求,灵活使用这些数据,开发出更加智能、高效的内容处理和分析工具。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






