DS数据代找

verify-tag2025 年印尼虚假新闻数据集:周更 1.67MB 印尼语数据覆盖多平台,支撑虚假信息传播与文本分析研究

虚假新闻数据集印尼语数据覆盖多平台文本分析研究

2.9

已售 0
527.61KB

数据标识:D17581874831618554

发布时间:2025/09/18

数据描述

2025 年印尼虚假新闻数据集:印尼语数据覆盖多平台,支撑虚假信息传播与文本分析研究

一、引言与背景

在数字媒体深度渗透的当下,虚假信息已成为全球范围内的重大社会挑战,而印尼作为东南亚人口大国,其多元的社会文化背景与活跃的社交媒体生态,使得虚假信息传播呈现出传播速度快、影响范围广、主题多元化的特点。从政治选举相关的谣言到公共卫生领域的误导性信息,虚假内容不仅干扰公众认知,更可能引发社会焦虑、破坏公共信任,对社会稳定构成潜在威胁。
然而,针对印尼本土虚假信息的系统性研究长期受限于数据获取难题 —— 真实虚假信息数据分散于各类社交平台,缺乏标准化的收集与标注,且涉及印尼语这一小语种,导致跨语言分析工具难以直接适配。由印尼反虚假信息组织 Mafindo 运营的 TurnBackHoax.id 平台,作为权威的事实核查机构,其公开数据为解决这一问题提供了关键突破口。本次介绍的 “2025 年印尼虚假新闻数据集” 正是基于该平台数据构建,通过系统化整理虚假信息的核心特征与传播轨迹,为研究印尼虚假信息生态、开发针对性治理工具提供了高质量数据支撑。

二、数据基本信息

1. 数据规模与格式

该数据集以 CSV 格式存储为idn-turnbackhoax-2025.csv文件,大小 1.67 MB,记录了 2025 年 1 月 1 日起印尼境内传播的虚假信息案例,目前包含近千条有效记录。数据集采用每周更新机制,确保及时反映最新虚假信息动态,且所有数据源自 TurnBackHoax.id 的公开事实核查内容,经结构化整理后可用性评分达 10.00 分,适配各类数据分析与建模场景。

2. 核心字段与数据维度

数据集设计 17 个字段,全面覆盖虚假信息的 “发布 - 内容 - 核查 - 传播” 全链条信息,核心维度如下:
  • 基础标识与时间:唯一 ID(id)、事实核查文章发布日期(blog_date,跨度 2025 年 1 月 2 日至 9 月 4 日)、虚假信息发布日期(post_date);
  • 虚假信息核心属性:标题(blog_title)、原文内容(post_text,印尼语)、来源平台(social_media,以 Facebook 占 48%、TikTok 占 19% 为主)、类型标签(flag,SALAH “错误” 占 71%,PENIPUAN “欺诈” 占 27%);
  • 核查与传播数据:事实核查分析(blog_check)、最终结论(blog_conclusion)、原文浏览量(post_view,区间 15 至 4000 万 +),完整呈现事实核查过程与传播影响力。

3. 内容特征与分布

从虚假信息主题来看,数据集涵盖政治(如 “普拉博沃为 LPG 短缺致歉”)、社会事件(如 “日惹地震致道路开裂”)、民生服务(如 “政府免费体检报名链接”)、名人八卦(如 “桑德拉・黛维因丈夫判决落泪”)等多元领域。传播渠道上,Facebook 作为主要扩散平台,其虚假信息多以欺诈性链接、伪造公告为主;TikTok 则以误导性视频为主要形式。时间分布显示,1 月下旬、7-8 月为虚假信息高发期,可能与社会活动密集时段相关。

三、数据优势

  1. 来源权威且时效性强:数据源自印尼知名反虚假信息机构 Mafindo 的官方平台,事实核查结论与标签标注具有高度可信度;且采用每周更新机制,突破传统数据集 “静态滞后” 局限,可追踪虚假信息最新演变趋势。
  2. 维度覆盖全链条:从虚假信息的发布时间、平台、内容,到事实核查的分析过程、结论,再到传播环节的浏览量数据,构建起 “生成 - 传播 - 核查” 完整数据链条,满足多视角研究需求。
  3. 适配小语种研究场景:聚焦印尼语虚假信息文本,填补了东南亚小语种虚假信息研究的数据源空白,且原文内容与核查结论的对应关系,为印尼语 NLP 工具开发提供了标注数据。
  4. 标签体系标准化:统一采用 SALAH、PENIPUAN 等官方分类标签,避免人工标注的主观性偏差,同时传播数据(浏览量)的量化记录,为分析虚假信息影响力提供了客观指标。

四、应用场景

1. 虚假信息传播机制与社会影响研究

该数据集为社会科学研究者剖析印尼虚假信息生态提供了精准工具,可开展多维度传播规律分析。在传播渠道研究中,可对比 Facebook 与 TikTok 平台的虚假信息类型差异 ——Facebook 以 “虚假招聘”“免费福利” 等欺诈性链接为主(占比超 60%),TikTok 则集中于 “误导性视频”(如旧视频伪造成新事件),揭示不同平台的信息扩散特性。
在主题与影响力关联分析中,可通过统计不同主题虚假信息的浏览量分布,发现政治类虚假信息(如 “印尼黑暗运动由 USAID 资助”)平均传播量达 12 万次以上,显著高于民生类信息,且在选举等关键时段呈现爆发式增长,为预判虚假信息高发领域与时段提供数据支撑。此外,结合事实核查结论,可评估不同核查逻辑对公众认知修正的效果,为优化事实核查策略提供实证依据。

2. 印尼语 NLP 与虚假信息检测工具开发

数据集的结构化特征使其成为印尼语虚假信息检测与文本分析的优质训练数据,可支撑多类技术应用开发。在文本分类任务中,可利用 “post_text(虚假信息原文)-flag(类型标签)” 的对应关系,训练印尼语虚假信息分类模型,识别 “错误信息”“欺诈信息” 等细分类型,准确率可通过核查结论交叉验证。

 

在主题建模与情感分析中,可对 post_text 进行词频统计与 LDA 主题建模,挖掘虚假信息高频触发词(如 “免费”“报名”“致歉”)与核心主题聚类,同时通过情感分析识别煽动性表达特征(如 “愤怒”“恐慌” 情绪词汇的使用频率)。对于实用工具开发,可基于 “欺诈性链接 - 平台 - 浏览量” 数据训练风险链接检测模型,为社交平台提供虚假信息预警功能,尤其适配印尼本土互联网环境。

五、结尾

2025 年印尼虚假新闻数据集以 “权威来源、全链维度、实时更新、小语种适配” 为核心优势,不仅为社会科学研究者解析印尼虚假信息的传播规律与社会影响提供了实证基础,更填补了东南亚小语种虚假信息研究的数据缺口。其涵盖的多元主题、多平台传播数据及标准化核查标签,使其成为连接 “社会科学研究” 与 “技术治理实践” 的关键桥梁。
无论是政府部门制定针对性虚假信息治理政策、社交平台优化内容审核机制,还是科研机构开发印尼语虚假信息检测工具,该数据集都能发挥不可替代的支撑作用。随着每周持续更新,其将不断积累更丰富的时序数据,为追踪虚假信息演变趋势、评估治理效果提供长期数据支持,对推动印尼数字空间治理、维护社会信息环境具有重要的实践价值。

验证报告

以下为卖家选择提供的数据验证报告:

data icon
2025 年印尼虚假新闻数据集:周更 1.67MB 印尼语数据覆盖多平台,支撑虚假信息传播与文本分析研究
2.9
已售 0
527.61KB
申请报告