数据描述
引言与背景
本数据集正是在这一背景下应运而生的重要资源,它为研究人员、技术开发者和媒体机构提供了高质量的标注数据,用于训练、测试和优化自动化假新闻检测系统。数据集由两个结构化CSV文件组成:Fake.csv包含23,481条经过验证的假新闻数据,True.csv包含21,417条真实新闻报道,总计44,898条完整的新闻记录。这些数据涵盖了政治新闻、世界新闻、政府动态、中东事务等多个重要领域,时间跨度主要集中在2016-2017年这一全球政治格局发生重大变化的关键时期。
数据集的重要性主要体现在以下几个方面:首先,它提供了经过分类标注的完整新闻文本,为机器学习模型的训练提供了坚实基础;其次,数据涵盖了多样化的主题和报道风格,有助于提高模型的泛化能力;再次,数据的时间跨度恰好覆盖了重要的政治事件期间,为研究特定时期的信息传播模式提供了宝贵素材。这些特性使得本数据集在推动假新闻检测技术发展、提升媒体可信度评估能力以及加强公众信息素养教育等方面具有不可替代的价值。
数据基本信息
数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| title | 文本 | 新闻标题 | "Japan pledges to help Philippines rebuild Marawi" | 100%(无缺失值) |
| text | 文本 | 新闻正文内容 | 完整的新闻文章文本 | 100%(无缺失值) |
| subject | 分类 | 新闻主题类别 | "politicsNews", "worldnews", "News", "politics" | 100%(无缺失值) |
| date | 文本 | 发布日期 | "September 23, 2017 ", "Oct 25, 2016" |
数据分布情况
标签分布
| 记录数量 | 占比 | |
|---|---|---|
| fake(假新闻) | 23,481 | 52.30% |
| true(真实新闻) | 21,417 | 47.70% |
| 总计 | 44,898 |
假新闻主题分布
| 记录数量 | 占比 | |
|---|---|---|
| News | 9,050 | 38.54% |
| politics | 6,841 | 29.13% |
| left-news | 4,459 | 18.99% |
| Government News | 1,570 | 6.69% |
| US_News | 783 | 3.33% |
| Middle-east | 778 | 3.31% |
| 总计 | 23,481 |
真实新闻主题分布
| 记录数量 | 占比 | |
|---|---|---|
| politicsNews | 11,272 | 52.63% |
| worldnews | 10,145 | 47.37% |
| 总计 | 21,417 |
数据集规模与特征
-
总数据量:44,898条新闻记录
-
数据类型:结构化CSV格式文本数据
-
文本长度:假新闻平均2,547字符,真实新闻平均2,383字符
-
时间范围:主要集中在2016-2017年间
-
覆盖领域:政治、世界新闻、政府动态、中东事务等
数据集具有高度的完整性,所有字段均无缺失值,为后续的数据分析和模型训练提供了可靠的数据基础。假新闻和真实新闻的比例相对均衡,减少了模型训练过程中的类别不平衡问题。
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 数据完整性高 | 所有44,898条记录均无缺失值,字段完整率100% | 确保模型训练的准确性和可靠性,避免因数据缺失导致的分析偏差 |
| 类别分布均衡 | 假新闻占52.30%,真实新闻占47.70% | 减少模型训练中的类别不平衡问题,提高模型对少数类的识别能力 |
| 涵盖多样主题 | 假新闻包含6个主题类别,真实新闻包含2个主要主题 | 支持多领域假新闻检测模型的训练,提高模型的泛化能力 |
| 文本内容完整 | 包含完整的新闻标题和正文内容 | 提供丰富的文本特征,支持深度学习模型的训练和文本分析任务 |
| 时间跨度明确 | 主要集中在2016-2017年关键时期 | 可用于研究特定历史时期的假新闻传播模式和特征 |
| 结构化格式 | 标准化CSV格式,便于数据处理和分析 |
数据样例
以下是从数据集中随机抽取的各类别数据样例,展示了数据的多样性特征:
假新闻样例
主题: Government News 标题: EPA CHIEF SCOTT PRUITT To Rename Agency “Environmental Production Authority” (VIDEO) 日期: Apr 27, 2017
内容预览: As promised, Environmental Protection Agency Administrator Scott Pruitt is making his first significant changes to the agency. One of them is changing the name of the agency to the “Environmental Production Authority.”...
主题: left-news 标题: Bernie Sanders’ Wife Jane Could Be Charged With Bank Fraud By The FBI, According To Reports 日期: May 16, 2017
内容预览: A report from Bloomberg indicates that the FBI is investigating Bernie Sanders’ wife, Jane Sanders, for bank fraud. The investigation was launched after a federal auditor found that Mrs. Sanders misrepresented the...
主题: Middle-east 标题: ISRAELI COUNTER-TERROR FORCES ON HIGH ALERT As Palestinians Threaten “Day Of Rage” (VIDEO) 日期: Mar 28, 2017
内容预览: Israeli counter-terror forces have been placed on high alert as Palestinian terror groups have called for a "Day of Rage" on the anniversary of what they call the "Nakba", or "catastrophe" of Israe...
主题: News 标题: SCANDAL: Donna Brazile’s New Book BLASTS Hillary Clinton For Rigging Primary Against Bernie (DETAILS) 日期: Nov 2, 2017
内容预览: Former Democratic National Committee interim chair Donna Brazile is coming out with a new book that blasts Hillary Clinton and the DNC for their shady behavior during the 2016 election. The book, titled Hacks:...
主题: politics 标题: RUMOR: John McCain Diagnosed With Terminal Brain Cancer? (VIDEO) 日期: Jul 19, 2017
内容预览: Arizona Senator John McCain, 80, was recently diagnosed with terminal brain cancer, according to sources close to the senator who spoke with the Associated Press on the condition of anonymity. The senator’s...
主题: US_News 标题: TRUMP THREATENS TO “REVOKE” NBC LICENSE Over Fake News About His Mental Health 日期: Nov 16, 2017
内容预览: President Donald Trump has threatened to "revoke" NBC’s broadcasting license over their fake news reporting on his mental health. Trump took to Twitter early Thursday morning to express his outrage over an NBC...
真实新闻样例
主题: politicsNews 标题: Trump faces storm over Charlottesville as business panels disband 日期: August 16, 2017
内容预览: WASHINGTON (Reuters) - U.S. President Donald Trump faced a growing backlash on Wednesday over his response to violence at a white supremacist rally in Virginia, as two business advisory panels disbanded and...
主题: politicsNews 标题: Iran's Rouhani says U.S. 'can't do a damn thing' after new sanctions 日期: August 3, 2017
内容预览: DUBAI (Reuters) - Iranian President Hassan Rouhani said on Thursday that the United States “can’t do a damn thing” following new sanctions imposed by Washington, Tasnim news agency reported. Washington last week...
主题: politicsNews 标题: Obama 'made it known' he was no fan of Flynn: White House spokesman 日期: May 8, 2017
内容预览: WASHINGTON (Reuters) - Former U.S. President Barack Obama made clear he did not support Michael Flynn during a meeting with then President-elect Donald Trump, the White House said on Monday. “It’s tru...
主题: worldnews 标题: Russia hopes to agree on debt repayment with Venezuela by year-end 日期: September 8, 2017
内容预览: MOSCOW (Reuters) - The Russian finance ministry wants to find a solution on how Venezuela will fulfill its debt obligations to Moscow by the end of this year, a senior ministry official said on Friday...
主题: worldnews 标题: U.N. special envoy urges Poland to open up debate on judicial reform 日期: October 27, 2017
内容预览: WARSAW (Reuters) - Poland s political establishment must open up negotiations on proposals to reform the country s courts to avoid further damage to the country s judicial system, a United Nations env...
主题: worldnews 标题: Brazil's Temer undergoes urinary tract surgery 日期: December 13, 2017
内容预览: BRASILIA (Reuters) - Brazilian President Michel Temer had minor surgery on Wednesday for a narrowing of his urethra and the operation was successful, his office said. It was the second time the 77-yea...
应用场景
假新闻检测模型训练与评估
该数据集为开发和评估自动假新闻检测系统提供了理想的基础。研究人员和开发者可以利用这些标记好的数据训练各种机器学习和深度学习模型,如朴素贝叶斯、支持向量机、随机森林以及基于Transformer的神经网络模型。数据集的平衡性(假新闻52.30%,真实新闻47.70%)确保了模型在训练过程中不会过度偏向某一类别。通过使用完整的新闻文本内容,模型可以学习到丰富的语言特征、逻辑结构和叙事模式,从而更准确地识别潜在的虚假信息。训练后的模型可集成到社交媒体平台、新闻聚合服务或浏览器插件中,实现对网络信息的实时检测和标记,帮助用户在海量信息中快速识别可能的虚假内容。
媒体可信度评估与新闻质量分析
基于该数据集,可以开发媒体可信度评估工具,用于分析不同新闻来源的报道质量和真实性。通过对比真实新闻和假新闻在语言风格、叙事结构、情感倾向等方面的差异,可以建立媒体可信度评分体系。研究人员可以分析真实新闻(如来自路透社的报道)与假新闻在词汇选择、表达方式、引用来源等方面的特征差异,提取出评估新闻可信度的关键指标。媒体机构可以利用这些分析结果改进自身的编辑流程和事实核查机制,提升报道质量。同时,这种分析也有助于公众更好地理解高质量新闻的特征,培养信息素养和批判性思维能力。
政治信息传播模式与公共舆论分析
数据集涵盖了2016-2017年关键政治时期的新闻内容,为研究政治信息的传播模式和对公共舆论的影响提供了宝贵资源。研究人员可以分析不同政治主题(如美国大选、中东局势、政府政策等)在真实新闻和假新闻中的报道差异,探究虚假信息的传播策略和影响因素。通过时间序列分析,可以研究特定政治事件期间假新闻的传播高峰和特征变化,为预测和防范虚假信息传播提供依据。这类研究对于理解信息传播对民主进程的影响、制定有效的信息监管政策具有重要意义,同时也为社交媒体平台和新闻媒体优化内容推荐算法、减少虚假信息传播提供参考。
自然语言处理技术研究与应用
该数据集丰富的文本内容为自然语言处理(NLP)技术的研究提供了良好的实验平台。研究人员可以利用这些数据开发和评估文本分类、情感分析、命名实体识别、文本摘要等NLP技术。特别是在少样本学习、领域适应和跨语言迁移等研究方向,该数据集提供了足够的样本量和多样性。开发的NLP技术可以应用于更广泛的场景,如自动文本审核、内容推荐、信息检索等。同时,通过对假新闻和真实新闻的语言特征分析,可以深入研究语言操纵技术和说服力机制,为语言学和传播学研究提供实证支持。
教育与培训工具开发
该数据集可用于开发信息素养教育和媒体识别培训工具。教育工作者可以利用这些真实的新闻样例设计教学材料,帮助学生学习如何辨别真假新闻、评估信息可信度。通过对比分析真实新闻和假新闻的特征,学生可以掌握识别虚假信息的关键技巧,如检查信息来源、寻找事实依据、识别情绪化语言等。基于该数据集开发的互动式学习平台和游戏化应用,可以提高教育效果,培养公众的媒体素养和批判性思维能力。这对于构建健康的信息环境、减少虚假信息的负面影响具有长远意义。
结尾
本数据集作为假新闻检测领域的重要资源,具有数据量大、类别均衡、内容完整、主题多样等显著优势。它不仅为研究人员提供了高质量的实验数据,也为技术开发者构建实用的假新闻检测系统提供了坚实基础。通过对数据集的深入分析和应用,可以有效推动自动假新闻检测技术的发展,提升媒体内容的可信度评估能力,为构建健康、理性的信息生态环境贡献力量。
数据集的核心价值在于其提供了44,898条完整的新闻文本记录,涵盖了丰富的主题和报道风格,能够支持多种研究方向和应用场景。无论是开发基于机器学习的检测模型,还是研究政治信息的传播模式,或是培养公众的信息素养,本数据集都提供了可靠的数据支持。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






