HM_1

verify-tag伊朗新闻数据集-33万+条波斯语新闻文本-涵盖社会政治经济国际多领域-完整标题摘要正文-支持NLP研究文本分析内容挖掘应用-2016至2022年期间的各类新闻内容-自然语言处理研究、跨文化传播分析

18

已售 0
1.01GB

数据标识:D17665470302371220

发布时间:2025/12/24

数据描述

引言与背景

在大数据时代,新闻文本数据作为重要的信息载体,具有极高的研究价值和应用潜力。本数据集包含来自伊朗主流新闻网站的339,834条新闻数据,涵盖2016年至2022年期间的各类新闻内容,为研究中东地区特别是伊朗的社会、政治、经济、文化等方面提供了丰富的原始资料。

该数据集由完整的新闻元数据和内容构成,包括新闻标题、短链接、发布时间、服务分类、子类别、摘要以及完整正文。这些数据不仅记录了伊朗近年来的重要事件和社会动态,也反映了该地区媒体的报道倾向和话语体系。对于自然语言处理(NLP)研究、跨文化传播分析、区域研究以及信息检索等领域,本数据集提供了宝贵的波斯语语料资源。

数据基本信息

数据字段说明

字段名称 字段类型 字段含义 数据示例 完整性
title 文本 新闻标题 پلیس: جرائم خشن و مسلحانه در تهران کاهش یافته است 100.00%
shortlink 文本 新闻短链接 https://www.asriran.com/003YoB 100.00%
time 文本 发布时间(波斯历) ۰۸:۴۱ - ۲۳ تير ۱۴۰۱ 100.00%
service 文本 服务分类 صفحه نخست 100.00%
subgroup 文本 新闻子类别 اجتماعی 100.00%
abstract 文本 新闻摘要 (部分新闻包含摘要) 100.00%
body 文本 新闻正文 完整新闻内容 100.00%

数据分布情况

新闻类别分布

类别名称 记录数量 占比
اجتماعی(社会) 97,274 28.62%
بین الملل(国际) 56,581 16.65%
سیاسی(政治) 46,104 13.57%
اقتصادی(经济) 35,910 10.57%
ورزشی(体育) 27,999 8.24%
فرهنگی/هنری(文化/艺术) 16,859 4.96%
سیاست خارجی(外交政策) 11,864 3.49%
خواندنی ها و دیدنی ها(阅读与观看) 11,018 3.24%
حوادث(事故) 10,865 3.20%
سلامت(健康) 10,488 3.09%

数据规模与特点

  • 总记录数:339,834条新闻

  • 时间跨度:约6年(2016-2022年)

  • 文本语言:波斯语

  • 数据完整性:所有字段完整率均为100%

  • 内容构成:包含标题、链接、时间、分类和完整正文

数据优势

优势特征 具体表现 应用价值
数据量庞大 超过33万条新闻记录,涵盖6年时间跨度 支持大规模NLP模型训练和长期趋势分析
内容完整性 每条新闻均包含完整标题、摘要和正文 便于进行深入的文本分析和内容理解
分类体系完善 涵盖社会、政治、经济、国际等10多个主要类别 支持多维度的主题分析和分类研究
语言独特性 提供丰富的波斯语语料资源 填补波斯语NLP研究数据的空白
来源权威性 来自伊朗主流新闻网站 保证数据的可靠性和研究价值
时间连续性 包含多年连续的新闻报道 便于研究社会动态的演变和发展趋势

数据样例

元数据与内容样例(部分)

  1. 标题:پلیس: جرائم خشن و مسلحانه در تهران کاهش یافته است 分类: اجتماعی 时间:۰۸:۴۱ - ۲۳ تير ۱۴۰۱ 内容: Tehran police chief announced a decrease in violent crimes in the city...

  2. 标题:وزیر بهداشت: آغاز اجرای طرح جامع "دارویار"/ افزایش پوشش بیمه‌ای داروها 分类: سلامت 时间:۰۸:۴۷ - ۲۳ تير ۱۴۰۱ 内容: The Minister of Health announced the launch of the comprehensive "Darviyar" plan...

  3. 标题: وزارت بهداشت: قیمت دارو برای مصرف کننده ثابت می‌ماند 分类: اقتصادی 时间:۰۹:۰۸ - ۲۳ تير ۱۴۰۱ 内容: The Ministry of Health stated that drug prices will remain stable for consumers...

  4. 标题: صفحه اول روزنامه های امروز (عکس) 分类: فرهنگی/هنری 时间:۱۰:۱۵ - ۲۳ تير ۱۴۰۱ 内容: Today's newspaper front pages in pictures...

  5. 标题: جدیدترین آمار جهانی کرونا 分类: بین الملل 时间:۱۱:۲۰ - ۲۳ تير ۱۴۰۱ 内容: Latest global coronavirus statistics...

应用场景

自然语言处理(NLP)研究与模型训练

本数据集为波斯语NLP研究提供了大规模的高质量语料资源。研究人员可以利用这些数据进行各种NLP任务的开发和评估,如文本分类、情感分析、命名实体识别、机器翻译、自动摘要等。特别是在缺乏波斯语训练数据的情况下,该数据集的价值更加凸显,可以帮助提升波斯语NLP模型的性能和准确性。

跨文化传播与区域研究

通过分析伊朗新闻媒体的报道内容和倾向,可以深入了解伊朗社会的价值观、关注点和话语体系。研究人员可以比较不同类别新闻的报道模式,分析媒体如何塑造公众对特定事件的认知,以及伊朗与国际社会的信息交流方式。这对于跨文化传播研究、中东区域研究以及国际政治分析都具有重要意义。

社会动态与趋势分析

利用6年连续的新闻数据,可以研究伊朗社会各个领域的发展趋势和变化。例如,通过分析经济类新闻可以了解伊朗经济政策的演变;通过社会类新闻可以追踪社会问题的变化;通过政治类新闻可以研究政治格局的调整。这种长期趋势分析有助于预测未来发展方向,并为相关政策制定提供参考。

信息检索与内容推荐系统开发

完整的新闻内容和分类体系为开发波斯语信息检索系统和内容推荐系统提供了理想的测试数据。开发人员可以基于这些数据构建搜索引擎、个性化推荐系统和内容过滤系统,提升波斯语用户的信息获取体验。同时,也可以研究跨语言信息检索技术,促进不同语言之间的信息交流。

媒体研究与话语分析

本数据集为媒体研究提供了丰富的素材,可以分析新闻媒体的报道框架、议程设置和话语策略。研究人员可以探讨媒体如何构建特定议题,以及权力关系如何在新闻话语中体现。这种研究对于理解媒体与社会的互动关系,以及媒体在民主进程中的作用具有重要价值。

结尾

本数据集作为一个大规模、完整、多类别的波斯语新闻文本集合,具有极高的研究价值和应用潜力。它不仅为NLP研究提供了宝贵的语料资源,也为区域研究、跨文化传播、社会分析等领域提供了丰富的原始数据。

数据集的核心优势在于其庞大的数据量、完整的内容构成、完善的分类体系和连续的时间跨度,这些特点使其成为研究伊朗社会、政治、经济、文化等方面的理想选择。无论是学术研究还是产业应用,本数据集都能提供有力的支持。

随着人工智能技术的不断发展,波斯语NLP研究将迎来更多机遇。本数据集的开放和应用,将有助于推动波斯语信息处理技术的进步,促进不同语言和文化之间的交流与理解。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
伊朗新闻数据集-33万+条波斯语新闻文本-涵盖社会政治经济国际多领域-完整标题摘要正文-支持NLP研究文本分析内容挖掘应用-2016至2022年期间的各类新闻内容-自然语言处理研究、跨文化传播分析
18
已售 0
1.01GB
申请报告