HM

verify-tagFarsNews_1402年首六个月新闻数据集_10万条_波斯语_情感分析_多分类标注_完整新闻文本-波斯语自然语言处理、情感分析、新闻分类、话题建模-训练和评估波斯语文本理解模型-伊朗社会动态、舆论

10

已售 0
535.64MB

数据标识:D17695901796026246

发布时间:2026/01/28

# FarsNews 1402年首六个月新闻数据集

## 引言与背景

FarsNews 1402年首六个月新闻数据集是一个包含102,564条波斯语新闻记录的综合性数据集,涵盖了伊朗法尔斯通讯社在1402年(即2023年)前六个月发布的全部新闻内容。该数据集不仅包含完整的新闻文本内容,还提供了丰富的元数据信息,包括新闻标题、摘要、情感标注、分类标签、作者信息、发布时间、互动数据等。数据集覆盖了政治、经济、体育、社会、文化、国际等多个领域,是波斯语自然语言处理、情感分析、新闻分类、话题建模等研究任务的宝贵资源。该数据集的完整性和多样性使其成为训练和评估波斯语文本理解模型的理想数据源,同时对于研究伊朗社会动态、舆论趋势、媒体传播等具有重要价值。

## 数据基本信息

### 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| news_id | 字符串 | 新闻唯一标识符 | "1679378637000825502" | 100.00% |
| author_id | 字符串 | 作者标识符 | "Provinces" | 100.00% |
| author_name | 字符串 | 作者名称 | "استان ها" | 100.00% |
| title | 字符串 | 新闻标题 | "افزایش فوتیهای تصادفات جادهای در مازندران" | 100.00% |
| abstract | 字符串 | 新闻摘要 | "استاندار مازندران از افزایش فوتیهای تصادفات جادهای در مازندران خبر داد" | 100.00% |
| sentiment | 分类 | 情感标注 | "منفی" | 100.00% |
| hashtags | 数组 | 标签列表 | ["ترافیک", "مازندران", "تصادفات_جادهای"] | 96.92% |
| category | 分类 | 新闻分类 | "Provinces" | 100.00% |
| subcategories | 数组 | 子分类列表 | ["mazandaran"] | 91.31% |
| view_count | 数值 | 浏览量 | "7" | 100.00% |
| comment_count | 数值 | 评论数 | "1" | 100.00% |
| repost_count | 数值 | 转发数 | "1" | 100.00% |
| publication_year | 数值 | 发布年份 | 1402 | 100.00% |
| publication_month | 数值 | 发布月份 | 1 | 100.00% |
| publication_month_name | 字符串 | 月份名称 | "فروردین" | 100.00% |
| publication_day | 数值 | 发布日期 | 1 | 100.00% |
| publication_time | 字符串 | 发布时间 | "09:33" | 100.00% |
| news_text | 字符串 | 完整新闻文本 | "افزایش فوتیهای تصادفات جادهای در مازندران..." | 100.00% |
| url | 字符串 | 新闻链接 | "https://farsnews.ir/Provinces/..." | 100.00% |

### 情感分析分布

| 情感类型 | 记录数量 | 占比 |
|---------|---------|------|
| خنثی | 43,481 | 42.39% |
| مثبت | 32,660 | 31.84% |
| منفی | 24,883 | 24.26% |
| 未标注 | 1,521 | 1.48% |
| 其他 | 16 | 0.02% |

### 新闻分类分布

| 分类名称 | 记录数量 | 占比 |
|---------|---------|------|
| Provinces (省份) | 47,060 | 45.88% |
| Sports (体育) | 8,997 | 8.77% |
| world (国际) | 8,730 | 8.51% |
| social (社会) | 5,636 | 5.50% |
| economy (经济) | 4,405 | 4.29% |
| politics (政治) | 3,962 | 3.86% |
| Fars_plus (法尔斯+) | 3,081 | 3.00% |
| culture (文化) | 2,967 | 2.89% |
| University (大学) | 2,119 | 2.07% |
| Photo (图片) | 1,539 | 1.50% |
| ArtsandMedia (艺术与媒体) | 1,199 | 1.17% |
| ScientificAcademic (科学与学术) | 1,127 | 1.10% |
| 其他分类 | 8,643 | 8.43% |

### 子分类分布(Top 20)

| 子分类名称 | 记录数量 | 占比 |
|-----------|---------|------|
| ForeignPolicy_World (外交政策) | 5,361 | 5.23% |
| Football_Iran_Sports (伊朗足球) | 3,235 | 3.15% |
| WestAsia_World (西亚) | 2,906 | 2.83% |
| Others_Sports (其他体育) | 2,678 | 2.61% |
| provincefars (法尔斯省) | 2,634 | 2.57% |
| mazandaran (马赞德兰省) | 2,633 | 2.57% |
| Football_World_Sports (世界足球) | 2,560 | 2.50% |
| hormozgan (霍尔木兹甘省) | 2,472 | 2.41% |
| isfahan (伊斯法罕省) | 2,368 | 2.31% |
| tehran (德黑兰) | 2,234 | 2.18% |
| azerbaijan_sharghi (东阿塞拜疆省) | 2,191 | 2.14% |
| khuzestan (胡齐斯坦省) | 2,093 | 2.04% |
| Kohgiluyeh_Boyerahmad (科吉卢耶-博耶尔艾哈迈德省) | 2,052 | 2.00% |
| razavi (拉扎维省) | 1,880 | 1.83% |
| khorasan_jonubi (南霍拉桑省) | 1,805 | 1.76% |
| provinceilam (伊拉姆省) | 1,699 | 1.66% |
| semnan (塞姆南省) | 1,645 | 1.60% |
| provinceqom (库姆省) | 1,629 | 1.59% |
| zanjan (赞詹省) | 1,627 | 1.59% |
| alborz (阿尔博尔兹省) | 1,573 | 1.53% |

### 月份分布

| 月份 | 记录数量 | 占比 |
|-----|---------|------|
| فروردین (3月) | 14,844 | 14.47% |
| اردیبهشت (4月) | 17,651 | 17.21% |
| خرداد (5月) | 17,799 | 17.35% |
| تیر (6月) | 17,929 | 17.48% |
| مرداد (7月) | 17,481 | 17.04% |
| شهریور (8月) | 16,420 | 16.01% |

### 主要作者分布(Top 20)

| 作者名称 | 记录数量 | 占比 |
|---------|---------|------|
| استان ها (省份) | 47,134 | 45.96% |
| ورزشی (体育) | 9,687 | 9.44% |
| بین الملل (国际) | 7,348 | 7.16% |
| جامعه (社会) | 5,697 | 5.55% |
| سیاسی (政治) | 4,311 | 4.20% |
| اقتصادی (经济) | 4,041 | 3.94% |
| فرهنگ (文化) | 2,890 | 2.82% |
| خبرگزاری فارس (法尔斯通讯社) | 2,525 | 2.46% |
| منتخب رسانهها (媒体精选) | 2,514 | 2.45% |
| دانشگاه (大学) | 2,283 | 2.23% |
| عکس (图片) | 1,712 | 1.67% |
| هنر و رسانه (艺术与媒体) | 1,195 | 1.17% |
| علم و پیشرفت (科学与进步) | 1,138 | 1.11% |
| سیاست خارجی (外交政策) | 977 | 0.95% |
| باشگاه خبرنگاران توانا (塔瓦纳记者俱乐部) | 942 | 0.92% |
| بازار (市场) | 688 | 0.67% |
| زندگی (生活) | 676 | 0.66% |
| فارس پلاس (法尔斯+) | 422 | 0.41% |
| استان فارس (法尔斯省) | 369 | 0.36% |

### 标签分布(Top 30)

| 标签名称 | 记录数量 | 占比 |
|---------|---------|------|
| ایران (伊朗) | 5,295 | 5.16% |
| تهران (德黑兰) | 2,662 | 2.60% |
| آمریکا (美国) | 2,545 | 2.48% |
| اربعین (阿尔拜恩) | 2,407 | 2.35% |
| روسیه (俄罗斯) | 2,236 | 2.18% |
| فوتبال (足球) | 2,010 | 1.96% |
| مازندران (马赞德兰) | 1,583 | 1.54% |
| مجلس (议会) | 1,583 | 1.54% |
| تولید (生产) | 1,547 | 1.51% |
| فارس (法尔斯) | 1,536 | 1.50% |
| اوکراین (乌克兰) | 1,476 | 1.44% |
| اصفهان (伊斯法罕) | 1,467 | 1.43% |
| انتخابات (选举) | 1,334 | 1.30% |
| زائران (朝圣者) | 1,329 | 1.30% |
| دولت (政府) | 1,313 | 1.28% |
| استقلال (独立) | 1,282 | 1.25% |
| هرمزگان (霍尔木兹甘) | 1,278 | 1.25% |
| پرسپولیس (波斯波利斯) | 1,270 | 1.24% |
| دانشگاه (大学) | 1,258 | 1.23% |
| زنجان (赞詹) | 1,239 | 1.21% |
| حجاب (头巾) | 1,201 | 1.17% |
| شهید (烈士) | 1,199 | 1.17% |
| اقتصاد (经济) | 1,163 | 1.13% |
| ایلام (伊拉姆) | 1,137 | 1.11% |
| کشاورزی (农业) | 1,131 | 1.10% |
| هواشناسی (气象) | 1,127 | 1.10% |
| گردشگری (旅游) | 1,078 | 1.05% |
| خراسان_جنوبی (南霍拉桑) | 1,055 | 1.03% |
| فلسطین (巴勒斯坦) | 1,044 | 1.02% |
| پلیس (警察) | 1,032 | 1.01% |

### 互动数据统计

浏览量:最小值1,最大值9,852,平均值47.42
评论数:最小值1,最大值4,平均值1.00
转发数:最小值1,最大值9,平均值1.86

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 完整新闻文本 | 每条记录都包含完整的新闻正文内容,而非仅标题或摘要 | 支持深度文本分析、语义理解、长文本建模等任务 |
| 高质量情感标注 | 98.52%的记录包含情感标注(正向、负向、中性) | 可直接用于情感分析模型训练和评估 |
| 多层次分类体系 | 包含主分类和子分类,覆盖政治、经济、体育、社会等17个主要领域 | 支持多分类任务、领域自适应研究、跨领域对比分析 |
| 丰富元数据 | 包含作者、发布时间、标签、互动数据等17个字段 | 支持时间序列分析、作者风格研究、传播效果分析 |
| 地理覆盖全面 | 子分类涵盖伊朗31个省份中的大部分地区 | 支持地域性话题分析、区域舆情监测、地理信息关联研究 |
| 时间连续性 | 涵盖1402年首六个月的完整时间序列 | 支持趋势分析、事件追踪、时间序列预测 |
| 标签系统完善 | 96.92%的记录包含标签,标签总数超过3,000个 | 支持话题建模、关键词提取、标签推荐系统 |
| 互动数据完整 | 包含浏览量、评论数、转发数等社交媒体指标 | 支持传播效果分析、热门新闻预测、用户行为研究 |
| 数据规模适中 | 102,564条记录,适合训练中小规模模型 | 平衡了模型训练需求与计算资源消耗 |
| 原始URL保留 | 每条记录包含原始URL链接 | 支持数据溯源、内容验证、扩展信息获取 |

## 数据样例

由于数据集包含完整的波斯语新闻文本内容,以下展示20条具有代表性的元数据样例,这些样例涵盖了不同的分类、情感类型、时间段和地区,展示了数据集的多样性特征。

### 样例1
新闻ID:1679378637000825502
标题:افزایش فوتیهای تصادفات جادهای در مازندران/ برگزاری روزانه جلسات شورای ترافیک
摘要:استاندار مازندران از افزایش فوتیهای تصادفات جادهای در مازندران خبر داد و خواستار گفتمانسازی جادهای شد
情感:منفی
分类:Provinces
子分类:mazandaran
标签:ترافیک، مازندران، تصادفات_جادهای
作者:استان ها
发布时间:1402/1/1 09:33
浏览/评论/转发:7/1/1

### 样例2
新闻ID:1679378716000132914
标题:شب نشینی در اردوگاه شهید بلباسی خرمشهر با حضور فرمانده سپاه کربلا/مناطق عملیاتی تحول آفرین است
摘要:فرمانده سپاه کربلا در اردوگاه شهید بلباسی خرمشهر گفت: مناطق عملیاتی تحول آفرین است
情感:مثبت
分类:Provinces
子分类:khuzestan, mazandaran
标签:سپاه_کربلا، راهیان_نور، مناطق_عملیاتی، شهید_بلباسی
作者:استان ها
发布时间:1402/1/1 09:35
浏览/评论/转发:23/1/1

### 样例3
新闻ID:1679378970000844033
标题:پیام تبریک رییس دانشگاه تربیت مدرس به مناسبت فرارسیدن سال نو
摘要:رییس دانشگاه تربیت مدرس در پیامی فرا رسیدن عید نوروز و بهار قرآن را به تمامی دانشگاهیان تبریک گفت
情感:مثبت
分类:University
子分类:无
标签:دانشگاه_تربیت_مدرس، نوروز، بهار_قرآن
作者:دانشگاه
发布时间:1402/1/1 09:39
浏览/评论/转发:30/1/4

### 样例4
新闻ID:1679379337000718746
标题:تمهید بسترهای شادی و رفاه مسافران نوروزی در مازندران
摘要:معاون استاندار مازندران از تمهید بسترهای شادی و رفاه مسافران نوروزی در مازندران خبر داد
情感:مثبت
分类:Provinces
子分类:mazandaran
标签:مازندران، مسافران_نوروزی، نوروزخوانی، امیری_خوانی، کشتی_لوچو
作者:استان ها
发布时间:1402/1/1 09:45
浏览/评论/转发:16/1/1

### 样例5
新闻ID:1679379346000334996
标题:تحویل سال در گلزار شهدای بهبهان
摘要:در مراسم لحظه تحویل سال تعداد زیادی از مردم شهرستان بهبهان و خانواده شهدا با حضور در جوار قبور متبرک
情感:خنثی
分类:Provinces
子分类:khuzestan
标签:تحویل_سال، گلزار_شهدا، بهبهان
作者:خوزستان
发布时间:1402/1/1 09:45
浏览/评论/转发:34/1/1

### 样例6
新闻ID:1679379359000144806
标题:پیام تبریک نوروز نخستوزیر ارمنستان به ایران
摘要:نخستوزیر ارمنستان در پیامی فرا رسیدن عید نوروز را به رهبر معظم انقلاب و رئیسجمهور ایران تبریک گفت
情感:مثبت
分类:world
子分类:ForeignPolicy_World
标签:نوروز، تبریک، ارمنستان، ایران
作者:بین الملل
发布时间:1402/1/1 09:45
浏览/评论/转发:2/1/3

### 样例7
新闻ID:1679379715000897180
标题:نودشه، زیباترین شهر پلکانی کرمانشاه با بیشینه کلاش بافی/ پاپوشی که لنگه راست و چپ ندارد
摘要:شهر نودشه، زیباترین شهر پلکانی کرمانشاه با بیشینه کلاش بافی است و مهمانان نوروزی استان کرمانشاه لذت
情感:مثبت
分类:Provinces
子分类:kermanshah
标签:نودشه، شهر_پلکانی، کرمانشاه، کلاش_بافی
作者:استان ها
发布时间:1402/1/1 09:51
浏览/评论/转发:13/1/2

### 样例8
新闻ID:1679379737000770015
标题:امباپه کاپیتان تیم ملی فرانسه شد
摘要:کیلیان امباپه به عنوان کاپیتان جدید تیم ملی فرانسه انتخاب شد
情感:خنثی
分类:Sports
子分类:Football_World_Sports
标签:امباپه، تیم_ملی_فرانسه، کاپیتان
作者:ورزشی
发布时间:1402/1/1 09:52
浏览/评论/转发:3/1/3

### 样例9
新闻ID:1679379756000556196
标题:شورای شهر قم بودجه سال ۱۴۰۲ را تصویب کرد
摘要:شورای اسلامی شهر قم در نود و هفتمین جلسه رسمی خود بودجه سال ۱۴۰۲ شهرداری قم را تصویب کرد
情感:خنثی
分类:Provinces
子分类:provinceqom
标签:شورای_شهر، قم، بودجه، سال۱۴۰۲
作者:استان ها
发布时间:1402/1/1 09:52
浏览/评论/转发:8/1/1

### 样例10
新闻ID:1679379766000684755
标题:تسلیت وزیر ورزش به مناسبت شهادت سردار حاجی زاده
摘要:وزیر ورزش و جوانان در پیامی شهادت سردار حاجی زاده را تسلیت گفت
情感:منفی
分类:Sports
子分类:Others_Sports
标签:وزیر_ورزش، شهادت، سردار_حاجی_زاده، تسلیت
作者:ورزشی
发布时间:1402/1/1 09:52
浏览/评论/转发:4/1/1

### 样例11
新闻ID:1679379808000595270
标题:تحویل سال در حرم مطهر رضوی
摘要:مراسم تحویل سال ۱۴۰۲ در حرم مطهر رضوی با حضور مسئولان و زائران برگزار شد
情感:خنثی
分类:Provinces
子分类:razavi
标签:تحویل_سال، حرم_رضوی، مشهد، زائران
作者:استان ها
发布时间:1402/1/1 09:53
浏览/评论/转发:31/1/3

### 样例12
新闻ID:1679379826000186956
标题:افزایش نرخ بلیت حمل و نقل عمومی در خراسان شمالی
摘要:مدیرعامل سازمان حمل و نقل شهرداری بجنورد از افزایش نرخ بلیت حمل و نقل عمومی خبر داد
情感:منفی
分类:Provinces
子分类:khorasan_shomali
标签:حمل_و_نقل_عمومی، بلیت، خراسان_شمالی
作者:استان ها
发布时间:1402/1/1 09:54
浏览/评论/转发:4/1/1

### 样例13
新闻ID:1679377480000018087
标题:کنعانی: دشمنی با نظام جمهوری اسلامی و ملت ایران، بخش ثابت سیاست خارجی رژیم آمریکاست
摘要:سخنگوی وزارت امور خارجه گفت: دشمنی با نظام جمهوری اسلامی و ملت ایران، بخش ثابت سیاست خارجی رژیم آمریکا
情感:منفی
分类:world
子分类:ForeignPolicy_World
标签:کنعانی، دشمنی، ایران، آمریکا، نوروز
作者:سیاست خارجی
发布时间:1402/1/1 09:14
浏览/评论/转发:5/1/3

### 样例14
新闻ID:1679377700000088061
标题:ثبت یک فوتی کرونایی در مازندران
摘要:تعداد بستریشدگان کرونایی در مازندران افزایش یافت و یک مورد فوتی نیز ثبت شد
情感:منفی
分类:Provinces
子分类:mazandaran
标签:کرونا، مازندران، فوتی، پروتکل_بهداشتی
作者:استان ها
发布时间:1402/1/1 09:18
浏览/评论/转发:41/1/1

### 样例15
新闻ID:1679377757000743015
标题:زیرساختهای بهداشتی برای مسافران نوروزی بوشهر مهیا شد
摘要:زیرساختهای بهداشتی برای مسافران نوروزی بوشهر مهیا شد. ۲۲۰۰ چشمه سرویس بهداشتی توسط شهرداریها ایجاد
情感:مثبت
分类:Provinces
子分类:bushehr
标签:بوشهر، مسافران_نوروزی، بهداشت، سرویس_بهداشتی
作者:استان ها
发布时间:1402/1/1 09:19
浏览/评论/转发:38/1/1

### 样例16
新闻ID:1679378041000682429
标题:فارسمن| عملیات لکهگیری در محور هراز تداوم دارد
摘要:تداوم عملیات لکهگیری در محور هراز برای رفع چالهها در ایام نوروز به منظور ایمنی مسافران و خودروها
情感:خنثی
分类:Provinces
子分类:mazandaran
标签:هراز، چالههای، جاده، نوروز
作者:استان ها
发布时间:1402/1/1 09:24
浏览/评论/转发:19/1/3

### 样例17
新闻ID:1679378172000262106
标题:سال نو و اقدامات نو؛ ادامه فعالیتها در زمینه رشد تولید در دانشگاهها
摘要:تاکید بر ادامه فعالیت دانشگاهها در زمینه رشد تولید دانشبنیان و نقش آنها در تحقق شعار سال ۱۴۰۲
情感:مثبت
分类:University
子分类:Research_University
标签:دانشگاهها، رشد، تولید، دانشبنیان، تحقق، فرمان، سال1402
作者:دانشگاه
发布时间:1402/1/1 09:26
浏览/评论/转发:4/1/2

### 样例18
新闻ID:1679378244000705369
标题:۴۰۰هزار تن برنج پرمحصول در انبارهای مازندران ماند
摘要:ماندن 400 هزار تن برنج پرمحصول در انبارهای مازندران به دلیل واردات بیش از نیاز دولت
情感:منفی
分类:Provinces
子分类:mazandaran
标签:برنج، مازندران، واردات، تولیدکننده
作者:استان ها
发布时间:1402/1/1 09:27
浏览/评论/转发:15/1/1

### 样例19
新闻ID:1679378263000779402
标题:وام مسکن در گرو وامهای غیرضروری و خودمانی
摘要:لزوم تخصیص تسهیلات بیشتر به ساخت مسکن و کاهش تسهیلات غیرضروری توسط بانکها برای ساخت مسکن بدون ایجاد
情感:منفی
分类:Fars_plus
子分类:Wire_Plus
标签标签:وام، مسکن، تسهیلات، بانکها، تورم
作者:منتخب رسانهها
发布时间:1402/1/1 09:27
浏览/评论/转发:32/1/3

### 样例20
新闻ID:1679378386000699146
标题:تحویل سال نو همراه شقایقها
摘要:برگزاری مراسم تحویل سال ۱۴۰۲ در گلزار شهدای وادی رحمت تبریز با حضور مردم و خانواده شهدا
情感:خنثی
分类:Photo
子分类:无
标签:تحویل، سال، گلزار، شهدا، وادی، رحمت، تبریز
作者:عکس
发布时间:1402/1/1 09:29
浏览/评论/转发:23/1/3

## 应用场景

### 波斯语情感分析模型训练与评估

该数据集包含102,564条带有情感标注的波斯语新闻记录,其中98.52%的记录包含明确的情感标签(正向、负向、中性),为波斯语情感分析模型的训练和评估提供了高质量的数据基础。研究者可以利用该数据集训练基于深度学习的情感分类模型,如BERT、RoBERTa等预训练模型的波斯语版本,或者构建传统的机器学习模型,如SVM、随机森林等。数据集中的完整新闻文本使得模型能够学习到更丰富的语义信息和上下文特征,而不仅仅是标题或摘要。此外,数据集还包含少量其他情感类型(如担忧、警告、悲伤等),为细粒度情感分析提供了可能。通过在训练集、验证集和测试集上合理划分数据,研究者可以全面评估模型的性能,包括准确率、精确率、召回率、F1值等指标。该数据集还可以用于迁移学习研究,将在该数据集上训练的模型应用到其他波斯语文本领域,如社交媒体评论、产品评价等。

### 波斯语新闻分类与主题识别

数据集包含17个主要分类和数百个子分类,涵盖了政治、经济、体育、社会、文化、国际等多个领域,为波斯语新闻分类和主题识别任务提供了丰富的标注数据。研究者可以利用该数据集训练多分类模型,自动将新闻归类到预定义的类别中,或者使用无监督学习方法(如LDA主题模型、K-means聚类等)发现潜在的主题结构。由于数据集包含完整的新闻文本,模型可以基于更全面的内容进行分类,而非仅依赖标题或关键词。此外,子分类信息为层次化分类提供了可能,研究者可以构建层次分类模型,先进行粗粒度分类,再进行细粒度分类。该数据集还可以用于领域自适应研究,研究模型在不同领域之间的泛化能力,或者构建领域特定的分类器。在实际应用中,训练好的新闻分类系统可以用于新闻门户的内容组织、个性化推荐、舆情监测等场景。

### 波斯语自然语言处理基础研究

作为一个大规模的波斯语新闻语料库,该数据集为波斯语自然语言处理的各项基础研究提供了宝贵资源。研究者可以利用该数据集进行波斯语词法分析、句法分析、语义分析等研究,构建波斯语的词汇表、词向量、语言模型等基础工具。数据集中的完整文本使得研究者可以研究波斯语的文本特征,如词频分布、词长分布、句子长度分布等,或者进行命名实体识别、关系抽取、事件抽取等任务。由于数据集来自真实的新闻媒体,其语言风格和表达方式具有代表性,能够反映波斯语在正式场合的使用特点。此外,数据集中的标签系统为关键词提取、标签推荐、话题建模等任务提供了标注数据。研究者还可以利用该数据集构建波斯语的预训练语言模型,如BERT、GPT等,为下游任务提供强大的语义表示能力。这些基础研究成果将推动波斯语自然语言处理技术的发展,为其他应用提供技术支撑。

### 时间序列分析与事件追踪

数据集涵盖了1402年首六个月的完整时间序列,包含精确的发布时间信息(年、月、日、时),为时间序列分析和事件追踪提供了理想的数据基础。研究者可以分析不同时间段内的新闻数量变化、情感倾向变化、话题热度变化等趋势,识别重要事件的时间节点和持续时间。例如,可以分析诺鲁兹节(波斯新年)期间的新闻特征,从样例中可以看到大量与诺鲁兹相关的新闻集中在3月(法尔丁月)。通过时间序列分析,研究者可以构建新闻热度预测模型,预测未来时间段内可能的热点话题,或者构建事件检测模型,自动识别突发新闻事件。此外,数据集中的互动数据(浏览量、评论数、转发数)可以用于研究新闻传播的时间特征,如传播速度、传播范围等。这些研究对于媒体监测、舆情预警、事件响应等应用具有重要价值。

### 地域性话题分析与区域舆情监测

数据集的子分类涵盖了伊朗31个省份中的大部分地区,为地域性话题分析和区域舆情监测提供了丰富的数据。研究者可以分析不同省份的新闻主题分布、情感倾向、关注度等特征,识别地区性的热点话题和舆情趋势。例如,从数据统计可以看到,马赞德兰省、法尔斯省、霍尔木兹甘省等地区的新闻数量较多,可能是这些地区在数据集覆盖期间发生了较多重要事件。通过地域性分析,研究者可以构建区域舆情监测系统,实时监控不同地区的舆论动态,及时发现潜在的舆情风险。此外,可以研究跨地区的话题传播,分析某个话题在不同地区的传播路径和影响力差异。这些研究对于政府决策、区域发展规划、危机管理等应用具有重要参考价值。在实际应用中,地域性舆情监测系统可以帮助地方政府了解民意、评估政策效果、及时发现和应对社会问题。

### 新闻传播效果分析与用户行为研究

数据集包含浏览量、评论数、转发数等社交媒体互动数据,为新闻传播效果分析和用户行为研究提供了量化指标。研究者可以分析不同类型新闻的传播特征,如情感倾向与传播效果的关系、话题类型与传播效果的关系、发布时间与传播效果的关系等。例如,可以研究负面新闻是否比正面新闻更容易传播,或者体育新闻是否比政治新闻获得更多的互动。通过统计分析,研究者可以构建新闻热度预测模型,预测某条新闻可能获得的浏览量、评论数、转发数,为新闻编辑提供参考。此外,可以研究用户评论的情感特征,分析用户对不同类型新闻的反应模式。这些研究对于媒体运营、内容推荐、广告投放等应用具有重要价值。在实际应用中,传播效果分析可以帮助媒体优化内容策略,提高用户参与度和影响力。

### 跨语言信息检索与多语言对比研究

作为一个波斯语新闻数据集,该数据集可以用于跨语言信息检索和多语言对比研究。研究者可以将该数据集与其他语言的新闻数据集进行对比,研究不同语言媒体在报道同一事件时的差异,如报道角度、情感倾向、关键词使用等。例如,可以对比波斯语媒体和英语媒体对伊朗相关事件的报道差异,或者对比不同语言媒体对国际事件的报道重点。通过跨语言分析,研究者可以构建多语言信息检索系统,支持用户用一种语言查询多种语言的新闻内容。此外,可以研究机器翻译在新闻领域的应用,评估波斯语与其他语言之间的翻译质量。这些研究对于国际舆情监测、跨文化交流、多语言内容聚合等应用具有重要价值。在实际应用中,跨语言信息检索系统可以帮助用户获取多角度的新闻信息,促进信息共享和理解。

## 结尾

FarsNews 1402年首六个月新闻数据集是一个包含102,564条波斯语新闻记录的高质量数据集,具有完整新闻文本、高质量情感标注、多层次分类体系、丰富元数据等核心优势。该数据集覆盖政治、经济、体育、社会、文化、国际等多个领域,涵盖伊朗大部分地区,时间跨度完整,为波斯语自然语言处理研究提供了宝贵资源。数据集的完整性和多样性使其适用于情感分析、新闻分类、主题识别、时间序列分析、地域性分析、传播效果分析等多种应用场景,对于推动波斯语自然语言处理技术的发展、促进伊朗社会动态研究、支持媒体监测和舆情分析等具有重要价值。研究者可以利用该数据集训练和评估各种波斯语文本理解模型,或者进行跨语言对比研究,为多语言信息检索和国际舆情监测提供支持。该数据集的开放使用将促进波斯语自然语言处理研究的发展,为相关应用提供数据基础和技术支撑。有需要可私信获取更多信息。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
FarsNews_1402年首六个月新闻数据集_10万条_波斯语_情感分析_多分类标注_完整新闻文本-波斯语自然语言处理、情感分析、新闻分类、话题建模-训练和评估波斯语文本理解模型-伊朗社会动态、舆论
10
已售 0
535.64MB
申请报告