きゅがんせん

verify-tag波斯语新闻数据集:asriran新闻数据33万条完整内容分析

新闻数据波斯语

29

已售 0
1.01GB

数据标识:D17794379800731331

发布时间:2026/05/22

# 波斯语新闻数据集:asriran新闻数据33万条完整内容分析

## 引言与背景

在当今数字化时代,多语言新闻数据的价值日益凸显,尤其是对于自然语言处理(NLP)研究、跨文化传播分析以及区域舆情监测等领域。本数据集源自伊朗主流新闻网站asriran.com,包含超过33万条波斯语新闻记录,涵盖政治、经济、社会、国际、体育、文化等多个领域,为研究者和开发者提供了丰富的语料资源。

该数据集包含完整的新闻元数据和正文内容,其中每条记录均包含标题、短链接、发布时间、服务类型、子类别、摘要和正文七个字段。这些数据不仅反映了伊朗及国际社会的重要事件动态,也为波斯语NLP模型训练、文本分类、情感分析等任务提供了宝贵的训练素材。对于研究中东地区媒体生态、跨文化传播模式以及波斯语信息处理技术的学者而言,本数据集具有重要的学术价值和应用前景。

## 数据基本信息

### 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| title | 字符串 | 新闻标题 | پلیس: جرائم خشن و مسلحانه در تهران کاهش یافته است | 100% |
| shortlink | 字符串 | 新闻短链接 | https://www.asriran.com/003YoB | 100% |
| time | 字符串 | 发布时间 | ۰۸:۴۱ - ۲۳ تير ۱۴۰۱ | 100% |
| service | 字符串 | 服务/栏目类型 | صفحه نخست | 100% |
| subgroup | 字符串 | 子类别 | عمومی | 100% |
| abstract | 字符串 | 新闻摘要 | آمارهای پلیس نشان می‌دهد که جرائم خشن... | 45.76% |
| body | 字符串 | 新闻正文 | رئیس پلیس آگاهی تهران بزرگ اعلام کرد... | 86.97% |

### 数据分布情况

#### 服务类型分布

| 服务类型 | 记录数量 | 占比 |
|---------|---------|------|
| صفحه نخست | 327,099 | 96.25% |
| عصرايران دو | 12,735 | 3.75% |

#### 子类别分布(按占比排序)

| 子类别 | 记录数量 | 占比 |
|-------|---------|------|
| اجتماعی | 97,274 | 28.62% |
| بین الملل | 56,581 | 16.65% |
| سیاسی | 46,104 | 13.57% |
| اقتصادی | 35,910 | 10.57% |
| ورزشی | 27,999 | 8.24% |
| فرهنگی/هنری | 16,859 | 4.96% |
| سیاست خارجی | 11,864 | 3.49% |
| خواندنی ها و دیدنی ها | 11,018 | 3.24% |
| حوادث | 10,865 | 3.20% |
| سلامت | 10,488 | 3.09% |
| عمومی | 6,215 | 1.83% |
| فناوری و IT | 2,851 | 0.84% |
| علمی | 2,439 | 0.72% |
| روانشناسی | 885 | 0.26% |
| سرگرمی | 509 | 0.15% |

#### 时间分布(波斯历年份)

| 年份 | 记录数量 | 占比 | 累计占比 |
|-----|---------|------|---------|
| ۱۳۹۶ | 68,504 | 20.16% | 20.16% |
| ۱۳۹۸ | 59,684 | 17.56% | 37.72% |
| ۱۳۹۷ | 58,489 | 17.21% | 54.93% |
| ۱۳۹۹ | 56,106 | 16.51% | 71.44% |
| ۱۴۰۰ | 55,116 | 16.22% | 87.66% |
| ۱۳۹۵ | 26,056 | 7.67% | 95.33% |
| ۱۴۰۱ | 15,879 | 4.67% | 100.00% |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 超过33万条新闻记录,涵盖7年时间跨度 | 为大规模NLP模型训练提供充足语料 |
| 内容类别丰富 | 覆盖15个主要类别,包括社会、政治、经济、体育等 | 支持多领域文本分类和主题建模研究 |
| 正文完整性高 | 正文字段完整率达86.97% | 适用于全文理解、信息抽取等深度分析任务 |
| 时间跨度连续 | 包含波斯历1395至1401年的新闻数据 | 支持时序分析和趋势研究 |
| 来源权威性 | 数据源自伊朗主流新闻网站asriran.com | 保证内容的真实性和可靠性 |
| 元数据完整 | 标题、时间、类别等元数据100%完整 | 便于数据筛选和分类处理 |

## 数据样例

以下展示10条具有代表性的新闻数据样例,涵盖不同类别和时间段:

样例1 - 社会类 - 标题:پلیس: جرائم خشن و مسلحانه در تهران کاهش یافته است - 时间:۰۸:۴۱ - ۲۳ تير ۱۴۰۱ - 类别:عمومی - 摘要:آمارهای پلیس نشان می‌دهد که جرائم خشن و مسلحانه در تهران کاهش داشته است样例2 - 健康类 - 标题:وزیر بهداشت: آغاز اجرای طرح جامع "دارویار"/ افزایش پوشش بیمه‌ای داروها - 时间:۰۸:۴۷ - ۲۳ تير ۱۴۰۱ - 类别:اخبار سلامت - 摘要:هدف اصلی وزارت بهداشت از این طرح این است که پوشش بیمه‌ای داروها را افزایش دهیم样例3 - 社会类 - 标题:وزارت بهداشت: قیمت دارو برای مصرف کننده ثابت می‌ماند - 时间:۰۹:۰۸ - ۲۳ تير ۱۴۰۱ - 类别:اجتماعی样例4 - 政治类 - 标题:معاون رئیسی: مردم به زودی شاهد اثرات مثبت اقدامات دولت خواهند بود - 时间:۱۶:۴۶ - ۱۶ تير ۱۴۰۱ - 类别:سیاسی - 摘要:معاون امور مجلس رئیس جمهور: استان گیلان دارای شخصیت‌های برجسته دینی، علمی و فرهنگی...样例5 - 社会类 - 标题:دستگیری سارق ۲۰ هزار دلاری ارز دیجیتال در گلستان - 时间:۱۶:۴۱ - ۱۶ تير ۱۴۰۱ - 类别:اجتماعی - 摘要:شهروندان توصیه‌های پلیس فتا را جدی بگیرند...样例6 - 环境类 - 标题:رونمایی از آمبولانس حیات وحش استان بوشهر - 时间:۱۳:۳۱ - ۱۳ تير ۱۴۰۱ - 类别:محیط زیست - 摘要:از همین رو پیشنهاد احداث یک واحد درمان و نقاهتگاه پیشرفته برای گونه‌های مختلف حیات وحش...样例7 - 政治类 - 标题:معاون وزیر اطلاعات: فضای مجازی بلای خانمان سوز است/ برخی ناخواسته در زمین دشمن بازی می‌کنند - 时间:۰۹:۲۳ - ۲۳ تير ۱۴۰۱ - 类别:سیاسی - 摘要:مقام معظم رهبری بیان کردند اگر رهبر نبودند مسئولیت فضای مجازی را به عهده می‌گرفتند...样例8 - 国际类 - 标题:آبکش شدن با 60 گلوله پلیس؛ تاوان فرار یک جوان سیاه پوست از دست پلیس آمریکا - 时间:۱۲:۰۶ - ۱۳ تير ۱۴۰۱ - 类别:سیاسی - 摘要:خانواده این جوان 25 ساله آمریکایی گفته اند رفتار پلیس شهر آکرون...样例9 - 突发事件类 - 标题:درگذشت دانشجوی دانشگاه فرهنگیان - 时间:۱۵:۱۸ - ۱۲ تير ۱۴۰۱ - 类别:حوادث - 摘要:"متین حبیب لی" دانشجومعلم رشته آموزش ابتدایی ۹۷ پردیس آیت الله خامنه‌ای گرگان بود样例10 - 社会类 - 标题:پلیس فتا: تشدید مقابله با لایوهای غیر اخلاقی در اینستاگرام - 时间:۱۴:۵۸ - ۱۲ تير ۱۴۰۱ - 类别:اجتماعی - 摘要:رصد این گونه جریانات غیر اخلاقی که مغایر با شئونات اسلامی...样例11 - 突发事件类 - 标题:زاهدان/ غرق شدن 3 کودک در ظروف ذخیره آب خانگی - 时间:۱۵:۰۵ - ۱۲ تير ۱۴۰۱ - 类别:حوادث - 摘要:گاهی مردم با قطعی آب روبه رو هستند...样例12 - 文化类 - 标题:تمدید نظرسنجی مردمی جشنواره فیلم‌های ورزشی تا ۲۷ تیرماه - 时间:۱۶:۳۷ - ۱۱ تير ۱۴۰۱ - 类别:فرهنگی/هنری - 摘要:بهترین‌های ورزش تلویزیون در نظرسنجی سیزدهمین جشنواره...样例13 - 经济类 - 标题:هزینه خانوار در شش سال گذشته چند برابر شد؟ / فقیرترین خانوارها بیش‌ترین آسیب را از تورم دیدند - 时间:۱۲:۱۸ - ۱۱ تير ۱۴۰۱ - 类别:اقتصادی - 摘要:دهک دوم و اول (پایین‌ترین دهک‌های هزینه‌ای) بیش‌ترین افزایش هزینه را داشتند样例14 - 社会类 - 标题:سخنان درست رحیم‌پور ازغدی و قالیباف دربارۀ مسألۀ حجاب - 时间:۱۲:۳۷ - ۲۲ تير ۱۴۰۱ - 类别:اجتماعی - 摘要:« اشتباه کردیم حجاب را بین صفر و صد محدود کردیم...样例15 - 国际类 - 标题:به کعبه دست نزنید! - 时间:۱۴:۵۰ - ۱۱ تير ۱۴۰۱ - 类别:بین الملل - 摘要:اما در شهر مدینه و در مسجدالنبی و قبرستان بقیع...样例16 - 健康类 - 标题:بهترین منابع غذایی لیکوپن کدامند؟ - 时间:۱۲:۲۰ - ۱۱ تير ۱۴۰۱ - 类别:سلامت - 摘要:لیکوپن یکی از انواع کاروتنوئیدهاست که طیف رنگی قرمز...样例17 - 突发事件类 - 标题:زلزله شدید در هرمزگان/ تمام ادارات دولتی امروز "شنبه" تعطیل شدند - 时间:۰۹:۳۰ - ۱۱ تير ۱۴۰۱ - 类别:حوادث - 摘要:دستگاه‌های و نهادهای امدادی، عملیاتی و خدمات رسان همچنان به کار خود ادامه خواهند داد...

## 应用场景

### 波斯语NLP模型训练

本数据集为波斯语自然语言处理研究提供了丰富的训练语料。超过33万条的新闻记录覆盖了多个领域,包含完整的正文内容,可用于训练和优化波斯语文本分类、情感分析、命名实体识别、文本生成等多种NLP模型。研究人员可以利用这些数据构建更准确的波斯语语言模型,推动波斯语信息处理技术的发展。

### 跨文化传播研究

该数据集记录了伊朗及国际社会的各类新闻事件,为跨文化传播研究提供了宝贵的素材。研究者可以分析不同类别新闻的传播模式、热点话题演变、媒体议程设置等问题,深入了解伊朗媒体生态和社会舆论动态。通过对比不同时期的新闻内容,还可以研究社会变迁和文化演变趋势。

### 区域舆情监测

对于关注中东地区动态的机构和研究者而言,本数据集可用于舆情监测和分析。通过对政治、经济、社会等类别的新闻进行实时跟踪和分析,可以及时掌握伊朗社会的热点议题、公众情绪变化以及重要事件的发展脉络。这对于国际事务研究、政策分析和风险评估具有重要参考价值。

### 教育与研究资源

该数据集可作为波斯语学习和研究的重要资源。语言学习者可以通过阅读真实的新闻文本提高波斯语水平,了解伊朗社会文化。研究者可以利用这些数据进行语言学研究,如词汇分析、句法结构研究等。同时,数据集的多样性也为比较语言学研究提供了基础。

### 内容推荐与信息检索

基于该数据集训练的推荐模型可以为波斯语用户提供更精准的新闻推荐服务。通过分析用户的阅读偏好和新闻内容特征,可以实现个性化推荐。此外,数据集还可用于构建波斯语新闻检索系统,提高信息检索的准确性和相关性。

## 结尾

本数据集作为伊朗主流新闻网站asriran.com的大规模新闻语料,具有数据规模大、内容类别丰富、时间跨度连续等显著优势。超过33万条的新闻记录涵盖了社会、政治、经济、国际、体育、文化等多个领域,为波斯语NLP研究、跨文化传播分析、区域舆情监测等提供了宝贵的资源。

数据集的核心价值在于其完整性和多样性。正文字段完整率达86.97%,元数据100%完整,支持多种研究和应用场景。研究人员和开发者可以利用这些数据进行模型训练、文本分析、趋势研究等工作,推动波斯语信息处理技术的发展和应用。

如需获取更多关于数据集的信息或有合作研究意向,欢迎私信联系。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
波斯语新闻数据集:asriran新闻数据33万条完整内容分析
29
已售 -
1.01GB
申请报告