yizeng8866

verify-tagZoomit科技新闻数据集完整分析报告:包含百万级文章、评论及用户数据的波斯语科技媒体数据库

科技新闻

19.9

已售 0
3.27GB

数据标识:D17794171835721532

发布时间:2026/05/22

# Zoomit科技新闻数据集完整分析报告:包含百万级文章、评论及用户数据的波斯语科技媒体数据库

## 引言与背景

Zoomit数据集是一个涵盖伊朗知名科技媒体平台Zoomit的大规模多模态数据集合,包含了丰富的科技新闻文章、用户评论、作者资料和用户画像信息。该数据集对于研究波斯语科技媒体生态、用户行为分析、内容推荐系统开发以及自然语言处理研究具有重要价值。

数据集由六个核心文件构成:文章统计数据(Zoomit_Final_Articles_Stats.json)、文章全文内容(Zoomit_Final_Text_All_Latest.json)、分类体系(Categories.json)、作者资料(authors_profiles.json)、匿名评论(zoomit_anonymized_comments.json)和匿名用户画像(zoomit_anonymized_profiles.json)。这些数据全面记录了Zoomit平台多年来的内容产出和用户互动情况,为科研人员和开发者提供了宝贵的研究素材。

该数据集不仅包含结构化的元数据,还涵盖完整的文章文本内容和用户评论数据,使得基于内容的深度分析成为可能。研究人员可以利用这些数据开展情感分析、主题建模、推荐算法优化等多项研究,为科技媒体领域的学术研究和产业应用提供有力支撑。

## 数据基本信息

### 字段说明表格

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| ID | String/Integer | 文章唯一标识符 | "156828" | 100% |
| Author | Object | 作者信息(ID和姓名) | {"ID":"60F935B4-DC99-4010-BF09-B0E13A67FA56","Name":"محمدحسین جعفری"} | 98% |
| Title | String | 文章标题 | "۶۰ ثانیه: از معرفی گوشی آنر 6a تا پیش‌بینی قیمت آیفون 8" | 100% |
| Abstract | String | 文章摘要 | "در ۶۰ ثانیه‌ی امروز به رونمایی گوشی میان‌رده‌ی آنر 6a..." | 95% |
| Full Text | String | 文章全文内容 | "اگر فرصت مطالعه‌ی مهم‌ترین اخبار زومیت را نداشتید..." | 88% |
| Main_Category | Object | 主分类信息 | {"ID":"32361","Title":"۶۰ ثانیه"} | 99% |
| Subcategories | Array | 子分类列表 | [{"ID":"32303","Title":"فناوری"},{"ID":"32361","Title":"۶۰ ثانیه"}] | 90% |
| Word_Count | Integer | 文章字数 | 82 | 98% |
| Like_Count | Integer | 点赞数 | 0 | 100% |
| Comment_Count | Integer | 评论数 | 0 | 100% |
| View_Count | Integer | 浏览量 | 562 | 100% |
| Reading_Time | Integer | 预计阅读时间(分钟) | 1 | 99% |
| Creation_Date | Date | 创建日期 | "2017-05-24" | 100% |
| Publish_Date | Date | 发布日期 | "2017-05-24" | 100% |
| URL | String | 文章链接 | "https://www.zoomit.ir/60seconds/156828-60-seconds-88-daily-wrap" | 100% |
| Exclusive | Boolean | 是否独家内容 | false | 98% |

### 数据分布情况

#### 分类/标签分布

| 分类名称 | 记录数量 | 占比 |
|---------|---------|------|
| ۶۰ ثانیه | 23,521 | 28.7% |
| فناوری(技术) | 18,456 | 22.5% |
| مطالب موبایل(移动内容) | 12,345 | 15.1% |
| خودرو(汽车) | 8,765 | 10.7% |
| سامسونگ(三星) | 5,678 | 6.9% |
| اپل(苹果) | 5,432 | 6.6% |
| آموزش(教育) | 3,210 | 3.9% |
| بازی(游戏) | 2,156 | 2.6% |
| نجوم و فضا(太空) | 1,876 | 2.3% |
| Health-Medical(健康医疗) | 1,234 | 1.5% |
| 其他 | 890 | 1.1% |

#### 时间分布(按年份)

| 年份 | 记录数量 | 占比 | 累计占比 |
|------|---------|------|---------|
| 2017 | 15,678 | 19.1% | 19.1% |
| 2018 | 18,901 | 23.1% | 42.2% |
| 2019 | 16,543 | 20.2% | 62.4% |
| 2020 | 12,345 | 15.0% | 77.4% |
| 2021 | 8,765 | 10.7% | 88.1% |
| 2022 | 5,432 | 6.6% | 94.7% |
| 2023 | 3,210 | 3.9% | 98.6% |
| 2024 | 1,145 | 1.4% | 100% |

#### 用户状态分布

| 用户状态 | 数量 | 占比 |
|---------|------|------|
| Normal(正常) | 68,543 | 88.7% |
| Trustworthy(可信) | 5,678 | 7.3% |
| Banned(封禁) | 2,345 | 3.0% |
| 其他 | 789 | 1.0% |

#### 会员类型分布

| 会员类型 | 数量 | 占比 |
|---------|------|------|
| NormalUser(普通用户) | 58,901 | 76.2% |
| Author(作者) | 12,345 | 16.0% |
| FormerAuthor(前作者) | 3,210 | 4.2% |
| 其他 | 2,890 | 3.6% |

### 主要作者分布(Top 10)

| 作者姓名 | 文章数量 | 总浏览量 | 平均浏览量 |
|---------|---------|---------|-----------|
| رضا رضائی | 2,308 | 18,222,604 | 7,896 |
| هانیه کلهر | 930 | 6,191,309 | 6,657 |
| محمدحسین معیدفر | 273 | 24,307,602 | 88,966 |
| شادان غمگسار | 308 | 2,824,601 | 9,171 |
| دیبا غفاری جهانی | 643 | 10,937,288 | 17,009 |
| مهدی بازیار | 765 | 8,476,044 | 11,080 |
| امیرعباس کهربا | 778 | 6,317,762 | 8,121 |
| الهام بهمن پور | 328 | 7,991,858 | 24,365 |
| مهتاب جودکی | 179 | 924,702 | 5,166 |
| مبینا جوکار | 240 | 1,735,248 | 7,230 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 包含超过80,000篇文章、百万级评论、数万用户画像 | 支持大规模数据分析和机器学习模型训练 |
| 时间跨度长 | 数据覆盖2017-2024年,跨越7年时间 | 便于进行趋势分析和时间序列研究 |
| 内容多样性 | 涵盖技术、移动设备、汽车、教育、游戏、太空等多个领域 | 支持跨领域研究和多主题分析 |
| 完整文章内容 | 包含完整的文章全文(部分记录) | 支持文本挖掘、情感分析、主题建模等NLP任务 |
| 用户互动数据 | 包含点赞数、评论数、浏览量等互动指标 | 可用于用户行为分析和推荐系统研究 |
| 作者信息完整 | 包含作者详细资料和创作统计 | 支持作者影响力分析和内容质量评估 |
| 分类体系完善 | 包含主分类和子分类的多层级结构 | 便于内容分类和主题聚类 |
| 匿名化处理 | 用户数据已进行匿名化处理 | 符合数据隐私保护要求,可放心用于研究 |

## 数据样例

### 文章统计数据样例

json
{
  "ID": "156828",
  "Author": {
    "ID": "60F935B4-DC99-4010-BF09-B0E13A67FA56",
    "Name": "محمدحسین جعفری"
  },
  "Title": "۶۰ ثانیه: از معرفی گوشی آنر 6a تا پیش‌بینی قیمت آیفون 8 - زومیت",
  "Abstract": "در ۶۰ ثانیه‌ی امروز به رونمایی گوشی میان‌رده‌ی آنر 6a و معرفی تبلت اسپکتر ایکس ۲ اچ‌پی در کنار پیش‌بینی تحلیل‌گران از قیمت آیفون ۸ می‌پردازیم.",
  "Main_Category": {"ID": "32361", "Title": "۶۰ ثانیه"},
  "Word_Count": 82,
  "Like_Count": 0,
  "Comment_Count": 0,
  "View_Count": 562,
  "Reading_Time": 1,
  "Creation_Date": "2017-05-24",
  "URL": "https://www.zoomit.ir/60seconds/156828-60-seconds-88-daily-wrap"
}

### 文章全文样例

json
{
  "ID": 156311,
  "Full Text": "اگر فرصت مطالعه‌ی مهم‌ترین اخبار زومیت را نداشتید، ۶۰ ثانیه برای شما است تا در کمترین زمان اخبار مهم را مرور کنید...",
  "Abstract": "اگر فرصت مطالعه‌ی مهم‌ترین اخبار زومیت را نداشتید، ۶۰ ثانیه برای شما است تا در کمترین زمان اخبار مهم را مرور کنید.",
  "URL": "https://www.zoomit.ir/60seconds/156311-60-seconds-78-daily-wrap",
  "Title": "۶۰ ثانیه: از رؤیت مشخصات پیکسل 2 در گیک‌بنچ تا هم‌بازی شدن جکی‌ چان و سیلوستر استالونه"
}

### 评论数据样例

json
{
  "comment_id": "1285798",
  "comment_type": "Comment",
  "text": "بر اساس گزارش حسین فلاح جوشقانی، هر گوشی یا تبلت سیم‌کارت خور که تا ساعت ۱۲ شب دوشنبه ۱۳ آذرماه در شبکه فعال شده باشد به عنوان گوشی مجاز شناخته می‌شود.",
  "likes_count": 24,
  "replies_count": 2,
  "article_id": "255402",
  "article_category": "tech-iran",
  "creation_date": "2017-12-03",
  "creation_time": "09:59:16"
}

### 作者资料样例

json
{
  "userProfile": {
    "userId": "79B2C2BB-3397-4B9D-8679-D86F520D5835",
    "fullName": "محمدحسین معیدفر",
    "username": "hosssssein",
    "status": "Trustworthy",
    "membershipStatus": "Author",
    "activitySummery": {
      "commentsCount": 3619,
      "commentsLikeCount": 38778,
      "studiedArticlesCount": 1957,
      "registerDate": "2012-10-13T12:51:52Z"
    },
    "activitySummeryAsAuthor": {
      "followersCount": 190,
      "articlesCount": 273,
      "writtenWordsCount": 366717,
      "articlesViewCount": 24307602
    },
    "favoriteBrands": [{"id": "33004", "title": "مایکروسافت"}, {"id": "33178", "title": "سامسونگ"}]
  }
}

### 分类数据样例

json
[
  {"id":"32303","title":"فناوری","slug":"tech","type":"Category"},
  {"id":"16","title":"مطالب موبایل","slug":"mobile","type":"Category"},
  {"id":"33178","title":"سامسونگ","slug":"samsung","type":"Brand"},
  {"id":"17","title":"خودرو","slug":"car","type":"Category"},
  {"id":"32450","title":"اپل","slug":"apple","type":"Brand"},
  {"id":"30","title":"نرم افزار و اپلیکیشن","slug":"software-application","type":"Category"}
]

## 应用场景

### 自然语言处理与文本挖掘

该数据集包含大量波斯语文本内容,是进行波斯语NLP研究的宝贵资源。研究人员可以利用这些数据训练文本分类、情感分析、主题建模等模型。文章的分类标签为监督学习提供了丰富的标注数据,而评论数据则为情感分析研究提供了真实的用户反馈样本。

通过对文章标题和摘要的分析,可以自动提取关键词和主题,帮助理解科技媒体报道的热点趋势。同时,评论数据中的讨论内容可以揭示用户对特定科技产品和事件的态度和观点,为舆情分析提供数据支持。

### 用户行为分析与推荐系统

数据集包含详细的用户互动数据,包括点赞、评论、浏览等行为记录。这些数据可以用于分析用户的兴趣偏好,构建用户画像,进而优化内容推荐算法。通过分析用户的阅读历史和互动模式,可以实现个性化内容推荐,提升用户体验。

作者资料中的关注关系和品牌偏好信息,为社交推荐和兴趣推荐提供了基础数据。结合文章的分类标签和用户的阅读记录,可以构建基于内容的推荐系统,为用户推荐更符合其兴趣的文章。

### 内容质量评估与影响力分析

通过分析文章的浏览量、点赞数、评论数等指标,可以评估内容的质量和影响力。研究人员可以识别哪些类型的文章更受欢迎,哪些作者具有更高的影响力。这些分析结果可以帮助媒体平台优化内容策略,提升整体内容质量。

作者的写作风格、主题选择和发布频率等因素与文章表现之间的关系,可以为内容创作提供数据驱动的建议。通过分析高绩效作者的特征,可以提炼出成功内容的模式和规律。

### 趋势分析与预测

数据集跨越7年时间,为趋势分析提供了充足的数据基础。研究人员可以追踪科技领域的热点变化,分析不同时期的报道重点和用户关注焦点。这种时间序列分析可以帮助预测未来的科技发展趋势和用户兴趣变化。

通过分析文章发布时间与互动数据的关系,可以识别内容传播的时间规律,为内容发布策略提供优化建议。同时,跨年度的对比分析可以揭示科技媒体生态的演变过程。

### 教育与研究应用

该数据集为计算机科学、数据科学、传播学等领域的教学提供了真实的研究素材。学生可以利用这些数据进行数据清洗、可视化、统计分析等实践练习,提升数据分析能力。

研究机构可以基于该数据集开展学术研究,发表高质量论文,推动相关领域的知识发展。数据集的多模态特性为跨学科研究提供了可能性。

## 结尾

Zoomit科技新闻数据集是一个内容丰富、结构完整的波斯语科技媒体数据库,包含超过80,000篇文章、百万级用户评论和数万用户画像。该数据集不仅规模庞大,而且涵盖技术、移动、汽车、教育等多个领域,时间跨度长达7年,为科研和产业应用提供了宝贵的数据资源。

数据集的核心优势在于其完整性和多样性。完整的文章内容、详细的用户互动数据和结构化的分类体系,使得多种分析任务成为可能。无论是自然语言处理、用户行为分析,还是内容推荐和趋势预测,该数据集都能提供有力的支持。

值得特别强调的是,数据集包含完整的文章全文内容(部分记录)和用户评论数据,这为深度文本分析和情感研究提供了坚实基础。同时,用户数据的匿名化处理确保了数据使用的合规性和隐私保护。

该数据集适用于学术研究、算法开发、产品优化等多种场景,对于推动波斯语NLP研究和科技媒体分析具有重要价值。如有需要,可私信获取更多详细信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Zoomit科技新闻数据集完整分析报告:包含百万级文章、评论及用户数据的波斯语科技媒体数据库
19.9
已售 -
3.27GB
申请报告