# YouTube摔跤手抗议评论数据集分析报告
## 引言与背景
2023年印度摔跤手抗议事件是印度体育史上具有重大影响力的社会事件,引发了广泛的社会关注和公众讨论。本数据集收录了YouTube平台上与该事件相关的超过111万条用户评论,为研究社交媒体上的公众舆论、社会运动传播、网络话语分析提供了宝贵的数据资源。
该数据集包含完整的评论元数据信息,包括评论内容、作者信息、发布时间、点赞数等字段,覆盖了抗议事件的关键时间段(2023年1月至7月)。这些数据对于理解公众对该事件的态度、情绪变化、信息传播模式具有重要的研究价值,可为社会科学研究、舆情分析、自然语言处理模型训练提供高质量的数据支持。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| :--- | :--- | :--- | :--- | :--- |
| videoId | 字符串 | YouTube视频ID | EBOKYsWUhvI | 100% |
| textDisplay | 字符串 | 评论显示文本(含格式) | Dub maro jaato 😢😢. | 100% |
| textOriginal | 字符串 | 评论原始文本(无格式) | Dub maro jaato 😢😢. | 100% |
| authorDisplayName | 字符串 | 作者显示名称 | HECTOR OF TROY | 100% |
| authorProfileImageUrl | 字符串 | 作者头像URL | https://yt3.ggpht.com/... | 100% |
| authorChannelUrl | 字符串 | 作者频道URL | http://www.youtube.com/channel/... | 100% |
| authorChannelId | 字符串 | 作者频道ID | {'value': 'UC5G8fjqoiFIqHpKyVeOTsFg'} | 100% |
| canRate | 布尔值 | 是否可评分 | True | 100% |
| viewerRating | 字符串 | 观看者评分 | none | 100% |
| likeCount | 整数 | 点赞数量 | 0 | 100% |
| publishedAt | 字符串 | 发布时间 | 2023-07-06T07:04:02Z | 100% |
| updatedAt | 字符串 | 更新时间 | 2023-07-06T07:04:02Z | 100% |
| parentId | 字符串 | 父评论ID(回复时存在) | UgwDzAbEUY4yv7HPlax4AaABAg | 76.94% |
| commentId | 字符串 | 评论唯一ID | UgwbyvIkkAhUdaCFpcp4AaABAg | 100% |
### 数据规模概览
- 总评论数: 1,119,948 条
- 涉及视频数: 188 个
- 独特作者数: 55,169 位
- 总点赞数: 670,515 次
- 数据时间范围: 2023年1月至2023年7月
### 时间分布
#### 月度分布
| 月份 | 记录数量 | 占比 | 累计占比 |
| :--- | :--- | :--- | :--- |
| 2023-05 | 672,084 | 59.99% | 59.99% |
| 2023-06 | 197,036 | 17.60% | 77.59% |
| 2023-04 | 113,511 | 10.13% | 87.72% |
| 2023-01 | 9,940 | 0.89% | 88.61% |
| 2023-07 | 3,739 | 0.33% | 88.94% |
| 2023-02 | 79 | 0.01% | 88.95% |
| 2023-03 | 30 | 0.00% | 88.95% |
#### 小时分布(UTC时间)
| 时段 | 记录数量 | 占比 |
| :--- | :--- | :--- |
| 16:00-17:00 | 65,340 | 5.83% |
| 15:00-16:00 | 65,065 | 5.81% |
| 10:00-11:00 | 60,201 | 5.38% |
| 11:00-12:00 | 60,201 | 5.38% |
| 17:00-18:00 | 60,859 | 5.44% |
### 评论类型分布
| 类型 | 记录数量 | 占比 |
| :--- | :--- | :--- |
| 原创评论 | 861,719 | 76.94% |
| 回复评论 | 258,229 | 23.06% |
### 主要作者分布
| 作者名称 | 评论数量 | 占比 |
| :--- | :--- | :--- |
| Nightmare Reality | 955 | 0.09% |
| HansteRaho | 894 | 0.08% |
| Amit Kumar | 812 | 0.07% |
| Anil Kumar | 715 | 0.06% |
| Suriyha Prakhas | 665 | 0.06% |
| Manoj Kumar | 654 | 0.06% |
| Manish Kumar | 652 | 0.06% |
| Be Human First | 624 | 0.06% |
| Jayant kumar Mishra | 588 | 0.05% |
### 热门视频分布
| 视频ID | 评论数量 | 占比 |
| :--- | :--- | :--- |
| tiFN4L9SQDY | 106,020 | 9.47% |
| rlKvtJlQc8U | 99,040 | 8.84% |
| OUqqWRfCE0w | 93,920 | 8.39% |
| yE5c23LEhZw | 64,584 | 5.77% |
| MSy5ZF05PQQ | 59,657 | 5.33% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
| :--- | :--- | :--- |
| 数据规模庞大 | 超过111万条评论,覆盖5.5万+独特作者 | 支持大规模舆情分析和机器学习模型训练 |
| 时间跨度完整 | 覆盖抗议事件全过程(2023年1-7月) | 可追踪舆论演变和情绪变化趋势 |
| 多维度信息 | 包含作者信息、时间戳、互动数据等14个字段 | 支持多维度交叉分析和用户画像构建 |
| 真实社交数据 | 原始YouTube评论数据,包含真实用户表达 | 适用于社交媒体行为研究和情感分析 |
| 高时效性 | 数据集中在抗议高峰期(2023年5月) | 可用于突发事件舆情响应研究 |
| 多元语言内容 | 包含印地语、英语等多种语言评论 | 支持多语言NLP研究和跨文化分析 |
## 数据样例
### 元数据样例
以下为数据集的代表性样例,涵盖不同类型的评论内容:
1. 视频ID: EBOKYsWUhvI | 作者: HECTOR OF TROY | 内容: "Dub maro jaato 😢😢. Tumse tumare ladkiya nhi bchaii gyi." | 点赞数: 0 | 时间: 2023-07-06T07:04:02Z
2. 视频ID: EBOKYsWUhvI | 作者: Geeta Saini | 内容: "Haar gye bechare" | 点赞数: 0 | 时间: 2023-07-03T22:21:37Z
3. 视频ID: EBOKYsWUhvI | 作者: Ayaan Chouhan | 内容: "Dhamki mili pahalwano ko aur sab manage kr liya gaya." | 点赞数: 0 | 时间: 2023-07-03T05:06:33Z
4. 视频ID: EBOKYsWUhvI | 作者: Kamal | 内容: "Jaato pr ye boj rhega ki vo apni hi vyavstha se nyay nhi le paaye..." | 点赞数: 1 | 时间: 2023-07-02T03:39:50Z
5. 视频ID: EBOKYsWUhvI | 作者: महेंद्र बाहुबलि | 内容: "Logo ko ullu bana ke ye sab mahanubhav chal diye apne kaam pr" | 点赞数: 3 | 时间: 2023-06-28T12:41:54Z
6. 视频ID: EBOKYsWUhvI | 作者: Arvind Kumar Sharma | 内容: "इनके विरुद्ध तो सख्त एक्शन लेना चाहिए था।" | 点赞数: 0 | 时间: 2023-06-28T04:19:21Z
7. 视频ID: EBOKYsWUhvI | 作者: HKS | 内容: "Ye sb drama kr rahe the, inko bs chhut chahiye tha qualifying round se" | 点赞数: 5 | 时间: 2023-06-27T03:34:26Z
8. 视频ID: EBOKYsWUhvI | 作者: Abhishek Dubey | 内容: "Mujhe cricket khelna hai chalo jantar mantar" | 点赞数: 2 | 时间: 2023-06-26T16:53:54Z
9. 视频ID: EBOKYsWUhvI | 作者: Rajveer Singh Janwaar | 内容: "Inko bas trial se chhut chahiye thi mil gayi dharna khatm" | 点赞数: 6 | 时间: 2023-06-26T08:19:29Z
10. 视频ID: EBOKYsWUhvI | 作者: Mayu R | 内容: "Amit shah se meeting ke baad kuch to hua hai🧐" | 点赞数: 3 | 时间: 2023-06-26T07:11:21Z
### 回复评论样例
11. 视频ID: EBOKYsWUhvI | 作者: Ajay Kumar | 内容: "Saale Teri aukaat kya hai,,, unhone olympic mai medal Jeeta hai..." | 点赞数: 0 | 父评论ID: UgwDzAbEUY4yv7HPlax4AaABAg
12. 视频ID: EBOKYsWUhvI | 作者: Kamal | 内容: "Doshi to sarkar dwara bachaye jaa rhe h to kaise doshi bn skte h..." | 点赞数: 1 | 父评论ID: UgwH4dqhq0alebGdyVJ4AaABAg
## 应用场景
### 舆情分析与社会运动研究
该数据集可用于分析社交媒体上关于社会运动的舆论动态。研究人员可以追踪不同阶段公众情绪的变化,识别关键意见领袖,分析信息传播路径。通过对评论内容的情感分析,可以了解公众对摔跤手抗议事件的态度演变,以及不同群体之间的观点差异。这对于理解社会运动如何在数字空间中形成和传播具有重要价值。
### 自然语言处理模型训练
数据集包含大量真实的用户生成内容,涵盖印地语、英语等多种语言,是训练多语言情感分析、主题建模、文本分类等NLP模型的优质资源。研究人员可以利用这些数据训练针对社交媒体文本的特定模型,提高在非正式文本处理任务上的性能。
### 社交媒体行为分析
通过分析评论的时间分布、互动模式和用户行为,可以深入了解用户在社交媒体平台上的参与习惯。例如,小时分布数据显示评论活动在印度时间下午达到高峰,这反映了用户的在线行为规律。这些洞察对于社交媒体平台优化内容推荐、广告投放策略具有重要参考价值。
### 跨文化传播研究
数据集中包含多种语言和文化背景的评论,为跨文化传播研究提供了丰富素材。研究人员可以分析不同语言群体在讨论同一事件时的表达方式、话题焦点和情感倾向差异,增进对跨文化交流模式的理解。
## 结尾
本数据集是研究2023年印度摔跤手抗议事件公众舆论的宝贵资源。超过111万条评论、5.5万+独特作者、188个相关视频构成了一个规模庞大、维度丰富的社交媒体数据集。其核心价值在于能够支持从舆情分析、NLP模型训练到社会科学研究的多种应用场景。
数据集的时间分布特征尤为突出,2023年5月的评论量占总数的60%,准确捕捉了抗议事件的高峰期。完整的元数据字段支持多维度交叉分析,为深入研究提供了可能性。
如需获取完整数据集或进一步的分析支持,欢迎联系获取更多信息。
---
数据集规模: 1,119,948 条评论 时间范围: 2023年1月 - 2023年7月 文件格式: CSV 编码格式: UTF-8看了又看
验证报告
以下为卖家选择提供的数据验证报告:






