数据描述
引言与背景
社交媒体平台已成为现代社会公众表达意见、参与讨论和传播信息的重要渠道。YouTube作为全球最大的视频分享平台,其评论区蕴含着丰富的用户情感、态度和观点数据。本数据集聚焦于YouTube上关于摔跤手抗议活动的评论内容,为研究公众对社会运动的反应、意见领袖影响力以及信息传播模式提供了宝贵的一手资料。
数据基本信息
数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| videoId | 字符串 | 评论所属YouTube视频的ID | EBOKYsWUhvI | 100%(无缺失) |
| textDisplay | 字符串 | 评论的显示文本,包含YouTube上显示的格式和特殊字符 | Dub maro jaato 😢😢.<br>Tumse tumare ladkiya... | 100%(无缺失) |
| textOriginal | 字符串 | 评论的原始文本,不包含格式和特殊字符 | Dub maro jaato 😢😢. | |
| Tumse tumare ladkiya... | 100%(无缺失) | |||
| authorDisplayName | 字符串 | 发布评论用户的显示名称 | 用户名示例 | 接近100%(极少缺失) |
| authorProfileImageUrl | 字符串 | 用户头像图片的URL | https://yt3.ggpht.com/... | 接近100%(极少缺失) |
| authorChannelUrl | 字符串 | 用户YouTube频道的URL | http://www.youtube.com/channel/... | 接近100%(极少缺失) |
| authorChannelId | 字符串 | 用户YouTube频道的唯一ID | {'value': 'UCRkcewHFhxE5KfLHrLx0wpA'} | 接近100%(极少缺失) |
| canRate | 布尔值 | 指示认证用户是否可以对评论进行评分/回复 | True | 100%(无缺失) |
| viewerRating | 字符串 | 认证用户对评论的评分 | none | 大部分为none(未评分) |
| likeCount | 整数 | 评论收到的点赞数量 | 0 | 100%(无缺失) |
| publishedAt | 字符串 | 评论最初发布的日期和时间 | 2023-06-28T15:10:36Z | 100%(无缺失) |
| updatedAt | 字符串 | 评论最后更新的日期和时间 | 2023-06-28T15:10:36Z | 100%(无缺失) |
| parentId | 字符串 | 如果评论是回复,则为父评论的ID;否则为null | null | 约77%为空(独立评论),23%有值(回复评论) |
| commentId | 字符串 | 评论的唯一ID | UgxjuOlDigsmuDu53J54AaABAg |
数据分布情况
评论类型分布
| 记录数量 | 占比 | 累计占比 | |
|---|---|---|---|
| 独立评论 | 861,719 | 77.0% | 77.0% |
| 回复评论 | 258,229 | 23.0% |
数据规模概况
-
总评论数:1,119,948条
-
唯一视频数:188个
-
唯一作者数:73,951位
-
平均每视频评论数:约6,000条
-
平均每作者评论数:约15条
数据完整性分析
通过对样本数据的分析,该数据集具有较高的完整性:
-
关键字段(如videoId、textDisplay、textOriginal、publishedAt、updatedAt、commentId)的完整性达到100%
-
作者相关字段(authorDisplayName、authorProfileImageUrl、authorChannelUrl、authorChannelId)的完整性接近100%
-
交互相关字段(canRate、likeCount)的完整性达到100%
-
parentId字段根据评论类型自然缺失,符合数据逻辑
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 数据规模庞大 | 超过110万条评论,涵盖188个视频 | 提供足够的样本量支持统计学分析和深度学习模型训练 |
| 用户群体多样 | 来自73,951位不同作者的贡献 | 确保观点多样性,减少单一用户偏好带来的偏差 |
| 交互关系完整 | 包含评论回复结构,23%为回复评论 | 支持社交网络分析和对话结构研究 |
| 元数据丰富 | 包含作者信息、时间戳、点赞数等完整元数据 | 便于多维度分析,如时间趋势、用户影响力等 |
| 内容格式完整 | 同时提供原始文本和显示文本两种格式 | 满足不同分析场景需求,保留完整的用户表达方式 |
| 时效性强 | 记录了抗议活动期间的实时反应 |
数据样例
以下是数据集中的部分评论样例,展示了数据的多样性特征:
样例1
-
作者: 匿名用户
-
视频ID: EBOKYsWUhvI
-
内容: Dub maro jaato 😢😢. Tumse tumare ladkiya nhi bchaii gyi. Aur din bhar jat jat krke aapas m bhidte rehte ho. Tumse dilli na gheri gayi. Warna wo brjjbhusan.
-
点赞数: 0
-
类型: 独立评论
样例2
-
作者: 匿名用户
-
视频ID: EBOKYsWUhvI
-
内容: Haar gye bechare
-
点赞数: 0
-
类型: 独立评论
样例3
-
作者: 匿名用户
-
视频ID: EBOKYsWUhvI
-
内容: Dhamki mili pahalwano ko aur sab manage kr liya gaya. Ab kuch nhi hone wala sab bhul jayenge dhire dhire.
-
点赞数: 0
-
类型: 独立评论
样例4
-
作者: 匿名用户
-
视频ID: EBOKYsWUhvI
-
内容: Jaato pr ye boj rhega ki vo apni hi vyavstha se nyay nhi le paaye... Kya fayda jat jat chillane ka jb hum nyaye hi nhi dila pa rhe...
-
点赞数: 0
-
类型: 独立评论
样例5
-
作者: 匿名用户
-
视频ID: EBOKYsWUhvI
-
内容: [后续评论内容...]
-
点赞数: 0
-
类型: 独立评论
注:样例展示了部分数据的结构和内容特征。数据集中包含更多不同作者、不同情感倾向、不同长度的评论内容,以及大量的回复评论,形成了完整的评论互动网络。
应用场景
社会舆情分析
本数据集可用于深入分析公众对摔跤手抗议活动的态度和情绪倾向。研究人员可以通过自然语言处理技术对评论内容进行情感分析,识别出支持、反对、中立等不同立场,以及愤怒、同情、失望等情绪状态。同时,可以追踪舆情随时间的变化趋势,分析哪些事件或言论触发了舆情的显著变化。这种分析对于理解社会运动中的公众反应机制、预测舆情发展方向具有重要价值,也为相关机构制定应对策略提供数据支持。
社交媒体传播模式研究
该数据集包含完整的评论-回复结构,可以用于研究信息在社交媒体平台上的传播模式。通过构建评论之间的引用和回复关系网络,研究人员可以识别出意见领袖和关键传播节点,分析影响力的产生和扩散机制。同时,可以研究不同类型内容(如事实陈述、情感表达、观点论证)的传播效果差异,以及用户参与度与内容特征的关系。这些研究对于优化社交媒体算法、提高信息传播效率、减少虚假信息扩散具有重要意义。
跨文化沟通与语言研究
数据集中的评论内容主要使用印地语和英语混合表达,为跨文化沟通和语言研究提供了丰富的语料。研究人员可以分析在社会运动背景下,不同语言表达方式的使用频率、情感色彩和传播效果差异。同时,可以研究社交媒体环境下的语言演变特征,如缩写、表情符号、混合语言等现象。这些研究对于理解数字时代的语言变迁、促进跨文化理解和交流具有重要价值。
自然语言处理模型训练
大规模的真实评论数据为自然语言处理模型的训练和优化提供了宝贵资源。研究人员可以利用该数据集训练针对社会事件评论的情感分析、立场检测、主题建模等模型。特别是对于印地语等资源相对较少的语言,该数据集可以补充语料库,提高模型在特定场景下的性能。训练后的模型可以应用于实时舆情监测、内容审核、个性化推荐等实际应用场景,具有广阔的商业和社会价值。
社会运动与数字参与研究
本数据集记录了公众通过数字平台参与社会运动的具体方式和内容。研究人员可以分析用户参与的动机、模式和效果,探讨数字参与与线下行动的关系。同时,可以研究不同群体(如不同年龄、性别、地域的用户)的参与特征差异,以及数字平台如何影响社会运动的组织和发展。这些研究对于理解数字时代的社会动员机制、公民参与模式的演变具有重要的理论和现实意义。
结尾
YouTube摔跤手抗议评论数据集作为一个大规模、多维度的社交媒体数据集合,为理解公众对社会运动的反应提供了难得的研究机会。该数据集的核心价值在于其规模的庞大性、用户的多样性、内容的真实性以及元数据的完整性,使其能够支持从社会学、语言学、计算机科学等多个学科角度的深入研究。
通过对该数据集的分析,我们不仅可以了解特定社会事件中的公众情绪和观点,还可以探索社交媒体环境下信息传播、意见形成和社会互动的一般规律。这些研究成果对于改进社交媒体平台设计、优化信息传播机制、促进理性公共讨论具有重要的指导意义。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






