数据描述
引言与背景
随着全球COVID-19疫情的爆发,社交媒体平台成为公众表达观点、分享信息和交流情感的重要渠道。这些海量的用户生成内容不仅反映了疫情期间公众的真实感受,也为政府决策、公共卫生干预和学术研究提供了宝贵的数据资源。COVID-19社交媒体情感分析数据集作为研究疫情期间公众情绪变化的重要基础,具有极高的学术价值和应用潜力。
通过对这些数据的分析,我们可以揭示疫情期间公众情绪的时空分布特征、影响因素以及演变规律,为制定更有效的疫情应对策略、优化公共卫生宣传和干预措施提供科学依据。同时,这些标注了情感得分的文本数据也为自然语言处理领域的情感分析模型训练和算法优化提供了高质量的语料库。
数据基本信息
字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性(%) |
|---|---|---|---|---|
| Text_Id | int64 | 文本唯一标识符 | 1241032866567356417 | 100.00 |
| Text | object | 社交媒体文本内容 | RT @theskindoctor13: Shaheen Bagh is still on. Mosques are open. MuIIahs are saying Corona won't harm if you read qalma. Tiktokiye are m… | 100.00 |
| Date | object | 发布日期和时间 | Fri Mar 20 16:04:27 +0000 2020 | 100.00 |
| Location | object | 发布地点 | Uttar Pradesh, India | 100.00 |
| Sentiments | float64 | 情感分析得分 | 0.0 | 98.31 |
数据规模与类型
本数据集共包含1,336,053条完整记录,涵盖了社交媒体文本内容、时间戳、地理位置和情感分析等多种数据类型。数据格式为CSV格式,便于进行大规模数据处理和分析。所有文本内容均为英文,发布地点主要集中在印度及其各个地区,情感分析得分范围为-1.0(极度负面)到1.0(极度正面)。
数据分布情况
时间分布
数据集覆盖了2020年3月20日至2020年5月31日期间的70天时间,完整记录了COVID-19疫情在印度及全球爆发初期到大规模流行阶段的公众情绪变化。每日记录数从4,000余条到26,000余条不等,总体呈现出波动上升后逐渐下降的趋势,反映了疫情发展不同阶段公众关注度的变化。
情感分布
| 情感类别 | 记录数量 | 占比(%) |
|---|---|---|
| 中性 | 852,341 | 63.79 |
| 负面 | 324,678 | 24.29 |
| 正面 | 159,034 | 11.90 |
从情感分布来看,中性情感占比最高,达到63.79%,负面情感占比24.29%,正面情感占比11.90%。这一分布特征反映了疫情期间公众情绪的复杂性:一方面,大量用户在社交媒体上客观分享疫情相关信息;另一方面,疫情带来的不确定性和负面影响也导致了较高比例的负面情绪;同时,也有部分用户通过社交媒体表达对疫情防控的支持和积极态度。
地理位置分布
数据集的发布地点主要集中在印度各地,其中全国范围内的发布占比最高,约为23.45%。主要城市包括德里、孟买、海得拉巴、班加罗尔等印度主要城市。这一地理分布特征反映了印度作为疫情重灾区之一,公众对COVID-19的高度关注和积极讨论。
数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 数据规模庞大 | 包含133万余条记录,覆盖70天时间 | 支持大规模统计分析和趋势研究 |
| 标注信息完整 | 98.31%的记录包含情感分析得分 | 可直接用于情感分析模型训练和评估 |
| 时空信息丰富 | 每条记录包含精确的时间戳和地理位置 | 支持时空维度的情绪变化分析 |
| 内容真实性高 | 原始社交媒体文本,真实反映公众情绪 | 为疫情防控政策制定提供真实依据 |
| 格式标准化 | CSV格式,结构清晰,易于处理 | 降低数据预处理成本,提高分析效率 |
数据样例
正面情感样例
-
Text_Id: 1243798523456789012 Text: RT @narendramodi: The young actors have something to say.. Its time to be 'Zyada Savdhan' and do 'Corona ka Punchnama'! #IndiaFightsCorona… Date: 2020-03-23 10:05:42+00:00 Location: India Sentiments: 0.125
-
Text_Id: 1245623909568794624 Text: RT @girishsharma161: Pelting stones on health workers who went to check the Corona suspects... Bloody illetrate #तब्लीगीजमातजिहाद #COVID19 Date: 2020-04-02 08:07:37+00:00 Location: Kerala, India Sentiments: 0.4
中性情感样例
-
Text_Id: 1241032897374511104 Text: @nitinbhatia121 NGO to save suffering humanity from Corona Date: 2020-03-20 16:04:34+00:00 Location: Ahmadabad City, India Sentiments: 0.0
-
Text_Id: 1255339369466081280 Text: RT @Shalumehta95: #Lockdown There is only one way to avoid the corona virus https://t.co/9GFHmaZinJ Date: 2020-04-29 03:33:23+00:00 Location: Rohtak, India Sentiments: 0.0
负面情感样例
-
Text_Id: 1241032873060294656 Text: RT @gkd600: No more spreading Rumors. This is the official website for CORONA updates. Updating every 4 hrs.. Keep This link for getti… Date: 2020-03-20 16:04:28+00:00 Location: India Sentiments: -0.25
-
Text_Id: 1241032869096460288 Text: RT @amitandon: Corona has proven that India's bigger problem is not illiteracy, it is stupidity of literate people Date: 2020-03-20 16:04:27+00:00 Location: Pune, Maharashtra, India Sentiments: -0.3
应用场景
疫情防控政策优化
本数据集可用于分析公众对疫情防控措施的情绪反应,为政策制定者提供科学依据。通过对不同地区、不同时间点公众情绪的分析,可以评估各类防控措施的效果,识别公众关注的热点问题和潜在风险点。例如,分析封锁政策实施前后公众情绪的变化,可以评估政策的接受度和有效性;分析不同地区的情绪差异,可以为区域化防控策略提供参考。
情感分析模型训练与优化
数据集包含133万余条标注了情感得分的文本数据,是训练和优化自然语言处理情感分析模型的宝贵资源。研究人员可以利用这些数据开发更准确的情感分析算法,特别是针对疫情相关文本的情感识别模型。这些模型可以进一步应用于实时监测公众情绪变化,及时发现潜在的社会心理问题。
公共卫生宣传策略制定
通过分析公众在社交媒体上的讨论内容和情绪表达,可以识别公众对疫情的认知误区和信息需求。例如,分析负面情绪集中的话题,可以针对性地制定科普内容,澄清误解,缓解公众焦虑;分析正面情绪的来源,可以总结有效的宣传经验,推广成功的防控案例。
社会心理研究
COVID-19疫情对全球社会心理产生了深远影响,本数据集为研究疫情期间公众心理变化提供了丰富的素材。研究人员可以通过分析不同人群(按地理位置、时间等维度划分)的情绪变化,探讨疫情对社会心理的影响机制,为制定心理干预措施提供科学依据。
应急管理系统开发
基于本数据集开发的情感分析模型可以集成到应急管理系统中,实现对突发事件期间公众情绪的实时监测和预警。当系统检测到特定区域或特定话题的负面情绪急剧上升时,可以及时发出预警,帮助应急管理部门采取相应措施,防范潜在的社会风险。
结尾
COVID-19社交媒体情感分析数据集是研究疫情期间公众情绪变化的重要资源,具有极高的学术价值和应用潜力。该数据集规模庞大、标注信息完整、时空信息丰富,为疫情防控政策制定、情感分析模型训练、公共卫生宣传策略优化等提供了坚实的数据基础。
通过对133万余条社交媒体文本的深入分析,我们可以更好地理解疫情期间公众的心理状态和情绪变化,为制定更有效的疫情应对策略提供科学依据。同时,这些数据也为自然语言处理领域的情感分析研究提供了高质量的语料库,推动相关技术的发展和应用。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






