HM

verify-tag2020年土耳其伊兹密尔地震推特数据集分析报告-近300万条多类型标注数据-支持灾难响应研究与救援需求识别-社交媒体情感分析与机器学习训练-救援需求识别模型、分析灾难期间信息传播规律

10

已售 0
298.55MB

数据标识:D17690543552763150

发布时间:2026/01/22

# 2020年土耳其伊兹密尔地震推特数据集分析报告

## 引言与背景

2020年10月30日,土耳其伊兹密尔地区发生了6.6级地震,造成了严重的人员伤亡和财产损失。在这场灾难中,社交媒体成为了信息传播、救援协调和情感表达的重要渠道。本数据集收集了地震期间及之后的推特数据,为研究灾难事件中的社交媒体行为、救援需求识别、信息传播模式等提供了宝贵的资源。

该数据集包含三个主要文件:原始推特数据、自动标注数据和人工标注数据,总数据量接近300万条。这些数据不仅记录了地震事件的实时发展,还包含了用户的情感表达、救援请求和信息分享。对于科研人员、灾难响应机构和机器学习研究者来说,这是一份极具价值的数据集,可以用于训练救援需求识别模型、分析灾难期间的信息传播规律、评估社交媒体在灾难响应中的作用等多个领域。

## 数据基本信息

### 数据字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| Datetime | 时间戳 | 推文发布时间 | 2020-10-30 15:00:32+03:00 | 较高 |
| Text | 字符串 | 推文内容 | "AFAD, merkez üssü Ege Denizi'nin Seferihisar açıkları olan 6,6 büyüklüğünde deprem meydana geldiğini açıkladı." | 中等 |
| coordinates | 字符串 | 地理坐标信息 | 缺失 | 较低 |
| retweetCount | 数值 | 转发数量 | 125 | 中等 |
| likeCount | 数值 | 点赞数量 | 缺失 | 中等 |
| rescue | 数值 | 救援相关标注(人工) | 0/1 | 较低 |
| preds | 数值 | 自动标注结果(自动标注文件) | 0/1 | 中等 |

### 数据分布情况

#### 文件分布

| 文件名称 | 记录数量 | 占比 |
|---------|---------|------|
| izmir_earthquake.csv | 1,777,582 | 61.3% |
| izmir_earthquake_auto_annotated.csv | 1,106,448 | 38.1% |
| izmir_earthquake_labeled.csv | 16,278 | 0.6% |
| 总计 | 2,900,308 | 100% |

#### 人工标注数据分布

| 标注类别 | 记录数量 | 占比 |
|---------|---------|------|
| 非救援相关 (0) | 723 | 96.4% |
| 救援相关 (1) | 935 | 3.6% |

### 数据规模与类型

- 数据规模:总记录数约290万条,涵盖地震发生前后的社交媒体数据
- 数据类型:包含原始文本数据、时间序列数据、社交媒体互动数据、地理信息数据和标注数据
- 标注信息:包含人工标注(rescue字段)和自动标注(preds字段)两种标注方式
- 覆盖领域:灾难响应、社交媒体分析、情感分析、救援需求识别

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|----------|
| 数据量大 | 近300万条推文数据,涵盖地震事件的完整时间序列 | 提供足够的训练数据,支持复杂模型的训练和验证 |
| 多类型标注 | 包含人工标注和自动标注数据,标注类型丰富 | 可用于模型训练、标注质量评估和半监督学习 |
| 时间序列完整 | 包含地震发生前后的时间序列数据 | 支持时间演化分析,研究信息传播和救援需求的变化趋势 |
| 社交媒体互动数据 | 包含转发数和点赞数等互动指标 | 可用于分析信息影响力,识别关键信息源 |
| 多维度信息 | 包含文本内容、时间、地理、互动等多维度信息 | 支持多模态分析,提高模型的准确性和鲁棒性 |

## 数据样例

### 原始数据样例

1. 时间:2020-10-30 15:00:32+03:00,内容:tüm depremlerin nerde olursa olsun bursada hissedilmesi,转发数:125,救援标注:0
2. 时间:2020-10-30 15:00:45+03:00,内容:"AFAD, merkez üssü Ege Denizi'nin Seferihisar açıkları olan 6,6 büyüklüğünde deprem meydana geldiğini açıkladı.",转发数:179,救援标注:0
3. 时间:2020-10-30 15:01:31+03:00,内容:Az önce yaşanan deprem nedeniyle tüm hemşehrilerimize geçmiş olsun dileklerimi iletiyorum. Can ve mal kaybının olmamasını umut ediyorum. Gelişmeleri takip ediyoruz. Afet ekiplerimiz hazır.,转发数:725,救援标注:0
4. 时间:2020-10-30 15:02:09+03:00,内容:"#DEPREM
EGE DENIZI https://t.co/291sqKc2Hx
30.10.2020, 14:51:25 TSİ
Büyüklük: 6.8
Derinlik: 11.8 km
#Kandilli",转发数:4793,救援标注:0
5. 时间:2020-10-30 15:02:33+03:00,内容:"#DEPREM: Ege Denizi'nde İzmir'in Seferihisar ilçesinde saat 14.51'de 6,6 büyüklüğünde bir deprem meydana geldi.

Gelişmeleri takip ediyoruz.

➡️ https://t.co/cofXSurHiN",转发数:625,救援标注:0

### 自动标注数据样例

1. 时间:2020-10-30 14:00:01+03:00,内容:"Şark İstiklal Mahkemesi'nde savcı ile hakimler arasında bir tartışma çıktı. Konu, kanunlara ne ölçüde uyulacağıydı. Tartışma, hakimlerin savunduğu "gerekirse kanunların üzerine çıkarız" görüşünün üstün gelmesiyle sonuçlandı.
(Ergün AYBARS, İstiklal Mahkemeleri-I,II, 301)",转发数:39.0,点赞数:119.0,自动标注:0

### 人工标注数据样例

1. 时间:2020-10-30 15:00:32+03:00,内容:tüm depremlerin nerde olursa olsun bursada hissedilmesi,转发数:125,救援标注:0
2. 时间:2020-10-30 15:00:45+03:00,内容:"AFAD, merkez üssü Ege Denizi'nin Seferihisar açıkları olan 6,6 büyüklüğünde deprem meydana geldiğini açıkladı.",转发数:179,救援标注:0

## 应用场景

### 灾难响应分析与救援需求识别

该数据集为灾难响应机构提供了宝贵的信息来源。通过分析推文中的救援相关内容,可以快速识别受灾地区的紧急需求,如医疗救助、物资支持、人员疏散等。结合时间序列数据,可以追踪救援需求的演变趋势,为资源分配提供决策支持。此外,通过分析社交媒体上的信息传播模式,可以评估官方信息的覆盖范围,识别信息空白区域,提高灾难响应的效率和针对性。

### 社交媒体情感分析与公众心理研究

地震等重大灾难事件往往会引发公众强烈的情感反应。通过对推文中的情感分析,可以了解受灾群众的心理状态,识别需要心理干预的人群。同时,分析不同时间段的情感变化,可以评估灾难响应措施对公众情绪的影响,为后续的灾难应对策略提供参考。此外,该数据集还可以用于研究灾难期间的信息传播机制,分析谣言的产生和扩散过程,为信息管理提供科学依据。

### 机器学习模型训练与评估

该数据集包含大量的标注数据,为机器学习模型的训练和评估提供了理想的资源。可以利用人工标注数据训练救援需求识别模型,利用自动标注数据进行半监督学习,提高模型的泛化能力。同时,通过对比人工标注和自动标注的结果,可以评估自动标注算法的准确性,为标注方法的改进提供参考。此外,该数据集还可以用于训练情感分析模型、信息分类模型等多种自然语言处理模型。

### 突发事件传播研究与预警系统开发

通过分析地震相关推文的时间分布、空间分布和互动数据,可以研究突发事件在社交媒体上的传播规律。识别关键信息节点和传播路径,评估信息传播的速度和范围,为建立突发事件预警系统提供理论基础。同时,通过分析不同类型信息的传播特征,可以区分官方信息、个人经历和谣言,提高信息筛选的准确性,为应急管理决策提供可靠的信息支持。

## 结尾

2020年土耳其伊兹密尔地震推特数据集是一份极具价值的灾难事件社交媒体数据资源,包含近300万条多类型标注数据。该数据集不仅规模庞大,而且包含时间序列、社交媒体互动、地理信息和多类型标注等丰富信息,为灾难响应研究、救援需求识别、社交媒体情感分析和机器学习模型训练提供了有力支持。

通过对该数据集的深入分析,可以揭示灾难期间社交媒体的信息传播规律,识别救援需求的时空分布特征,评估灾难响应措施的效果,为未来的灾难应对策略提供科学依据。同时,该数据集也为机器学习研究者提供了理想的训练和验证资源,有助于开发更准确、更高效的灾难响应辅助系统。

总之,这份数据集的核心价值在于其大规模、多维度和多类型标注的特性,使其成为灾难研究和机器学习领域的重要资源。随着分析方法的不断改进和应用场景的拓展,该数据集的价值将得到进一步的发挥,为提高人类应对灾难的能力做出贡献。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
2020年土耳其伊兹密尔地震推特数据集分析报告-近300万条多类型标注数据-支持灾难响应研究与救援需求识别-社交媒体情感分析与机器学习训练-救援需求识别模型、分析灾难期间信息传播规律
10
已售 0
298.55MB
申请报告