# 印尼FPI伊斯兰卫士阵线推文数据集分析报告
## 引言与背景
社交媒体数据已成为研究社会现象、政治动态和舆论趋势的重要资源。本数据集包含了2016年至2020年间与印尼伊斯兰卫士阵线(FPI)相关的150万条推文数据,为研究印尼宗教政治团体的在线活动、公众反应以及社会影响力提供了宝贵的原始资料。数据集由5个年度CSV文件组成,涵盖了从2016年到2020年的完整时间序列,包含推文内容、用户信息、互动数据、媒体内容等多维度信息。这些数据对于社交媒体分析、自然语言处理、政治科学研究以及公共政策制定具有重要价值,可用于训练文本分类模型、分析舆论趋势、研究在线社区动态等多种科研和应用场景。
## 数据基本信息
### 字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|---------|
| id | 文本/数字 | 推文唯一标识符 | 815346777557647360 | 100% |
| conversation_id | 文本/数字 | 对话线程标识符 | 814772733582057472 | 100% |
| created_at | 数字 | 创建时间戳(毫秒) | 1483228794000.0 | 100% |
| date | 文本 | 创建日期时间 | 2016-12-31 23:59:54 | 100% |
| timezone | 文本 | 时区 | +0000 | 100% |
| place | 文本 | 地理位置 | 空值 | 低(大部分缺失) |
| tweet | 文本 | 推文内容 | @Jaelani92145365 yg menolak FPI hanya kaum... | 100% |
| language | 文本 | 语言代码 | in | 100% |
| hashtags | 数组 | 话题标签 | ['2017tetapahok'] | 约60%缺失 |
| cashtags | 数组 | 现金标签 | [] | 约99%缺失 |
| user_id | 文本/数字 | 用户唯一ID | 309243325 | 100% |
| username | 文本 | 用户名 | rasnugros | 100% |
| name | 文本 | 用户显示名称 | Negri Salaka | 100% |
| day | 数字 | 星期几 | 6 | 100% |
| hour | 数字 | 小时 | 23 | 100% |
| link | 文本 | 推文链接 | https://twitter.com/... | 100% |
| urls | 数组 | 包含的链接 | ['http://bit.ly/2hA371v'] | 约70%缺失 |
| photos | 数组 | 包含的照片 | ['https://pbs.twimg.com/...'] | 约95%缺失 |
| video | 数字 | 是否包含视频 | 0 | 100% |
| nlikes | 数字 | 点赞数 | 0 | 100% |
| nreplies | 数字 | 回复数 | 0 | 100% |
| nretweets | 数字 | 转发数 | 0 | 100% |
| source | 文本 | 发布来源 | 空值 | 约70%缺失 |
### 数据分布情况
#### 年份分布
| 年份 | 记录数量 | 占比 | 累计占比 |
|------|---------|------|---------|
| 2016 | 268,467 | 17.88% | 17.88% |
| 2017 | 428,262 | 28.52% | 46.40% |
| 2018 | 191,396 | 12.74% | 59.14% |
| 2019 | 327,324 | 21.80% | 80.94% |
| 2020 | 286,129 | 19.06% | 100.00% |
| 总计 | 1,501,582 | 100.00% | - |
#### 语言分布
| 语言 | 记录数量 | 占比 |
|------|---------|------|
| 印尼语(in) | 约1,205,000 | 80.30% |
| 他加禄语(tl) | 约2,550 | 0.17% |
| 土耳其语(tr) | 约780 | 0.05% |
| 英语(en) | 约410 | 0.03% |
| 其他语言 | 约2,900 | 0.19% |
| 总计 | 约1,211,640 | 80.70% |
#### 媒体内容分布
| 媒体类型 | 记录数量 | 占比 |
|---------|---------|------|
| 包含照片 | 约80,000 | 5.33% |
| 包含视频 | 约94,000 | 6.27% |
| 纯文本 | 约1,327,582 | 88.40% |
#### 互动数据统计
| 互动类型 | 平均值 | 总计 |
|---------|-------|------|
| 点赞数(nlikes) | 4.94 | 约7,417,800 |
| 回复数(nreplies) | 0.92 | 约1,381,455 |
| 转发数(nretweets) | 2.04 | 约3,063,227 |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据量庞大 | 150万条推文,涵盖5年时间序列 | 支持大规模数据分析和深度学习模型训练 |
| 多维度信息 | 包含内容、用户、时间、互动、媒体等多维度信息 | 支持综合性分析和多视角研究 |
| 印尼语为主 | 约80%为印尼语内容,提供丰富的东南亚语言资源 | 支持印尼语NLP模型训练和东南亚社交媒体研究 |
| 完整时间序列 | 2016-2020年连续数据,记录社会动态变化 | 支持趋势分析和时间序列研究 |
| 媒体内容包含 | 约11.6%的推文包含图片或视频 | 支持多媒体内容分析和多模态研究 |
## 数据样例
以下为数据集的15条样例,涵盖不同年份、语言和互动情况:
1. 2016年12月31日 - 印尼语 - 互动:0点赞/0回复/0转发
内容:@Jaelani92145365 yg menolak FPI hanya kaum yg doyan mabok, pelacur, judi dan maksiat !!! Pikir cerdas
2. 2016年12月31日 - 印尼语 - 互动:2点赞/0回复/2转发
内容:Fakta ini mendukung bhw terdapat banyak benar penderita sakit jiwa di Indonesia yg tersembunyi. Semua FPI misalnya pasti berpenyakit mental. https://t.co/Gd2Y7oH30Y
3. 2017年12月31日 - 印尼语 - 互动:1点赞/0回复/0转发
内容:@mohmahfudmd Yang penting ABJ = ALLAH BERSAMA JOKOWI. Bukan begitu prof. Pasukan radikalis, intoleran, FPI, HTI, GNPF dan sejenisnya...
4. 2017年12月31日 - 印尼语 - 互动:0点赞/1回复/0转发
内容:Polres Metro Bekasi tangkap pengurus FPI - ANTARA https://t.co/8LPd85BB9q https://t.co/pXlpwfv3ox
5. 2018年12月31日 - 印尼语 - 互动:1点赞/1回复/2转发
内容:@King54fir Selamat pagi indonesia !!! Polling Lanjutkan @MardaniAliSera @Nenowarisman5 @PEPESOfficial @mom_zha @swulll @hilmi_fpi...
6. 2018年12月31日 - 印尼语 - 互动:1点赞/1回复/0转发
内容:@hilmi_fpi FPI selalu sigap, yang saya mo tanyakan banser kemana? Awas jangan bilang lg joget ditempat dangdut loh
7. 2019年12月31日 - 印尼语 - 互动:0点赞/1回复/0转发
内容:@kumparan Kalau menurut gue lebih bgus di bali aja, soalnya muslim adalah agama mayoritas di jakarta, wajar aja kalau pemerintah tak mengizinkan penyelenggaraan DWP...
8. 2019年12月31日 - 印尼语 - 互动:3点赞/1回复/1转发
内容:@snjayajonggrang Naif sekali kalau Polri tidak segera menangkap para dedengkot FPI. Mumpung belum terlanjur memprovokasi lbh byk masyarakat...
9. 2020年12月7日 - 印尼语 - 互动:0点赞/0回复/0转发
内容:FPI klo bikin fitnah .. hoax .. pemutar balikan fakta .. hukumnya halaaaallllll .. dan bisa masuk surga .. klo pihak lain haraaaammmmm .. kafirrrrr .. bukan begitu bukan 😂😂
10. 2020年12月7日 - 印尼语 - 互动:0点赞/0回复/0转发
内容:Tidak Profesional itu berarti gak becus.. Copot, Usut dan Adili kepemimpinan Kapolri dan Kapolda atas kinerja anak buah beserta jajarannya... #SayaPercayaFPI
11. 2016年12月31日 - 印尼语 - 互动:0点赞/0回复/0转发
内容:@DPP_FPI apa ni termasuk perbuatan makar
12. 2017年12月31日 - 印尼语 - 互动:1点赞/0回复/0转发
内容:@mohmahfudmd Yang penting ABJ = ALLAH BERSAMA JOKOWI...
13. 2018年12月31日 - 印尼语 - 互动:0点赞/0回复/1转发
内容:Ditolak Blusukan, Percakapan Ahok dengan Ketua FPI Pasar Minggu Jadi Viral https://t.co/xT5an2aI8J https://t.co/afrYooNReg
14. 2019年12月31日 - 印尼语 - 互动:0点赞/1回复/0转发
内容:@kumparan Kalau menurut gue lebih bgus di bali aja...
15. 2020年12月7日 - 印尼语 - 互动:0点赞/0回复/0转发
内容:FPI klo bikin fitnah .. hoax .. pemutar balikan fakta...
## 应用场景
### 社交媒体内容分析与舆论研究
本数据集为研究印尼政治社会动态提供了丰富的原始材料。研究人员可以通过分析推文内容,了解公众对FPI及其相关议题的态度和看法,追踪舆论演变趋势。例如,可以分析不同年份公众对FPI的关注度变化,以及重大事件前后舆论的转变。通过自然语言处理技术,可以识别主流观点、情感倾向和关键讨论主题,为政治科学和社会学研究提供数据支持。
### 印尼语自然语言处理模型训练
由于数据集包含约120万条印尼语推文,是训练印尼语NLP模型的宝贵资源。可以用于训练文本分类、情感分析、命名实体识别等模型,提升印尼语处理的准确性。对于开发针对东南亚市场的社交媒体分析工具和内容审核系统,这些数据具有重要的应用价值。此外,多语言数据的存在也为跨语言研究提供了可能性。
### 社交媒体互动模式与传播机制研究
数据集包含详细的互动数据(点赞、回复、转发),可以用于研究信息在社交媒体上的传播机制。研究人员可以分析不同类型内容的传播效率,识别关键意见领袖,理解信息扩散的网络结构。这些研究对于制定有效的社交媒体营销策略、危机公关管理以及信息传播优化具有实际应用价值。
### 多媒体内容分析与多模态研究
约11.6%的推文包含图片或视频,为多媒体内容分析提供了数据支持。可以结合文本和图像/视频内容,开展多模态分析研究,例如分析图片内容与文本情绪的关联性,或者研究包含媒体内容的推文与纯文本推文在传播效果上的差异。这对于开发更先进的社交媒体内容分析系统具有重要意义。
## 结尾
本数据集包含2016-2020年间与印尼FPI相关的150万条推文,是研究印尼社会政治动态、社交媒体行为以及自然语言处理的宝贵资源。数据集涵盖了丰富的多维度信息,包括文本内容、用户信息、互动数据和媒体内容,支持多种研究和应用场景。其时间跨度长、数据量大、语言多样性等特点使其具有广泛的科研价值和应用潜力。
该数据集可用于社交媒体分析、自然语言处理模型训练、舆论研究、信息传播机制分析等多个领域。对于研究印尼政治社会现象、开发印尼语处理工具以及理解社交媒体行为模式,都提供了重要的数据支持。如有需要,可获取完整数据集进行深入研究和应用开发。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






