# 数据压缩后2.4GB,解压后约有10GB请提前预留存储空间解压数据!提供全程售后,购买后如果不符合描述里所写的内容可以联系我退款,售后支持:450792304@qq.com,如有其余社媒数据需求也可与我联系
## 引言与背景
面向大规模自然语言处理与内容智能应用,能够同时覆盖多语言文本、传播结构(转发/引用关系)、多媒体线索(图片与视频链接)以及互动指标(点赞、转发、回复、访问、收藏等)的数据集,往往能显著提升模型训练与评估的真实性与可迁移性。本数据集以社交平台短文本为核心对象,采用逐行 JSON(JSONL)的方式组织,天然适合流式读取、分布式处理和增量计算,并在单条记录中同时保留文本、用户、时间、媒体链接与互动统计等信息,为多语言内容理解、多模态检索、传播建模与推荐系统研究提供了可直接落地的原始样本基础。
从完整构成来看,数据集包含 19 个分片文本文件(twitter_20251230_*.txt,每行一条记录,JSONL 格式),并同时提供一个归档压缩文件(twitter.tar.gz,用于原始分发/备份)。单条记录除基本元数据(如唯一标识、URL、时间戳)外,还包含文本内容字段、语言代码、内容长度、媒体 URL 列表(图片/视频)、互动数值字段,以及用户对象信息;此外,大比例记录含有 retweeted 子对象,用于描述源内容(如转发/引用场景下的原帖信息与其互动统计)。这些结构使数据集既可用于“基于元数据”的统计分析,也能支持“基于完整内容线索”的深层建模,例如:利用互动与传播结构构建弱监督信号、用媒体链接扩展到多模态任务、用多语言分布训练跨语种模型等。
## 数据基本信息
### 数据规模与文件形态
本数据集全量包含 3,880,681 条记录(逐行 JSON 解析 0 错误),目录实际占用约 13GB。主要数据文件为 19 个 JSONL 分片(每个约 531MB–556MB),另含一个约 2.4GB 的压缩归档文件用于打包存储。
### 核心统计摘要(基于全量分析)
- 记录总数:3,880,681
- 多媒体占比:带图 20.49%,带视频 15.49%,图+视频同时出现 0.35%,无图无视频 64.37%
- 转发结构:含 retweeted 的记录占比 88.24%
- 语言分布:en 为主(49.87%),其次 ja(13.10%),再到 th、es 等
- 内容长度:平均 97.51 字符,主要集中在 51–140 字符区间
- 互动字段覆盖:like_count/repost_count/reply_count/visit_count/collection_count 字段在全量记录中均存在(字段覆盖率 100%);但“>0”的占比因字段而异(详见下文分布表)
### 数据字段说明(全量字段抽象)
下表以常见主字段为主,示例用于展示字段的真实样式。完整率来自全量统计中“缺失/为空”的比例计算。
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| mid | string/int | 记录唯一标识(帖子 ID) | "2005670165107867739" | 100.00% |
| url | string | 帖子 URL | "https://twitter.com/.../status/2005670165107867739" | 100.00% |
| content | string | 文案正文(短文本内容) | "Happy wife happy life" | 100.00% |
| content_length | int | 文案长度(字符数) | 140 | 100.00% |
| ctime | int | 时间戳字段(秒) | 1767024005 | 100.00% |
| lang_code | string | 语言代码 | "en" | 约 100.00%(缺失≈0.00%) |
| wtype | int | 内容类型/结构标记(与来源系统有关) | 1/2/7 | 100.00%(本批次均存在) |
| has_attributes | array[string] | 属性标记,如是否含图/视频/翻译/OCR 等 | ["has_pics","has_video"] | 53.99%(缺失/为空 46.01%) |
| pic_urls | array[string] | 图片链接列表 | ["https://pbs.twimg.com/media/...jpg"] | 20.49%(缺失/为空 79.51%) |
| video_urls | array[string] | 视频链接列表 | ["https://video.twimg.com/...mp4"] | 15.49%(缺失/为空 84.51%) |
| like_count | int | 点赞数(当前记录口径) | 0/31/253155 | 100.00% |
| repost_count | int | 转发数(当前记录口径) | 0/122/2561743 | 100.00% |
| reply_count | int | 回复数(当前记录口径) | 0/8/7418 | 100.00% |
| visit_count | int | 访问/浏览相关计数(当前记录口径) | 0/635/9885713 | 100.00% |
| collection_count | int | 收藏计数(当前记录口径) | 0/10/29482 | 100.00% |
| user | object | 用户对象(作者信息) | {uid, followers_count, verified...} | 100.00% |
| user.uid | string/int | 用户唯一标识 | "342629515" | 100.00%(在 user 存在时通常可用) |
| user.followers_count | int | 粉丝数 | 59490 | 依赖 user 子字段(总体较高) |
| retweeted | object | 源内容对象(转发/引用等场景) | {mid, content, like_count...} | 88.24%(缺失/为空 11.76%) |
## 数据分布与结构特征(全量统计表)
### 时间分布(按 ctime 的 UTC 日期)
| UTC日期(ctime) | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| 2025-12-29 | 3880681 | 100.00% | 100.00% |
补充说明:本批次 ctime 覆盖的最早与最晚时间分别为 2025-12-29T16:00:00+00:00 与 2025-12-29T17:22:44+00:00(UTC),体现出高度集中式的采集窗口特征。
### 语言分布(Top 20,按 lang_code)
| lang_code | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| en | 1935363 | 49.87% | 49.87% |
| ja | 508204 | 13.10% | 62.97% |
| th | 264117 | 6.81% | 69.77% |
| es | 255435 | 6.58% | 76.36% |
| pt | 128101 | 3.30% | 79.66% |
| ko | 125845 | 3.24% | 82.90% |
| tr | 101331 | 2.61% | 85.51% |
| ar | 100031 | 2.58% | 88.09% |
| fr | 66001 | 1.70% | 89.79% |
| hi | 44571 | 1.15% | 90.94% |
| zh | 43282 | 1.12% | 92.05% |
| id | 29226 | 0.75% | 92.81% |
| de | 27644 | 0.71% | 93.52% |
| ur | 24703 | 0.64% | 94.15% |
| pl | 24429 | 0.63% | 94.78% |
| fa | 23367 | 0.60% | 95.39% |
| it | 17818 | 0.46% | 95.85% |
| ta | 14185 | 0.37% | 96.21% |
| un | 10505 | 0.27% | 96.48% |
| ru | 10490 | 0.27% | 96.75% |
语言缩写说明(便于阅读):en=英语,ja=日语,th=泰语,es=西班牙语,pt=葡萄牙语,ko=韩语,tr=土耳其语,ar=阿拉伯语,fr=法语,hi=印地语,zh=中文,id=印尼语,de=德语,ur=乌尔都语,pl=波兰语,fa=波斯语,it=意大利语,ta=泰米尔语,ru=俄语,un=未归类/未知语言。
### 媒体类型分布(图/视频交叉桶)
| 媒体类型 | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| 无图无视频 | 2497872 | 64.37% | 64.37% |
| 仅图 | 781654 | 20.14% | 84.51% |
| 仅视频 | 587576 | 15.14% | 99.65% |
| 图+视频 | 13579 | 0.35% | 100.00% |
### 记录类型分布(wtype)
本数据集同时覆盖“原创表达—传播扩散—对话互动”三类典型社交行为,对应字段 wtype 的语义约定为:1=原创,2=转发,7=评论。该结构有利于在同一套语料中开展多任务建模(如原创表达风格学习、传播链路/扩散特征分析、对话与回复结构学习等)。
| wtype | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| 1 | 452896 | 11.67% | 11.67% |
| 2 | 2823461 | 72.76% | 84.43% |
| 7 | 604324 | 15.57% | 100.00% |
使用建议:若你的目标更偏向“原创文本训练/风格分析”,可在使用阶段按 wtype 进行分层抽样/切分(例如优先抽取 wtype=1,或在训练采样时对 wtype 设置权重),以匹配具体任务对语料形态的偏好;若进行传播与扩散建模,则建议保留 wtype=2 并结合 retweeted 结构构建引用/扩散链路。
### 文案长度分布(content_length 区间)
| content_length区间 | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| <=20 | 138367 | 3.57% | 3.57% |
| 21-50 | 799945 | 20.61% | 24.18% |
| 51-100 | 1193078 | 30.74% | 54.92% |
| 101-140 | 1484001 | 38.24% | 93.16% |
| 141-200 | 133873 | 3.45% | 96.61% |
| 201-280 | 81797 | 2.11% | 98.72% |
| 281-500 | 42696 | 1.10% | 99.82% |
| 501-1000 | 4858 | 0.13% | 99.95% |
| 1001-2000 | 1540 | 0.04% | 99.99% |
| 2001-5000 | 466 | 0.01% | 100.00% |
| >5000 | 60 | 0.00% | 100.00% |
### 关键字段完整性(缺失/为空率)
| 字段 | 缺失/为空条数 | 缺失率 | 完整率 |
|---|---|---|---|
| mid | 0 | 0.00% | 100.00% |
| url | 0 | 0.00% | 100.00% |
| content | 0 | 0.00% | 100.00% |
| ctime | 0 | 0.00% | 100.00% |
| user | 0 | 0.00% | 100.00% |
| lang_code | 6 | 0.00% | 100.00% |
| has_attributes | 1785426 | 46.01% | 53.99% |
| pic_urls | 3085448 | 79.51% | 20.49% |
| video_urls | 3279526 | 84.51% | 15.49% |
| retweeted | 456245 | 11.76% | 88.24% |
### 互动指标“有效值”覆盖(>0 的记录占比)
| 指标字段 | 字段类型 | 含义 | >0 记录数 | >0 占比 |
|---|---|---|---|---|
| like_count | int | 点赞数(当前记录口径) | 565802 | 14.58% |
| repost_count | int | 转发数(当前记录口径) | 2836786 | 73.12% |
| reply_count | int | 回复数(当前记录口径) | 300684 | 7.75% |
| visit_count | int | 访问/浏览相关计数(当前记录口径) | 928985 | 23.95% |
| collection_count | int | 收藏计数(当前记录口径) | 97429 | 2.51% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 大规模与可扩展 | 388 万条记录,分片 JSONL 便于流式/并行处理 | 支持大模型预训练、分布式特征工程与离线评估 |
| 多语言覆盖 | en/ja/th/es/pt/ko/tr/ar/fr/hi/zh... 等多语种分布明显 | 适用于跨语种建模、语言迁移、统一检索与多语种安全评估 |
| 多媒体线索可用 | 约 20.49% 含图片链接、15.49% 含视频链接 | 支撑多模态检索、多媒体内容理解、跨模态关联建模 |
| 传播结构信息丰富 | 88.24% 记录包含 retweeted 源内容对象 | 适用于传播链分析、信息扩散建模、来源归因与去重聚合 |
| 互动指标字段齐全 | 五类互动字段全量覆盖(字段存在率 100%) | 可构建弱监督标签、排序学习目标、热度预测与内容价值建模 |
| 数据治理友好 | JSON 结构清晰、字段完整性可量化 | 便于做数据清洗、质量评估、特征可解释性与审计追溯 |
## 数据样例
本节以 JSON 的方式直接展示数据集中单条记录的原始结构样式(为避免篇幅过长,仅对 pic_urls/video_urls 这类列表做了截断示例展示)。以下示例为从全量数据中抽取的不同语言与媒体形态样本。
json
[
{
"mid": "2005670164948459566",
"url": "https://twitter.com/0830lay/status/2005670164948459566",
"ctime": 1767024005,
"wtype": 7,
"lang_code": "ja",
"content": "「お前だって●●してるだろ」って言葉、他人から見て自分は悪いことやってるって自覚してる人の言葉かも。",
"content_length": 63,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"visit_count": 33,
"collection_count": 0,
"user": {"uid": "2342278416", "nickname": "欲が深いレイ", "followers_count": 594, "verified": 0}
},
{
"mid": "2005670163992170611",
"url": "https://twitter.com/GKHANhzenhsv/status/2005670163992170611",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "tr",
"content": "Anam yazmış bu akşam yemekte \\n+Hünkar beğendi yaptım sana \\n+Evli olsaydım evdekı b…",
"content_length": 172,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 31,
"repost_count": 1,
"reply_count": 8,
"visit_count": 635,
"collection_count": 0,
"user": {"uid": "1280176041600958464", "nickname": "GÖKHAN / Te⚔️aS", "followers_count": 7401, "verified": 0}
},
{
"mid": "2005670164696838377",
"url": "https://twitter.com/omuo312/status/2005670164696838377",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "en",
"content": "As usual, I watch Ninjago and ZEXAL dub and I found that I've already finished watching Ninjago S4 and ZEXAL S1 ep29",
"content_length": 116,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"visit_count": 109,
"collection_count": 0,
"user": {"uid": "1973295167328362496", "nickname": "ボムお", "followers_count": 46, "verified": 0}
},
{
"mid": "2005670162956218488",
"url": "https://twitter.com/leekimjooseo/status/2005670162956218488",
"ctime": 1767024005,
"wtype": 7,
"lang_code": "ko",
"content": "@zzukkim 퍼가요",
"content_length": 12,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 0,
"repost_count": 0,
"reply_count": 1,
"visit_count": 43,
"collection_count": 0,
"user": {"uid": "1992562291523649536", "nickname": "du", "followers_count": 90, "verified": 0}
},
{
"mid": "2005670164440953211",
"url": "https://twitter.com/luiscarloshdv/status/2005670164440953211",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "es",
"content": "Oye @SEGIAGUA tienes una fuga de agua en Av Cuauhtemoc a la altura del no. 182 entre García Diego y Olvera. https://t.co/kjWHYuANou",
"content_length": 131,
"has_attributes": ["has_pics"],
"pic_urls": ["https://pbs.twimg.com/media/G9WSWsaa8AA7DhH.jpg"],
"video_urls": null,
"like_count": 1,
"repost_count": 0,
"reply_count": 1,
"visit_count": 182,
"collection_count": 0,
"user": {"uid": "69015945", "nickname": "Luis Carlos Hernández", "followers_count": 5795, "verified": 0}
},
{
"mid": "2005670166378729817",
"url": "https://twitter.com/cnpoem/status/2005670166378729817",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "zh",
"content": "减字木兰花/宋・沈瀛\\n人无常止。\\n暮四朝三时怒喜。\\n怪雨嫌风。\\n高耳皇天下听通。\\n刚而使酒。\\n骂坐灌夫忘客寿。\\n若予何。\\n夫子雍容语不多。",
"content_length": 69,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 2,
"repost_count": 0,
"reply_count": 0,
"visit_count": 112,
"collection_count": 0,
"user": {"uid": "416234815", "nickname": "唐诗宋词", "followers_count": 5935, "verified": 0}
},
{
"mid": "2005670165560897613",
"url": "https://twitter.com/nixfire/status/2005670165560897613",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "de",
"content": "https://t.co/mEVFOfTSVv",
"content_length": 23,
"has_attributes": ["has_video"],
"pic_urls": null,
"video_urls": ["https://video.twimg.com/ext_tw_video/2005581089683746816/pu/vid/avc1/320x568/roTc2F7dzmuxz3K7.mp4?tag=19"],
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"visit_count": 0,
"collection_count": 0,
"user": {"uid": "85175702", "nickname": "RED POWER", "followers_count": 27, "verified": 0}
},
{
"mid": "2005670166856688064",
"url": "https://twitter.com/minwongopublic/status/2005670166856688064",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "id",
"content": "mw! Gaiss mau au MW yang salah satunya udah punya anak atau yang ceritanya kaya dumpling gtuuu, boleh kasi linknya yaww",
"content_length": 119,
"has_attributes": null,
"pic_urls": null,
"video_urls": null,
"like_count": 7,
"repost_count": 0,
"reply_count": 4,
"visit_count": 1720,
"collection_count": 10,
"user": {"uid": "342629515", "nickname": "💚💜", "followers_count": 59490, "verified": 0}
},
{
"mid": "2005670163149115460",
"url": "https://twitter.com/LeBarjotProno/status/2005670163149115460",
"ctime": 1767024005,
"wtype": 1,
"lang_code": "fr",
"content": "🚀• PALIER 1 - MONTANTE x10 FOOT ⚽️ \\n📈 Départ : 100€\\n💰 Arrivée : 1000€\\n👇🏻 LE 1ER PALIER EST DISPO👇🏻 …",
"content_length": 197,
"has_attributes": ["has_pics", "has_ocr"],
"pic_urls": ["https://pbs.twimg.com/media/G9WSYaDW8AAwUFS.jpg"],
"video_urls": null,
"like_count": 37,
"repost_count": 11,
"reply_count": 1,
"visit_count": 5358,
"collection_count": 1,
"user": {"uid": "1709111000752947200", "nickname": "Le Barjot🫨", "followers_count": 33401, "verified": 0}
}
]## 应用场景
### 多语言内容理解与检索的预训练与微调
面向多语言内容理解与检索的预训练与微调是该数据集最直接的落地方向。数据集中 lang_code 覆盖多语种且样本量充足,配合 content 与 content_length 可构建跨语种的统一语义空间训练集,用于多语言文本编码器、跨语种检索模型与多语言分类器的训练与评估。在工程实践中,可以按语言或内容长度进行分层采样,解决多语言长尾与样本不均衡问题;在研究上,则可用语言分布与互动指标构建“跨语种一致性”或“跨语种可迁移性”的评测基准。由于数据使用 JSONL 分片存储,适合直接接入流式训练管线,结合分布式数据加载器进行大规模训练,降低预处理成本并提升训练吞吐。
### 推荐系统与排序学习(互动指标与传播结构驱动)
基于互动指标与传播结构的推荐系统与排序学习同样具备明确价值。该数据集为每条记录提供 like_count/repost_count/reply_count/visit_count/collection_count 等字段,且字段覆盖率为 100%,使得你可以在不额外对齐外部日志的前提下,构建内容热度预测、排序学习(Learning to Rank)与多目标优化任务。尤其在存在 retweeted 子对象的场景下,可以将“当前记录”与“源内容”分别作为不同层级的监督信号:例如以源内容互动作为内容质量的弱监督标签,以当前记录互动刻画传播链条上的再分发效应,从而更贴近真实产品中的内容传播与反馈闭环。该数据集也适合作为离线评估集,验证模型在不同语言、不同媒体形态与不同互动强度区间上的鲁棒性。
### 多模态研究与跨模态检索(文本-图片/文本-视频)
面向多模态研究与跨模态检索,该数据集提供了可用的图片/视频链接线索,使得你能够在合规与可控环境下进一步拉取或对齐多媒体内容,构建“文本—图片”或“文本—视频”的配对样本。约 20.49% 的记录包含图片链接、15.49% 包含视频链接,同时出现图与视频的记录占比虽仅 0.35%,但足以支持多媒体融合策略的对比实验。在应用上,你可以训练基于文本与媒体联合表征的检索模型,用于多模态内容搜索、相似内容召回与跨媒体去重;在研究上,则可探索多语言文本对多媒体语义的对齐规律、媒体类型对互动反馈的影响,以及多模态输入对内容理解任务的增益。由于媒体字段以 URL 列表形式提供,工程侧可灵活选择是否落盘、是否缓存与是否仅抽取关键帧等策略,从而兼顾性能与成本。
### 事件检测、主题聚类与传播链分析
面向事件检测、主题聚类与传播链分析,该数据集的 retweeted 结构为构建“源内容—再传播”关系提供了天然入口。你可以以 retweeted.mid 作为聚合键,将大量转发/引用记录归并到同一源内容上,进而形成主题簇与传播簇,分析不同语言社区对同一内容的再传播形态与互动差异。进一步结合 ctime 与互动字段,可以在单次采集窗口内构建近实时的热度曲线、传播深度与传播广度估计,用于事件突发检测、热点追踪与内容治理策略评估。在产业应用中,这类分析可用于构建“热点词条—代表内容—传播链条”的结构化资产,为运营分析、内容审核辅助与舆情监测(合规场景下)提供技术支撑。
### 数据治理、质量评估与模型安全测试
面向数据治理、质量评估与模型安全测试,该数据集具备可量化的字段完整性与结构特征。全量统计显示 mid/url/content/ctime/user 等关键字段完整率为 100%,同时 has_attributes、pic_urls、video_urls 等字段呈现可解释的缺失模式(多数情况下是“无媒体”而非异常缺失)。这使得你可以系统化地建立质量规则,例如:媒体桶一致性校验、互动值范围检查、异常长度检测(如极长文本)、以及转发结构一致性检查等。此外,多语言与开放域文本对于模型鲁棒性与安全性评测也具有现实意义:你可以在严格合规的前提下,构建回归测试集与偏差分析集,评估模型在不同语言、不同媒体形态与不同互动强度区间上的稳定性,从而为上线部署提供更可靠的质量保障。
## 结尾
综合来看,该数据集以 388 万条多语言社交短文本记录为核心,兼具可扩展的 JSONL 组织方式、较高的关键字段完整率、可用的媒体链接线索与全量覆盖的互动指标字段。这些要素共同使其不仅适合传统 NLP 任务(分类、聚类、检索、生成与多语言对齐),也能支持更贴近真实业务的排序学习、传播建模与多模态研究。若你需要将其进一步用于多模态训练或更精细的用户/主题画像分析,建议在本地受控环境中按需拉取媒体内容、并严格遵循合规与隐私保护原则开展二次处理。有需要也可以进一步沟通定制化统计口径与下游任务构建方案。
看了又看
验证报告

目前该文件尚无匹配的数据质量验证程序。我们将在后续版本中提供相应的验证支持,敬请谅解。






