# 本数据集约有1350 万条数据,解压后约50~60G请提前预留好存储空间,如有更大规模的数据需求或对数据集存在疑问,欢迎通过邮箱 450792304@qq.com 与我联系。
# 另外,本数据集设有分享佣金,如果买家是通过你分享的链接进来购买数据的话,你可以获取成交金额的20%,也就是200元,欢迎大家帮忙分享(可通过分享赚佣金的按钮获取专属的分享链接)。
在中文互联网的真实语境中,社交媒体数据既是语言模型训练的“高频燃料”,也是企业洞察与业务决策的“实时雷达”。相比只包含纯文本的语料,结构化的微博数据更接近线上系统的真实输入:它不仅有内容本体,还天然带有账号、来源、互动信号与转发关系,从而让研究与落地都能围绕可解释的字段进行复现与迭代。本报告的所有统计结果均来自对数据的全量流式扫描,确保口径一致、可复现。
从内容构成来看,该数据集以 JSONL(每行一个 JSON 对象)的方式组织,每条记录通常包含正文内容、链接、发布时间/更新时间等元数据,同时包含用户信息、发布者信息、采集元信息以及内容分析结果等结构化字段。对于转发类记录,还会通过 retweeted 字段嵌入被转发原文的结构化对象,用于刻画原帖与转发之间的内容与传播关系。媒体方面,本报告仅以图片链接字段 pic_urls 与视频链接字段 video_urls 是否非空来判断“是否带媒体链接”,这些链接可作为后续多模态下载与解析的入口。
## 数据基本信息
本次全量解析记录数为 13,503,002 条,解析失败为 0 条。数据格式为文本 JSONL,适合在单机流式、批处理与分布式框架(如 Spark/Flink)中进行稳定处理。
- 媒体占比:13.26%。判定标准为图片链接或视频链接字段任一非空。
- 转发占比:72.57%。判定标准为记录中是否包含 retweeted 原文对象。
- 互动占比:3.31%。判定标准为点赞、转发、评论、分享任一互动数大于 0。
## 数据字段说明(含完整性)
字段含义与类型以《数据字段说明文档.csv》为准;完整性由全量数据统计得到。下表展示“完整率较高且更具代表性”的字段样例,便于快速理解数据结构。
|字段名称|字段类型|字段含义|数据示例|完整性|
|---|---|---|---|---|
|uuid|string|文章唯一ID|259c554cf80711f09efe246e96c6d348|100.00%|
|wtype|integer|文章发表类型(1:原创 2:转发 7:评论 8:弹幕)|7|100.00%|
|mid|string|文章MID(网站自己生成)|5257772190924854|100.00%|
|url|string|文章链接地址|https://weibo.com/7492016565/QmuyuCN82…|100.00%|
|content|string|文章内容|张子墨|100.00%|
|ctime|timestamp|发布时间(时间戳)|1769034037|100.00%|
|utime|timestamp|更新时间(时间戳)|1769137003|100.00%|
|gather.site_name|string|网站名称|新浪微博|100.00%|
|gather.site_domain|string|网站域名|weibo.com|100.00%|
|gather.info_flag|array
|publisher|object|发布者信息|{"platform":"自媒体","site_name":"新浪微博视频"…}|100.00%|
|user|object|用户信息|{"uid":"8318235347","name":"度乙贺"…}|100.00%|
|user.uid|string|用户ID|8318235347|99.99%|
|user.name|string|用户名|度乙贺|99.91%|
|user.verified|integer|是否认证(0/1/2)|0|100.00%|
|user.verified_type|integer|用户认证类型-1:普通用户 0:名人 1:政府 2:企业 3:媒体 4:校园 5:网站 6:应用 7:团体(机构) 8:待审企业 10:类政府 200:初级达人 220:中高级达人 400:已故V用户 999:未知|-1|99.13%|
|user.ip_region|array
|pic_urls|array
|video_urls|array
|reply_count|integer|评论数|0|100%|
|repost_count|integer|转发数|0|100%|
|like_count|integer|点赞数|0|100%|
|analysis|object|分析结果信息|{"sentiment":0,"hashcode":{…}…}|100.00%|
|analysis.sentiment|integer|倾向性(0/1/2/-1/-2/…)|0|100.00%|
|analysis.hashtag|array
|analysis.mentions|array
|retweeted|object|原文信息(转发/评论场景中)|{…}|72.57%|
## 数据分布情况
### 发帖类型分布
|wtype|含义|数量|占比|累计占比|
|---|---|---:|---:|---:|
|7|评论|6,788,242|50.27%|50.27%|
|1|原创|3,703,796|27.43%|77.70%|
|2|转发|3,010,964|22.30%|100.00%|
### 媒体类型分布
|媒体类型|数量|占比|累计占比|
|---|---:|---:|---:|
|none|11,712,372|86.74%|86.74%|
|image_only|1,280,790|9.49%|96.23%|
|both|509,840|3.78%|100.00%|
> 说明:本分布仅依据图片/视频链接字段是否存在。
### 互动信号分布
|是否有互动|数量|占比|累计占比|
|---|---:|---:|---:|
|无|13,055,445|96.69%|96.69%|
|有|447,557|3.31%|100.00%|
### 互动分布
#### 点赞数
|分桶|数量|占全量比例|在字段可用样本内比例|
|---|---:|---:|---:|
|1-10|93,271|0.69%|1.37%|
|11-100|7,191|0.05%|0.11%|
|101-1k|1,554|0.01%|0.02%|
|1k+|526|0.00%|0.01%|
#### 转发数
|分桶|数量|占全量比例|在字段可用样本内比例|
|---|---:|---:|---:|
|1-10|256,115|1.90%|3.82%|
|11-100|49,522|0.37%|0.74%|
|101-1k|9,364|0.07%|0.14%|
|1k+|1,739|0.01%|0.03%|
#### 评论数
|分桶|数量|占全量比例|在字段可用样本内比例|
|---|---:|---:|---:|
|1-10|236,266|1.75%|3.51%|
|11-100|61,562|0.46%|0.91%|
|101-1k|12,074|0.09%|0.18%|
|1k+|1,225|0.01%|0.02%|
### 内容长度分布
|字符数|数量|占比|累计占比|
|---|---:|---:|---:|
|11-50|5,528,157|40.94%|40.94%|
|1-10|3,922,418|29.05%|69.99%|
|51-140|3,458,125|25.61%|95.60%|
|141-300|491,516|3.64%|99.24%|
|301+|102,745|0.76%|100.00%|
|0|41|0.00%|100.00%|
### 结构交叉分布
#### 发帖类型与媒体链接的关系
|wtype|含义|媒体类型|数量|占比|
|---|---|---|---:|---:|
|7|评论|none|6,651,412|49.26%|
|7|评论|image_only|136,830|1.01%|
|1|原创|none|2,052,260|15.20%|
|1|原创|image_only|1,143,939|8.47%|
|1|原创|both|507,597|3.76%|
|2|转发|none|3,008,700|22.28%|
|2|转发|both|2,243|0.02%|
|2|转发|image_only|21|0.00%|
#### 发帖类型与互动的关系
|wtype|含义|是否有互动|数量|占比|
|---|---|---|---:|---:|
|7|评论|无|6,680,666|49.47%|
|7|评论|有|107,576|0.80%|
|1|原创|无|3,366,448|24.93%|
|1|原创|有|337,348|2.50%|
|2|转发|无|3,008,331|22.28%|
|2|转发|有|2,633|0.02%|
#### 是否包含原文对象与媒体链接的关系
|retweeted|含义|媒体类型|数量|占比|
|---|---|---|---:|---:|
|1|带 retweeted(转发/评论链路)|none|9,660,112|71.54%|
|1|带 retweeted(转发/评论链路)|image_only|136,851|1.01%|
|1|带 retweeted(转发/评论链路)|both|2,243|0.02%|
|0|不带 retweeted(更接近原帖)|none|2,052,260|15.20%|
|0|不带 retweeted(更接近原帖)|image_only|1,143,939|8.47%|
|0|不带 retweeted(更接近原帖)|both|507,597|3.76%|
#### 是否包含原文对象与互动的关系
|retweeted|含义|是否有互动|数量|占比|
|---|---|---|---:|---:|
|1|带 retweeted(转发/评论链路)|无|9,688,997|71.75%|
|1|带 retweeted(转发/评论链路)|有|110,209|0.82%|
|0|不带 retweeted(更接近原帖)|无|3,366,448|24.93%|
|0|不带 retweeted(更接近原帖)|有|337,348|2.50%|
### 地理分布(Top20)
|IP属地|数量|占比|累计占比|
|---|---:|---:|---:|
|广东|1,614,263|11.95%|11.95%|
|江苏|904,501|6.70%|18.65%|
|河南|820,629|6.08%|24.73%|
|浙江|803,476|5.95%|30.68%|
|山东|790,707|5.86%|36.54%|
|四川|630,064|4.67%|41.21%|
|湖南|549,804|4.07%|45.28%|
|河北|531,913|3.94%|49.22%|
|福建|529,452|3.92%|53.14%|
|安徽|484,445|3.59%|56.73%|
|湖北|448,651|3.32%|60.05%|
|江西|440,210|3.26%|63.31%|
|上海|417,531|3.09%|66.40%|
|广西|395,335|2.93%|69.33%|
|北京|376,033|2.78%|72.11%|
|辽宁|328,571|2.43%|74.54%|
|陕西|316,230|2.34%|76.88%|
|重庆|306,978|2.27%|79.15%|
|山西|252,474|1.87%|81.02%|
|贵州|225,609|1.67%|82.69%|
### 用户覆盖与集中度
|指标|数值|说明|
|---|---:|---|
|近似去重用户数|约 13,056,413|用于评估用户覆盖规模(近似估计)|
|Top20 发帖用户总占比|约 1.72%|Top20 用户发帖数之和 / 全量记录数|
> 解读:在 1,350 万级记录下,Top20 用户仅占约 1.72%,整体不存在“极端单一账号刷屏”的强集中风险。实际训练或建模时仍建议进行按用户去重或限频,以减少头部账号带来的偏置。
### 话题与提及覆盖
说明:相较于“头部账号/设备”等容易被噪声主导的统计,话题与@提及字段的覆盖率更直接影响“能不能做主题建模、实体链接等任务”。在本数据中:
|字段|含义|覆盖条数|覆盖率|
|---|---|---:|---:|
|analysis.hashtag|话题标签数组|1,197,656|8.87%|
|analysis.mentions|@提及用户数组|2,105,965|15.60%|
> 使用建议:若你要做话题聚类或话题检索,可把 analysis.hashtag 作为高精度锚点,并结合 analysis.hashcode 做近似主题归并;若你要做社交关系与传播链路,analysis.mentions 可用于构建弱关系图并与 retweeted 的传播结构互补。
## 数据优势
|优势特征|具体表现|应用价值|
|---|---|---|
|规模与颗粒度兼备|单分片即包含 1,350 万级结构化记录,且按 JSONL 可流式处理|支持从抽样实验到全量训练的平滑扩展,适合做大模型训练语料、离线评测与 A/B 前置分析|
|字段体系完整、可复现|字段含义与类型可由《数据字段说明文档.csv》统一口径,统计口径清晰一致|适合构建可审计的数据资产与标准化数据产品,降低跨团队协作与复现实验成本|
|传播结构可建模|以 retweeted 描述转发关系,转发占比约 72.57%|可用于信息扩散研究、传播链路建模、原帖聚合与去重、以及基于转发关系的图学习|
|互动信号可用于弱监督|约 3.31% 记录带有正互动信号(任一互动数>0)|可用于热度预测、传播阈值模型、排序学习与推荐系统训练,同时也可用于内容质量分层抽样|
|多模态入口清晰|严格口径下约 13.26% 记录提供图片/视频链接字段|可扩展到图文/视频内容理解、多模态检索、封面质量评估、跨模态去重等方向;若进一步落盘媒体文件,可升级为更强的数据产品|
### 样例 1(retweet=0|media=both|interaction=0)
json
{
"sample_kind": "retweet=0|media=both|interaction=0",
"uuid": "f13d70e8f79711f09792e43d1a7dbb00",
"mid": "5258003723062827",
"wtype": 1,
"url": "https://weibo.com/3473445844/QokWocQMr",
"ctime": 1769089239,
"user": {
"bi_followers_count": 6,
"uid": "3473445844",
"ip_region": [
"湖北"
],
"verified": 1,
"verified_reason": "微博原创视频博主",
"followers_count": 195119,
"location": [
"福建省"
],
"verified_type": 0,
"province": "福建省",
"profile_img_url": "https://tvax1.sinaimg.cn/crop.0.0.512.512.50/cf0893d4ly8hrx457t7t5j20e80e8dgp.jpg?KID=imgbed,tva&Expires=1769100040&ssig=Og0zacXTNg",
"statuses_count": 4550,
"friends_count": 142,
"analysis_location": [
"福建省"
],
"lang_code": "zh-cn",
"favourites_count": 4,
"name": "女司机kk",
"level": 1,
"url": "https://weibo.com/u/3473445844",
"gender": "f",
"created_at": 1368719116,
"video_status_count": 4243
},
"device": "微博视频号",
"content": "女孩子健身都这样吗 女司机kk的微博视频 ",
"pic_urls": [
"https://wx4.sinaimg.cn/orj480/cf0893d4ly1i9juhqporvj20no0dcwf4.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/o0/3MPj1Hg8lx08uKKj0PEY01041200nBN10E010.mp4?label=mp4_hd_mini&template=852x480.25.0&ori=0&ps=JDaeg0BaZO4N&Expires=1769092840&ssig=asdWNmqhYf&KID=unistore,video"
],
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|3473445844",
"name": "女司机kk",
"entity": "女司机kk"
}
}### 样例 2(retweet=0|media=both|interaction=0)
json
{
"sample_kind": "retweet=0|media=both|interaction=0",
"uuid": "502e2468f7a611f0bd18e43d1a7dd6e0",
"mid": "5258029613973945",
"wtype": 1,
"url": "https://weibo.com/3025096147/QolC9gFNT",
"ctime": 1769095412,
"user": {
"bi_followers_count": 3191,
"uid": "3025096147",
"ip_region": [
"广西"
],
"verified": 1,
"verified_reason": "超话粉丝大咖(檀健次超话)",
"followers_count": 15431,
"location": [
"广西壮族自治区"
],
"verified_type": 0,
"province": "广西壮族自治区",
"profile_img_url": "https://tvax3.sinaimg.cn/crop.0.0.1080.1080.50/b44f4dd3ly8i8qypfxmhyj20u00u0n0d.jpg?KID=imgbed,tva&Expires=1769106212&ssig=bw91%2BAEA2f",
"statuses_count": 11586,
"description": "理想型@檀健次",
"friends_count": 3443,
"analysis_location": [
"广西壮族自治区"
],
"lang_code": "zh-cn",
"favourites_count": 2732,
"name": "喜欢和爱都很多",
"level": 19,
"url": "https://weibo.com/u/3025096147",
"gender": "f",
"created_at": 1350924870,
"video_status_count": 4335
},
"device": null,
"content": "#清华大学拟退学2名博士# 我可以代替他们去么,[捂嘴哭][捂嘴哭][捂嘴哭]我交双份学fei也行 。 ",
"pic_urls": [
"http://wx4.sinaimg.cn/large/b44f4dd3gy1i9jxgkns00j20zk1r7whw",
"https://wx2.sinaimg.cn/orj480/b44f4dd3gy1i9jxgrlnwjj20k00zkwg6.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/u0/oSuNndvmgx08uKRmUpYY010412009I5H0E010.mp4?label=mp4_hd&template=540x960.24.0&ori=0&ps=JDaeg0BaZO4N&Expires=1769099012&ssig=iP9JQGTOti&KID=unistore,video"
],
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|3025096147",
"name": "喜欢和爱都很多",
"entity": "喜欢和爱都很多"
}
}### 样例 3(retweet=0|media=both|interaction=0)
json
{
"sample_kind": "retweet=0|media=both|interaction=0",
"uuid": "5bb83d72f7a711f0a52de43d1a7da2d0",
"mid": "5258031450557520",
"wtype": 1,
"url": "https://weibo.com/6426387271/QolF72l2g",
"ctime": 1769095850,
"user": {
"province": "上海市",
"bi_followers_count": 1,
"profile_img_url": "https://tvax1.sinaimg.cn/crop.0.0.512.512.50/0070UsTBly8hub3gtyqw6j30e80e80sp.jpg?KID=imgbed,tva&Expires=1769106661&ssig=dhu3U2CIRg",
"statuses_count": 531,
"uid": "6426387271",
"friends_count": 26,
"level": 4,
"url": "https://weibo.com/u/6426387271",
"gender": "f",
"created_at": 1512555934,
"ip_region": [
"上海"
],
"analysis_location": [
"上海市"
],
"followers_count": 49,
"video_status_count": 70,
"location": [
"上海市"
],
"lang_code": "zh-cn",
"favourites_count": 62,
"verified": 0,
"verified_type": -1,
"name": "Theme_III"
},
"device": "iPhone 17 Pro Max(银色)",
"content": "lswl[淡淡的] 上海·上海凯宾斯基大酒店 Theme_III的微博视频 ",
"pic_urls": [
"https://wx4.sinaimg.cn/orj480/0070UsTBly1i9jxof4686j30u0140myz.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/o0/LXNz3J0zlx08uKRS6gnC010412006MUC0E010.mp4?label=mp4_hd&template=540x720.24.0&ori=0&ps=JDaeg0BaZO4N&Expires=1769099461&ssig=drTjddobfo&KID=unistore,video"
],
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|6426387271",
"name": "Theme_III",
"entity": "Theme_III"
}
}### 样例 4(retweet=0|media=both|interaction=1)
json
{
"sample_kind": "retweet=0|media=both|interaction=1",
"uuid": "1378ea64f73611f0b0c5e43d1a7db790",
"mid": "5257827406840393",
"wtype": 1,
"url": "https://weibo.com/7834183273/Qogm0sHuV",
"ctime": 1769047202,
"user": {
"bi_followers_count": 0,
"uid": "7834183273",
"ip_region": [
"韩国"
],
"city": "韩国",
"verified": 1,
"verified_reason": "韩国WAKEONE旗下男子组合ZEROBASEONE",
"followers_count": 1001517,
"location": [
"海外",
"韩国"
],
"verified_type": 0,
"province": "海外",
"profile_img_url": "https://tvax3.sinaimg.cn/crop.0.0.1000.1000.50/008ybqWJly8i8uizqn2wnj30rs0rsdg4.jpg?KID=imgbed,tva&Expires=1769058003&ssig=iWgHyrwtiN",
"statuses_count": 3269,
"friends_count": 1,
"lang_code": "zh-cn",
"favourites_count": 0,
"name": "ZB1_cn",
"level": 0,
"url": "https://weibo.com/u/7834183273",
"gender": "m",
"created_at": 1681889081,
"video_status_count": 941
},
"device": "微博视频号",
"content": "很高兴成为@韩束KANS 韩束亚太区品牌代言人,\n共同破译「肌」密白名单。\n随我一起,即刻解锁透白「肌」密,\n开启随心焕亮「昊」状态。\n\n#章昊韩束亚太区品牌代言人# #京东美妆# #京东超级星粉日# \n#昊白新启自成焦点# #肌密白名单# \n#章昊[超话]# #ZB1组合[超话]# ZB1_cn的微博视频 ",
"pic_urls": [
"https://wx2.sinaimg.cn/orj480/008ybqWJgy1i9iq8wq2bdj32yo1o0qv8.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/o0/h8oRJrRulx08uJdIjQOY01041200lxdH0E010.mp4?label=mp4_hd&template=852x480.25.0&ori=0&ps=JDaeg0BaZO4N&Expires=1769050803&ssig=axTgqkQp7b&KID=unistore,video"
],
"like_count": 0,
"repost_count": 361171,
"reply_count": 166933,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|7834183273",
"name": "ZB1_cn",
"entity": "ZB1_cn"
}
}### 样例 5(retweet=0|media=both|interaction=1)
json
{
"sample_kind": "retweet=0|media=both|interaction=1",
"uuid": "f3c5f266f73a11f0b56ce43d1a7dc950",
"mid": "5257836206755497",
"wtype": 1,
"url": "https://weibo.com/6479241167/QogAcslpD",
"ctime": 1769049300,
"user": {
"bi_followers_count": 7,
"uid": "6479241167",
"ip_region": [
"广东"
],
"city": "静安区",
"verified": 2,
"district": "静安区",
"verified_reason": "高端鲜奶新标杆",
"followers_count": 551186,
"location": [
"上海市",
"静安区"
],
"verified_type": 2,
"province": "上海市",
"profile_img_url": "https://tvax4.sinaimg.cn/crop.0.0.1080.1080.50/0074ueBNly8h8xel173xwj30u00u0t9u.jpg?KID=imgbed,tva&Expires=1769060101&ssig=ozXPkjXYV5",
"statuses_count": 2501,
"description": "每日鲜语,高端鲜奶新标杆,优于欧盟标准生牛乳,每一个环节都坚持高标准。上市以来,深受消费者青睐,成为百万精英家庭的品质之选。关注每日鲜语,用鲜活味道开启精致一天!",
"friends_count": 97,
"analysis_location": [
"上海市",
"上海市",
"静安区"
],
"lang_code": "zh-cn",
"favourites_count": 189,
"name": "每日鲜语",
"level": 4,
"url": "https://weibo.com/u/6479241167",
"gender": "f",
"created_at": 1517896603,
"video_status_count": 370
},
"device": "微博视频号",
"content": "每日鲜语和品牌代言人 @肖战 \n将新年祝愿化作可珍藏的陪伴。\n新春限定心意已至,和你一起,马年向更高。\n\n「代言人新春五福系列卡片」:财运 / 事业 / 学业 / 健康 / 好运,五款祝福一次收齐\n\n「代言人新春包挂」:新福随身佩戴,点亮每个出发的日常。 \n\n「代言人2026日历」: 365天,让他的陪伴化作翻页的风景,见证向更高的每一天。 \n\n新的一年,与品牌代言人肖战一起 马年向更高!\n\n即刻前往京东 \n抢鲜入手限定周边,和肖战一起马年向更高。\n\n#新年新标杆出发向更高# \n#每日鲜语品牌代言人肖战# \n#和肖战一起马年向更高# \n#每日鲜语新春限定系列# \n#肖战# #肖战[超话]",
"pic_urls": [
"https://wx3.sinaimg.cn/orj480/0074ueBNgy1i9ip1uzilmj32bc334hdx.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/u0/xZHsztvKgx08uJa9aEXm0104120087A00E010.mp4?label=mp4_hd&template=540x960.24.0&ori=0&ps=JDaeg0BaZO4N&Expires=1769052901&ssig=xWtf7GD7FW&KID=unistore,video"
],
"like_count": 0,
"repost_count": 14235,
"reply_count": 7008,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|6479241167",
"name": "每日鲜语",
"entity": "每日鲜语"
}
}### 样例 6(retweet=0|media=both|interaction=1)
json
{
"sample_kind": "retweet=0|media=both|interaction=1",
"uuid": "7a70de02f74011f09c26e43d1a7dbb00",
"mid": "5257846161670551",
"wtype": 1,
"url": "https://weibo.com/1235437290/QogQg70An",
"ctime": 1769051674,
"user": {
"bi_followers_count": 14,
"uid": "1235437290",
"ip_region": [
"北京"
],
"city": "北京市",
"verified": 1,
"verified_reason": "好利来总裁、摄影师",
"followers_count": 1087740,
"location": [
"北京市"
],
"verified_type": 0,
"province": "北京市",
"profile_img_url": "https://tvax2.sinaimg.cn/crop.0.0.512.512.50/49a346ealy8hft0x3p6idj20e80e874m.jpg?KID=imgbed,tva&Expires=1769062474&ssig=V94IVk6VOz",
"statuses_count": 317,
"description": "好利来总裁,中国摄影家协会会员",
"friends_count": 60,
"analysis_location": [
"北京市",
"北京市"
],
"lang_code": "zh-cn",
"favourites_count": 0,
"name": "摄影家罗红",
"level": 4,
"url": "https://weibo.com/u/1235437290",
"gender": "m",
"created_at": 1251447264,
"video_status_count": 125
},
"device": "微博视频号",
"content": "斯瓦尔巴群岛:北极熊妈妈和宝宝的故事\n\n这是斯瓦尔巴群岛一个美好的清晨,北极熊妈妈带着孩子,来到辽阔的浮冰上。小熊异常兴奋,在雪地里尽情地翻滚。\n\n这可能是它和妈妈的第一次远行,累了,就钻到妈妈的怀里吃奶。妈妈也被它的兴奋感染,陪它一起玩耍起来,直到晚霞映红它们雪白的毛发。\n\n接下来,妈妈要让它学习一项重要的本领:寻找猎物,这才是这趟远行的意义。\n\n它们跃入水中,从一块浮冰游向另一块浮冰,游向更广阔的水域。\n\n这里是北极,是北极熊的故乡。#罗红摄影##罗红摄影艺术馆##北极熊# 摄影家罗红的微博视频",
"pic_urls": [
"https://wx1.sinaimg.cn/orj480/49a346ealy1i9j9og5cyfj20l40bw11y.jpg"
],
"video_urls": [
"http://f.video.weibocdn.com/o0/9wvacS3Xlx08uK3jeEpi01041201iQ0T0E010.mp4?label=mp4_720p_mini&template=1280x720.25.0&ori=0&ps=1BU3MG66m3B8Rn&Expires=1769055274&ssig=uwKIGZxAz%2F&KID=unistore,video"
],
"like_count": 0,
"repost_count": 522,
"reply_count": 219,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|1235437290",
"name": "摄影家罗红",
"entity": "摄影家罗红"
}
}### 样例 7(retweet=0|media=image_only|interaction=0)
json
{
"sample_kind": "retweet=0|media=image_only|interaction=0",
"uuid": "fa4610aef73411f0afd7e43d1a7da2d0",
"mid": "5257825443382558",
"wtype": 1,
"url": "https://weibo.com/7374310537/QogiQebXo",
"ctime": 1769046734,
"user": {
"bi_followers_count": 4,
"uid": "7374310537",
"ip_region": [
"广东"
],
"city": "百色市",
"verified": 0,
"followers_count": 21,
"location": [
"广西壮族自治区",
"百色市"
],
"verified_type": -1,
"province": "广西壮族自治区",
"profile_img_url": "https://tvax2.sinaimg.cn/crop.0.0.996.996.50/00833R2xly8gtdsc1zze4j30ro0ro416.jpg?KID=imgbed,tva&Expires=1769057535&ssig=GvYWvmo9V9",
"statuses_count": 120,
"friends_count": 111,
"analysis_location": [
"广西壮族自治区",
"百色市"
],
"lang_code": "zh-cn",
"favourites_count": 1,
"name": "大海星辰20012002",
"level": 0,
"url": "https://weibo.com/u/7374310537",
"gender": "f",
"created_at": 1579404748,
"video_status_count": 0
},
"device": "每日一善超话",
"content": "#每日一善[超话]# 学会放下执念,其实是解放自己,脚步更轻快;学会接纳遗憾,其实是放过自己,心境更开阔。懂得放下的人,定是从容的、不钻牛角的,也始终懂取舍、常淡然的。 ",
"pic_urls": [
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0sn7coj309s09swem",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0sx73qj309s09s747",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0t6v70j309s09swef",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0ti20oj309s09sdg1",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0tubdsj309s09st8q",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0u3t9xj309s09s3yh",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0ue5hjj309s09sjrn",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0uoffxj309s09s3yr",
"http://wx4.sinaimg.cn/large/00833R2xgy1i9ja0uwvmkj309s09saa9"
],
"video_urls": null,
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|7374310537",
"name": "大海星辰20012002",
"entity": "大海星辰20012002"
}
}### 样例 8(retweet=0|media=image_only|interaction=0)
json
{
"sample_kind": "retweet=0|media=image_only|interaction=0",
"uuid": "0e8c8258f74b11f08c94e43d1a7db4c0",
"mid": "5257865175768231",
"wtype": 1,
"url": "https://weibo.com/7649327194/QohkVoczZ",
"ctime": 1769056207,
"user": {
"province": "其他",
"bi_followers_count": 2,
"profile_img_url": "https://tvax1.sinaimg.cn/crop.0.0.720.720.50/008lFNr4ly8h0wr1eqoqhj30k10k03zh.jpg?KID=imgbed,tva&Expires=1769067018&ssig=x7gyoIB0gt",
"statuses_count": 8,
"uid": "7649327194",
"friends_count": 20,
"level": 0,
"url": "https://weibo.com/u/7649327194",
"gender": "f",
"created_at": 1626500809,
"ip_region": [
"山东"
],
"followers_count": 2,
"video_status_count": 0,
"location": [
"其他"
],
"favourites_count": 0,
"lang_code": "zh-cn",
"verified": 0,
"verified_type": -1,
"name": "要对小段着迷a"
},
"device": "荣耀400",
"content": "#展丞周边中转站[超话]# \n110元包邮,图上全部 ",
"pic_urls": [
"http://wx3.sinaimg.cn/large/008lFNr4ly1i9jekwiys8j30zk0qoagq.jpg"
],
"video_urls": null,
"like_count": 0,
"repost_count": 0,
"reply_count": 0,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|7649327194",
"name": "要对小段着迷a",
"entity": "要对小段着迷a"
}
}### 样例 9(retweet=0|media=image_only|interaction=1)
json
{
"sample_kind": "retweet=0|media=image_only|interaction=1",
"uuid": "f3e62632f6e311f09602e43d1a7db960",
"mid": "5257679484486347",
"wtype": 1,
"url": "https://weibo.com/7378812156/QocvqiP6r",
"ctime": 1769011935,
"user": {
"province": "湖北省",
"bi_followers_count": 126,
"profile_img_url": "https://tvax4.sinaimg.cn/crop.0.0.512.512.50/0083mK7ily8i0lcx9ymdyj30e80e8t99.jpg?KID=imgbed,tva&Expires=1769022735&ssig=5NciExwwe3",
"statuses_count": 5714,
"uid": "7378812156",
"friends_count": 492,
"level": 0,
"url": "https://weibo.com/u/7378812156",
"gender": "m",
"created_at": 1579969149,
"ip_region": [
"湖南"
],
"analysis_location": [
"湖北省"
],
"followers_count": 140,
"video_status_count": 31,
"location": [
"湖北省"
],
"lang_code": "zh-cn",
"favourites_count": 44,
"verified": 0,
"verified_type": -1,
"name": "椿湫叶何了"
},
"device": "肖战超话",
"content": "#肖战[超话]##微博之夜门票#\n黑工终于结束了[泪奔]\n战战只要第一☝🏻\n虾虾想要,虾虾得到[赞啊] ",
"pic_urls": [
"http://wx4.sinaimg.cn/large/0083mK7igy1i9it9b3wf5j30sf17rafb",
"http://wx4.sinaimg.cn/large/0083mK7igy1i9it9bofcwj30rb0qowgn"
],
"video_urls": null,
"like_count": 0,
"repost_count": 1470,
"reply_count": 4091,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|7378812156",
"name": "椿湫叶何了",
"entity": "椿湫叶何了"
}
}### 样例 10(retweet=0|media=image_only|interaction=1)
json
{
"sample_kind": "retweet=0|media=image_only|interaction=1",
"uuid": "9408f468f6e511f08ee4e43d1a7dc950",
"mid": "5257682371219933",
"wtype": 1,
"url": "https://weibo.com/7876325096/QocA557ml",
"ctime": 1769012623,
"user": {
"bi_followers_count": 783,
"uid": "7876325096",
"ip_region": [
"河南"
],
"city": "北京市",
"verified": 1,
"verified_reason": "娱乐博主",
"followers_count": 376547,
"location": [
"北京市"
],
"verified_type": 0,
"province": "北京市",
"profile_img_url": "https://tvax1.sinaimg.cn/crop.0.0.1080.1080.50/008B2fXyly8htd92k1c7dj30u00u041r.jpg?KID=imgbed,tva&Expires=1769023433&ssig=CHJcwOunqa",
"statuses_count": 26960,
"description": "伟大的脸bot 伟大的脸凌驾于一切之上",
"friends_count": 1250,
"analysis_location": [
"北京市",
"北京市"
],
"lang_code": "zh-cn",
"favourites_count": 5512,
"name": "这张脸是神的杰作",
"level": 0,
"url": "https://weibo.com/u/7876325096",
"gender": "f",
"created_at": 1696663076,
"video_status_count": 1481
},
"device": "荣耀Magic4 Pro",
"content": "【赵雨凡James】混血颜控我一辈子吧 ",
"pic_urls": [
"http://wx1.sinaimg.cn/large/008B2fXyly1i9itkgieiej30u010c44v.jpg",
"http://wx2.sinaimg.cn/large/008B2fXyly1i9itkhjug9j30v412wtiw.jpg",
"http://wx3.sinaimg.cn/large/008B2fXyly1i9itkjlh0ej30u011igv4.jpg",
"http://wx1.sinaimg.cn/large/008B2fXyly1i9itki09q9j30u011iq97.jpg"
],
"video_urls": null,
"like_count": 0,
"repost_count": 8,
"reply_count": 13,
"publisher": {
"platform": "自媒体",
"site_name": "新浪微博视频",
"id": "weibo.com|7876325096",
"name": "这张脸是神的杰作",
"entity": "这张脸是神的杰作"
}
}## 应用场景
### 1)大模型与指令微调的数据工程:从“可用语料”到“可控语料”
在科研与算法训练场景中,社交媒体语料的价值不只在于“量”,更在于“可控”。本数据集以 JSONL 形式提供内容、用户、采集与分析字段,使得训练数据可以按 wtype、是否转发(retweeted)、IP属地(user.ip_region)、是否带媒体(pic_urls/video_urls)进行切片与配比,从而减少单一圈层或单一话题对模型的偏置影响。对于预训练或继续训练,你可以将 content 作为主文本,同时把 user.verified、publisher.platform、device 等作为“条件变量”构造多任务学习或对比学习;对于指令微调与偏好数据构建,则可利用互动信号(任一互动数>0)做弱监督,抽取更具传播潜力的内容作为“高价值样本”,并以低互动样本构建负例,形成更贴近真实分发系统的训练数据。
### 2)内容检索与全文索引:结构化字段让召回与解释更可靠
对于全文检索与内容理解,单纯的文本索引往往会在“同义改写、转发复述、评论串联”场景下产生重复与误召。本数据集提供 retweeted 结构,使得原帖与转发可以被聚合到同一语义簇中:一方面可以在召回层做“原帖级去重”,避免转发海量重复内容冲掉检索结果;另一方面可以利用转发链路扩展同主题内容,提升召回覆盖。在工程上,analysis.hashcode 可作为相似内容排重线索,analysis.hashtag 与 analysis.mentions 可用于主题与实体索引,user.ip_region 可用于区域限定检索与区域热点看板。对于企业内部知识发现与舆情分析,结构化字段能显著降低后处理成本:同一套索引既能支持“按关键词找内容”,也能支持“按账号/属地/设备/来源找模式”,并且输出结果的解释性更强、更容易被业务团队接受。
### 3)推荐系统与排序学习:互动信号 + 传播结构的组合增益
推荐系统落地通常需要可用的监督信号与可解释的特征。本数据集提供点赞、评论、转发(以及在部分数据中可能存在分享等)字段,使得你可以构建多目标学习:例如将 like_count 作为轻量正反馈、reply_count 作为深度互动、repost_count 作为传播意愿,形成更贴近真实生态的多任务优化目标。转发结构在这里尤其重要:同一个原帖可能被多个账号转发,转发链路可以作为“二次曝光”的代理变量,帮助研究者构建传播级别的收益归因模型;在工业实践中,它也能用于“内容聚合后排序”,让系统以原帖为单位进行打分,再按转发网络强度进行扩散评估,从而提高去重、多样性与效率。结合 device 与 publisher.platform 等字段,还能研究不同客户端与分发入口对互动形态的影响,为后续产品增长与投放策略提供数据依据。
### 4)多模态内容理解与质检:从链接字段出发构建可下载的训练资产
尽管本报告采用严格口径仅以 pic_urls/video_urls 判断媒体存在,但在该分片中仍有约 13% 的记录携带媒体链接,这意味着可以基于链接批量构建多模态训练集。研究侧可以以图文对齐为目标进行视觉-文本对比学习,或以视频为主进行关键帧抽取、视频摘要与跨模态检索;工程侧可以把媒体内容用于封面质量评估、重复内容识别、内容安全辅助审核与素材结构化。在交付层面,媒体链接字段也为“可扩展数据产品”提供了空间:同一份结构化数据可先作为元数据产品交付,后续再按需求分阶段补充图片/视频二进制落盘与特征(如 OCR、场景识别、封面 embedding),逐步提升数据资产的可直接训练程度与商业价值。
### 5)区域与人群洞察:IP属地视角下的内容供给结构分析
user.ip_region 的高覆盖率使得区域维度分析成为可能。企业运营与行业研究中常见的问题包括“不同区域内容偏好是否存在结构性差异”“热点是否具有地域集聚特征”“跨区域传播的路径与速度如何”等。通过按属地聚合 wtype、媒体类型与互动信号,可以快速形成区域画像:例如某些区域可能更偏向图文内容、更偏向评论互动,或在转发占比上呈现不同结构。对品牌与公关团队而言,这类洞察可用于区域化运营、分地域内容投放策略与线下活动联动;对算法团队而言,则可以据此制定更合理的训练/评测切片,避免模型只在头部区域表现良好而在长尾区域退化。## 结尾
综上,本分片数据在“规模、结构、可复现口径与可扩展多模态入口”四个方面具备明显优势:它既能作为科研训练中可切片、可控的高质量语料来源,也能作为企业内容检索、推荐排序与传播分析的底座数据,同时还具备进一步产品化交付的扩展空间(例如叠加媒体下载与特征计算,升级为更强的多模态训练资产)。在实际使用中,建议严格以字段说明文档统一口径,并通过流式或分布式工具完成全量处理与持续迭代,以保证统计与模型结果稳定可复现。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






