武强

verify-tagTwitter全球名人推文与384维语义向量数据集_916位名人账号约260万条推文跨越2007至2022十六年_支持NLP情感分析推荐系统与用户画像建模研究

10.9

已售 0
518.09MB

数据标识:D17784929322118427

发布时间:2026/05/11

# Twitter全球名人推文与384维语义向量数据集:916位名人账号约260万条推文跨越十六年

## 引言与背景

社交媒体已经成为研究公众人物影响力、舆情演化与多语种文本表达的关键数据来源,而 Twitter 因其开放性、即时性与全球化覆盖范围,长期以来都是自然语言处理、计算社会科学和推荐系统等领域的重要数据基础。本数据集汇集了 916 位来自全球不同行业的知名账号在 Twitter 平台上的长期发文记录,并附带由预训练语义模型生成的高维向量表征,整体构成了一个"原始文本 + 语义嵌入"双层结构的完整资源,可以同时满足文本侧建模与向量化检索两类研究需求。

数据集由两个相互补充的部分组成。第一部分是 twitter-celebrity-tweets-data,以每位用户独立 CSV 文件的形式提供完整的推文原文,共计 916 个 CSV 文件、约 2,595,973 条推文,每条记录包含推文唯一编号、发布时间与推文原文。第二部分是 twitter-celebrity-embed-data.csv,针对同样的 916 位用户提供 384 维的用户级语义向量(v1–v384),与推文文件通过 username 字段一一对应,可视为对每位名人整体语言风格与话题倾向的稠密表达。原始推文与稠密向量并存的设计,使得研究人员既可以做语言层面的细粒度分析,也可以在不重新训练嵌入模型的前提下直接进行语义相似度计算、聚类与可视化。

对于科研、算法训练与产业应用而言,这种数据组合的价值尤为突出。海量真实推文为情感分析、风格迁移、多语种文本建模、噪声文本鲁棒性研究等任务提供了天然语料;用户级嵌入则可直接服务于名人相似度检索、社群发现、跨域推荐和影响力分析。完整保留原始文件而非仅提供聚合统计,也意味着使用者可以根据自身研究目标自由地重新切分、清洗、再嵌入或扩展标注,最大化数据的二次利用空间。

## 数据基本信息

数据集整体规模为 917 个 CSV 文件,合计约 543 MB,其中名人推文目录约 514 MB,用户嵌入文件约 29 MB。推文总数为 2,595,973 条,覆盖 916 位名人账号;嵌入文件包含 916 行用户记录、384 维稠密向量,与推文目录中的账号集合完全一致(交集为 916,差集为 0)。时间跨度自 2007 年至 2022 年,整体集中在 2017–2022 年的近五年区间。

### 字段说明

推文数据文件(twitter-celebrity-tweets-data/.csv):

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| --- | --- | --- | --- | --- |
| twitter_id | string/int64 | 推文在 Twitter 平台的唯一编号 | 1546602943041785857 | 100% |
| date | string(ISO 8601 带时区) | 推文发布的 UTC 时间 | 2022-07-11 21:10:50+00:00 | 100% |
| tweet | string(Python bytes 字面量) | 推文正文,保留原始字节编码与转义字符 | b'Fusion will need to be an important part of our zero-emissions future...' | 100% |

用户嵌入文件(twitter-celebrity-embed-data.csv):

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| --- | --- | --- | --- | --- |
| username | string | 名人 Twitter 账号用户名,对应推文目录中的文件名 | 10Ronaldinho | 100% |
| v1 – v384 | float32 | 用户级语义向量的 384 个维度分量 | 0.0236, 0.1186, …, 0.0995 | 100% |

### 时间分布

按发布年份对全部 2,595,973 条推文进行统计,结果如下(占比已按全量数据计算,累计占比按年份升序累加):

| 年份 | 记录数量 | 占比 | 累计占比 |
| --- | --- | --- | --- |
| 2007 | 2 | 0.00% | 0.00% |
| 2008 | 237 | 0.01% | 0.01% |
| 2009 | 9,509 | 0.37% | 0.38% |
| 2010 | 22,617 | 0.87% | 1.25% |
| 2011 | 59,289 | 2.28% | 3.53% |
| 2012 | 84,198 | 3.24% | 6.77% |
| 2013 | 95,502 | 3.68% | 10.45% |
| 2014 | 136,480 | 5.26% | 15.71% |
| 2015 | 175,879 | 6.78% | 22.49% |
| 2016 | 209,888 | 8.08% | 30.57% |
| 2017 | 256,130 | 9.87% | 40.44% |
| 2018 | 257,896 | 9.93% | 50.37% |
| 2019 | 259,210 | 9.98% | 60.35% |
| 2020 | 344,308 | 13.26% | 73.61% |
| 2021 | 398,441 | 15.35% | 88.96% |
| 2022 | 286,387 | 11.03% | 99.99% |

### 用户发文量分布

按每位账号在数据集中累计的推文数量进行分桶统计:

| 发文量区间(条) | 账号数量 | 占比 |
| --- | --- | --- |
| 3000–4999 | 730 | 79.69% |
| 1000–2999 | 111 | 12.12% |
| 500–999 | 26 | 2.84% |
| 1–99 | 25 | 2.73% |
| 100–499 | 24 | 2.62% |

超过四分之三的账号都被采集到 3000 条以上的发文量,整体上提供了较为均衡的"高频活跃用户"样本。

### 文本特征分布

对全部 2,595,973 条推文按内容特征进行扫描,得到以下分布:

| 内容特征 | 命中数量 | 占比 |
| --- | --- | --- |
| 含 URL 链接 | 1,541,099 | 59.36% |
| 含 @mention | 1,400,584 | 53.95% |
| 含 # 话题标签 | 763,039 | 29.39% |
| 转推(RT @)开头 | 524,107 | 20.19% |
| 原创推文(非 RT) | 2,071,866 | 79.81% |

### 文件格式分布

| 文件类型 | 数量 | 占比 | 说明 |
| --- | --- | --- | --- |
| CSV(推文原始文件) | 916 | 99.89% | 每位名人对应一个 CSV 文件 |
| CSV(用户嵌入) | 1 | 0.11% | 全部 916 位用户共用一个 CSV |

### 主要账号 Top 20(按发文量)

数据集中发文数量达到上限 3250 条的账号超过 700 个,下表展示其中具有代表性的 20 个公众人物账号,覆盖体育、商业、烹饪、健康、媒体、音乐等多个领域:

| 排名 | 用户名 | 推文数 | 领域类别 |
| --- | --- | --- | --- |
| 1 | BillGates | 3,250 | 商业 / 公益 |
| 2 | GordonRamsay | 3,250 | 美食 / 电视 |
| 3 | MagicJohnson | 3,250 | 体育 / 商业 |
| 4 | MarthaStewart | 3,250 | 生活方式 |
| 5 | DeepakChopra | 3,250 | 健康 / 心灵 |
| 6 | ConanOBrien | 3,250 | 综艺主持 |
| 7 | MrJamesMay | 3,250 | 汽车 / 媒体 |
| 8 | MsLeaSalonga | 3,250 | 音乐剧 |
| 9 | Slash | 3,250 | 摇滚音乐 |
| 10 | BustaRhymes | 3,250 | 嘻哈音乐 |
| 11 | JoelOsteen | 3,250 | 演讲 / 写作 |
| 12 | JoyceMeyer | 3,250 | 演讲 / 写作 |
| 13 | AdamSchefter | 3,250 | 体育记者 |
| 14 | LucianoHuck | 3,250 | 巴西媒体 |
| 15 | AdelAliBinAli | 3,250 | 中东商业 |
| 16 | Adela_Micha | 3,250 | 拉美媒体 |
| 17 | AndreaLegarreta | 3,250 | 拉美主持 |
| 18 | CarlosLoret | 3,250 | 拉美媒体 |
| 19 | MustafaHosny | 3,250 | 中东文化 |
| 20 | 10neto | 3,250 | 巴西体育 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
| --- | --- | --- |
| 完整原始推文文件 | 提供 916 个完整 CSV 文件、约 260 万条原始推文,未做任何过度清洗,保留 bytes 字面量、emoji 转义、URL、@mention 等真实噪声形态 | 直接支撑文本预训练、噪声鲁棒性研究、规则化清洗实验,使用者可基于全量原始内容自由设计预处理流程 |
| 双层数据结构 | 推文文本 + 384 维用户级稠密向量并存,且两端账号一一对应、无缺失 | 既可做文本侧深度建模,也可直接基于嵌入做检索、聚类、可视化与冷启动推荐 |
| 时间跨度长 | 覆盖 2007–2022 年共 16 个年份,包含完整的 2017–2021 高密度区间 | 适合做长期话题演化、风格漂移、舆情周期与跨年度趋势建模 |
| 用户规模与多样性 | 916 位来自体育、商业、娱乐、媒体、音乐、宗教文化等领域的全球账号 | 提供天然的多领域、多语种、跨地域语料,可服务于领域自适应与跨文化研究 |
| 高频活跃样本占比高 | 79.69% 的账号发文量超过 3000 条 | 单用户语料充足,便于做个体语言风格建模、作者画像与一致性评估 |
| 字段完整、零缺失 | twitter_id、date、tweet 三字段在全量 2,595,973 条记录中均为 100% 完整 | 降低数据清洗成本,可直接进入建模流程 |
| 内置语义向量 | 384 维稠密向量覆盖全部 916 位账号,可视为"用户级 embedding 索引" | 节省嵌入计算成本,便于快速构建相似名人推荐、向量数据库与检索系统 |

## 数据样例

以下样例直接来自数据集中的原始 CSV 文件,未经改写。由于推文文本字段保留了 Python bytes 字面量形式(如 b'...'\xe2\x80\x99 等转义),样例中也予以保留以反映真实存储格式;同时 384 维向量过长,本处仅截取前若干维度示意,完整 384 维数据请以原始数据集为准。

### 元数据 + 推文样例(覆盖不同地域、领域与语言)

| 用户名 | twitter_id | date | tweet(截断) |
| --- | --- | --- | --- |
| BillGates | 1546602943041785857 | 2022-07-11 21:10:50+00:00 | b'Fusion will need to be an important part of our zero-emissions future…' |
| GordonRamsay | 1546428217225261056 | 2022-07-11 09:36:32+00:00 | b"Looking to level up those baking skills?? @GRAcademy's got you covered!" |
| MagicJohnson | 1546596591330414592 | 2022-07-11 20:45:36+00:00 | b'Captain Dimitris and the crew from the MY SOLANDGE surprised us with a fireworks show!' |
| MarthaStewart | 1545401397704810497 | 2022-07-08 13:36:20+00:00 | b"On today's show preparations are underway for a very special party I am hosting here at my farm." |
| DeepakChopra | 1546615321976602627 | 2022-07-11 22:00:02+00:00 | b'#AskDeepak — a thoughtful reply to a follower question on compassion.' |
| MrJamesMay | 1546068456176590848 | 2022-07-10 09:46:59+00:00 | b'@1976Eviction There\xe2\x80\x99s no \xe2\x80\x98probably\xe2\x80\x99 about it.' |
| ConanOBrien | 1546464556100222977 | 2022-07-11 12:00:56+00:00 | b'My stupid meter was blowing up throughout this interview. Thanks for the laughs @DanaCarvey.' |
| JoelOsteen | 1546553752617893888 | 2022-07-11 17:55:22+00:00 | b'God doesn\xe2\x80\x99t always take us down a straight path. There will be detours…' |
| MsLeaSalonga | 1546495023759622144 | 2022-07-11 14:02:00+00:00 | b'This thread and the kind comments. My eyes are sweating!' |
| Slash | 1546607563688525829 | 2022-07-11 21:29:12+00:00 | b'Just posted a photo https://t.co/jxkzkoN59Z' |
| LucianoHuck | 1546251898281512960 | 2022-07-10 21:55:55+00:00 | b'Impressionante https://t.co/ioKjzJKqF5'(葡萄牙语) |
| 10neto | 1546629395472961537 | 2022-07-11 22:55:57+00:00 | b'Ele \xc3\xa9 o cara!'(葡萄牙语) |
| AdamSchefter | 1546612746870874114 | 2022-07-11 21:49:48+00:00 | b'Former Michigan head coach Gary Moeller, who spent 23 years associated with the program, passed away this morning…' |
| BustaRhymes | 1546367004247998464 | 2022-07-11 05:33:18+00:00 | b'shhhh!! What else are we discussin\xe2\x80\x99???' |
| JoyceMeyer | 1546581343424880641 | 2022-07-11 19:45:01+00:00 | b'You can do it afraid! That means that you can feel afraid, but still go ahead. #JoyceQuote' |

### 用户嵌入样例(节选自 384 维向量)

| username | v1 | v2 | v3 | v4 | v5 | … | v382 | v383 | v384 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 10Ronaldinho | 0.0236 | 0.1186 | 0.0143 | -0.0342 | 0.0100 | … | -0.0437 | -0.1933 | 0.0995 |
| 10neto | 0.0297 | 0.0527 | -0.0051 | -0.0759 | 0.0324 | … | -0.0479 | 0.0437 | … |

### 文件列表样例

twitter-celebrity-tweets-data/
├── BillGates.csv          # 3,250 条
├── GordonRamsay.csv       # 3,250 条
├── MagicJohnson.csv       # 3,250 条
├── MarthaStewart.csv      # 3,250 条
├── ConanOBrien.csv        # 3,250 条
├── DeepakChopra.csv       # 3,250 条
├── …(共 916 个 CSV,合计约 514 MB,约 2,595,973 条推文)
twitter-celebrity-embed-data/
└── twitter-celebrity-embed-data.csv   # 916 × (1 + 384) 列

样例涵盖了不同年份(2007–2022)、不同语言(英语、葡萄牙语、含 emoji 与转义字符)、不同领域(科技、美食、体育、综艺、媒体、文化等)以及不同推文形态(原创、回复 @user、转推、含 URL、含话题标签),可以较为充分地反映数据集在多样性维度上的真实表现。

## 应用场景

### 1. 多语种社交媒体文本预训练与情感分析

数据集提供了约 260 万条来自全球名人的真实社交媒体文本,覆盖英语、葡萄牙语、西班牙语、阿拉伯语等多种语言,并完整保留了 URL、@mention#hashtag、emoji 转义与 bytes 字面量等典型噪声形态。研究者可以基于这些原始 CSV 文件构建中等规模的领域内预训练语料,对通用语言模型在社交媒体文本上的表现进行进一步微调,也可以围绕情感极性、情绪类别、讽刺识别、立场检测等任务,构造高质量的标注子集。由于每位账号都拥有数千条历史推文,长时间窗口下的语言风格变化、情绪波动与话题切换可以被稳定地观测,从而支持时间感知的情感分析模型、长文档级别的情绪轨迹建模,以及在跨语言迁移情境下评估模型鲁棒性。配合内置的 384 维用户级嵌入,还可以将情感分析任务与用户级语义先验结合,提高低资源语种或低频用户上的预测稳定性。

### 2. 名人语义相似度检索与跨域推荐系统

twitter-celebrity-embed-data.csv 中的 384 维稠密向量本身就是一个"用户级嵌入索引",覆盖全部 916 位账号且与推文文件账号完全对应,可以直接导入向量数据库或基于 FAISS、HNSW 等近邻检索库进行相似度查询。基于此,研究与产品团队可以快速构建"相似名人推荐""粉丝可能感兴趣的其他名人""跨领域影响力关联"等推荐能力,无需重新训练大规模嵌入模型。结合原始推文中的话题、风格与情绪信号,还可以在嵌入空间之上叠加更细粒度的可解释性维度,例如基于话题标签构建标签级子空间,或基于发文活跃度对相似度打分进行加权。对于推荐系统冷启动场景,该数据集尤为有用:当一个新接入的名人或品牌账号只有少量推文时,可以通过其文本与已知名人嵌入的相似度,快速完成用户画像初始化与候选推荐生成。

### 3. 用户画像与作者风格建模

数据集中近 80% 的账号都拥有 3000 条以上的发文量,单一用户的语料体量足以支撑细粒度的作者画像与风格建模任务。研究人员可以基于每位名人的全量推文,提取词汇偏好、句法结构、emoji 使用习惯、URL 与 mention 模式、时间发布规律等多维特征,构建可解释的"语言指纹"。在此基础上,可开展作者归属(authorship attribution)、风格迁移、风格一致性检测以及伪造内容识别等任务。由于数据时间跨度长达十六年,也可以追踪同一名人在不同年代的语言演化,进而研究公众人物在社交平台上的形象塑造策略。对于产业应用,这种用户画像可服务于品牌代言匹配、内容创作者风格分析、广告投放对象建模等场景,使广告主和内容平台能够基于真实数据进行更精细的选型与策略评估。

### 4. 话题演化、趋势分析与时间序列建模

数据集覆盖 2007–2022 年共 16 年的时间区间,2017–2021 年的高密度数据为长期话题演化研究提供了坚实基础。基于 date 字段,可以按日、周、月、年等不同粒度聚合推文,并结合主题模型(LDA、BERTopic 等)或基于嵌入的聚类方法,识别出名人群体在不同时期关注的核心议题、突发事件响应模式以及兴趣迁移轨迹。配合用户级嵌入,可以进一步分析"哪些名人在某一时间窗口语义上更接近某一主题",从而构建主题—人物的动态二部图。该类分析对于媒体监测、品牌口碑预警、影响力地图绘制以及社会科学量化研究都有直接价值。研究者也可以将数据集作为时间序列预测的输入,例如预测特定名人下一时段的活跃度、话题倾向或情感强度,用于自动化报告与内容运营辅助。

### 5. 多模态线索抽取与社交媒体信息检索

虽然数据集本身以文本为主,但推文中包含大量 URL(59.36%)、@mention(53.95%)与话题标签(29.39%),这些字段本身就是结构化信息的入口,可用于构建社交图谱、URL 资源库与话题语料库。结合完整原始推文文件,研究人员可以提取每条推文的链接、提及关系与标签,进而构建"名人—话题""名人—链接资源""名人—名人互动"三类图结构,并基于图神经网络进行节点分类、链接预测与社群发现。在信息检索方向上,可基于推文文本构建倒排索引,结合 384 维嵌入实现混合检索(关键词 + 向量),支持"查找在某话题上表达类似观点的名人"或"检索与给定推文语义最接近的历史推文"等高级查询。这一类应用充分受益于数据集"完整原始文件 + 用户级嵌入"的双层结构。

### 6. NLP 教学、基准评测与可复现研究

数据集字段简洁、规模可控、文件结构清晰,非常适合作为 NLP 课程、研究生项目与企业内训的教学语料。学生可以从单个用户的 CSV 出发完成文本清洗、分词、向量化、可视化等入门练习,再逐步扩展到全量 916 个文件上的分布式处理。其完整原始文件特性也意味着实验可以完全在本地复现,无需依赖在线 API 或私有接口,避免了访问限制与数据漂移问题。在学术研究中,该数据集可作为社交媒体类任务的内部基准,与 SemEval、TweetEval 等公开评测互补,用于验证模型在更长时间跨度、更高用户多样性下的表现。

## 结尾

综合来看,本数据集以"916 位全球名人 + 约 2,595,973 条原始推文 + 384 维用户级语义向量 + 16 年时间跨度"构成完整的研究资源,字段零缺失、账号与嵌入一一对应、文件结构清晰,既适合大规模 NLP 模型训练,也适合工业级推荐与检索系统的原型搭建。最值得强调的核心优势在于:数据集完整保留了每位账号的原始 CSV 文件与全部推文原文,未经过度清洗与裁剪,使用者可以基于真实噪声形态自由构建预处理与建模流水线,同时直接利用预先生成的 384 维嵌入向量,节省大量算力与时间成本。

凭借多语种、跨领域、长时间跨度的内容覆盖,以及"原始文本 + 稠密向量"双层结构的设计,该数据集可广泛服务于情感分析、用户画像、相似名人推荐、话题演化、社交图谱挖掘与 NLP 基准评测等研究与产业场景,是一份具备较高复用价值的社交媒体研究资产。如需进一步了解字段细节、数据切分建议或扩展使用方式,可私信沟通获取更多信息。

看了又看

数据加载中

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Twitter全球名人推文与384维语义向量数据集_916位名人账号约260万条推文跨越2007至2022十六年_支持NLP情感分析推荐系统与用户画像建模研究
10.9
已售 0
518.09MB
申请报告