# 比特币推文情感与市场行情多模态融合数据集
## 引言与背景
加密货币市场以其高波动性、强舆情依赖性和信息不对称性著称,是自然语言处理与金融量化研究的重要交叉领域。随着社交媒体在加密货币投资决策中扮演越来越重要的角色,如何从海量推文中提取有效的市场情感信号,并将其与真实的市场行情数据相融合,已成为学术界和产业界共同关注的核心问题。
本数据集围绕比特币(BTC)这一全球最具影响力的加密货币,系统整合了来自社交平台的大规模推文文本数据与对应时间节点的市场微观结构数据,构建了一个兼具自然语言标注与量化指标的多模态数据集。数据集完整涵盖以下内容:经过预处理的推文文本(Tweet)、人工或模型标注的情感极性标签(Sentiment)、对应日期(Date),以及当日市场的成交量(volume)、报价资产成交量(quote_asset_volume)、交易笔数(number_of_trades)、主动买入基础资产量(taker_buy_base_asset_volume)、主动买入报价资产量(taker_buy_quote_asset_volume),以及开盘、最高、最低、收盘价格相对前日的百分比变动(open/high/low/close _%_change)共12个字段。
该数据集的研究价值体现在多个层面:其一,情感标注与市场行情的精准对齐使得研究者能够直接建模"社交情绪 → 价格走势"的因果关系;其二,92余万条记录覆盖2017年8月至2019年3月近两年的完整市场周期,横跨比特币历史性牛市顶峰(2017年12月)与深度熊市调整期,时间跨度的多样性为模型的鲁棒性验证提供了充分保证;其三,多维市场微观指标的融合使数据集天然适合多模态深度学习、跨模态注意力机制及因子挖掘等前沿任务。无论是面向算法交易策略开发的量化研究者,还是从事情感计算、文本挖掘的NLP研究者,本数据集均能提供即开即用的高质量基础数据支撑。
---
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
| Date | object (日期字符串) | 推文发布及行情对应日期 | 2017-08-17 | 100%(无缺失) |
| Tweet | str(文本) | 经预处理的推文正文内容 | "one bitcoin worth $ high $ low $ market cap $ billion bitcoin" | 100%(无缺失) |
| Sentiment | int32(整型) | 情感极性标签:0=负面,1=正面 | 0 / 1 | 100%(无缺失) |
| volume | float64(浮点) | 当日BTC基础资产总成交量 | 795.15 | 100%(无缺失) |
| quote_asset_volume | float64(浮点) | 当日报价资产(USDT等)总成交量 | 3,454,770.00 | 100%(无缺失) |
| number_of_trades | int64(整型) | 当日总交易笔数 | 3427 | 100%(无缺失) |
| taker_buy_base_asset_volume | float64(浮点) | 主动买入方基础资产成交量 | 616.25 | 100%(无缺失) |
| taker_buy_quote_asset_volume | float64(浮点) | 主动买入方报价资产成交量 | 2,678,216.00 | 100%(无缺失) |
| open_%_change | float64(浮点) | 当日开盘价相对前日收盘价的百分比变动 | 0.5538 | 100%(无缺失) |
| high_%_change | float64(浮点) | 当日最高价相对前日最高价的百分比变动 | -2.5387 | 100%(无缺失) |
| low_%_change | float64(浮点) | 当日最低价相对前日最低价的百分比变动 | -6.2363 | 100%(无缺失) |
| close_%_change | float64(浮点) | 当日收盘价相对前日收盘价的百分比变动 | -4.1238 | 100%(无缺失) |
---
### 数据分布情况
#### 1. 时间(年度)分布
| 年份 | 记录数 | 占比 | 累计占比 |
|---|---|---|---|
| 2017 | 250,512 | 26.99% | 26.99% |
| 2018 | 483,745 | 52.11% | 79.10% |
| 2019 | 194,065 | 20.90% | 100.00% |
#### 2. 月度分布(部分展示)
| 年月 | 记录数 | 占比 |
|---|---|---|
| 2017-08 | 2,966 | 0.32% |
| 2017-09 | 6,279 | 0.68% |
| 2017-10 | 103,520 | 11.15% |
| 2017-11 | 7,949 | 0.86% |
| 2017-12 | 129,798 | 13.98% |
| 2018-01 | 9,823 | 1.06% |
| 2018-02 | 83,691 | 9.01% |
| 2018-03 | 8,772 | 0.95% |
| 2018-04 | 131,953 | 14.21% |
| 2018-05 | 7,722 | 0.83% |
| 2018-06 | 91,638 | 9.87% |
| 2018-07 | 25,567 | 2.75% |
| 2018-08 | 68,098 | 7.34% |
| 2018-09 | 4,871 | 0.52% |
| 2018-10 | 9,511 | 1.02% |
| 2018-11 | 36,970 | 3.98% |
| 2018-12 | 5,129 | 0.55% |
| 2019-01 | 181,797 | 19.58% |
| 2019-02 | 4,895 | 0.53% |
| 2019-03 | 7,373 | 0.79% |
#### 3. 情感标签(Sentiment)分布
| 情感标签 | 含义 | 记录数 | 占比 |
|---|---|---|---|
| 0 | 负面(Negative) | 480,381 | 51.75% |
| 1 | 正面(Positive) | 447,941 | 48.25% |
各年度情感分布如下:
| 年份 | 负面记录数 | 负面占比 | 正面记录数 | 正面占比 |
|---|---|---|---|---|
| 2017 | 133,498 | 53.29% | 117,014 | 46.71% |
| 2018 | 248,594 | 51.39% | 235,151 | 48.61% |
| 2019 | 98,289 | 50.65% | 95,776 | 49.35% |
#### 4. 收盘价日涨跌幅(close_%_change)分布
| 涨跌幅区间 | 记录数 | 占比 |
|---|---|---|
| 低于 -10% | 3,539 | 0.38% |
| -10% ~ -5% | 126,992 | 13.68% |
| -5% ~ -2% | 93,927 | 10.12% |
| -2% ~ 0% | 309,461 | 33.34% |
| 0% ~ 2% | 277,449 | 29.89% |
| 2% ~ 5% | 70,836 | 7.63% |
| 5% ~ 10% | 9,602 | 1.03% |
| 高于 10% | 36,516 | 3.93% |
#### 5. 推文长度分布
| 字符长度区间 | 记录数 | 占比 |
|---|---|---|
| 0 ~ 50 字符 | 309,651 | 33.36% |
| 51 ~ 100 字符 | 408,224 | 43.97% |
| 101 ~ 150 字符 | 125,253 | 13.49% |
| 151 ~ 200 字符 | 62,236 | 6.70% |
| 201 ~ 300 字符 | 22,957 | 2.47% |
| 300 字符以上 | 1 | 0.00% |
推文平均长度约 77 个字符,中位数为 68 个字符,符合社交平台短文本的典型分布规律。
#### 6. 交易笔数(number_of_trades)分布
| 交易笔数区间 | 记录数 | 占比 |
|---|---|---|
| 低于 5 万笔 | 122,852 | 13.23% |
| 5 ~ 10 万笔 | 126,640 | 13.64% |
| 10 ~ 15 万笔 | 32,546 | 3.51% |
| 15 ~ 20 万笔 | 225,923 | 24.34% |
| 20 ~ 30 万笔 | 247,069 | 26.61% |
| 30 ~ 50 万笔 | 93,957 | 10.12% |
| 高于 50 万笔 | 79,335 | 8.55% |
---
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 规模庞大 | 全量 928,322 条记录,覆盖 590 个交易日 | 为深度学习模型提供充足的训练语料,避免过拟合 |
| 零缺失率 | 全部 12 个字段完整率均为 100% | 无需数据填补,直接用于建模,降低预处理成本 |
| 情感标注完备 | 每条推文均附有二分类情感标签(正面/负面) | 支持监督学习情感分类、迁移学习、弱监督等多种范式 |
| 多模态融合 | 文本情感标注与市场量价指标精准对齐至同一日期 | 支持跨模态注意力、多任务学习、联合建模等前沿方法 |
| 时间跨度完整 | 横跨 2017 年 BTC 牛市顶峰至 2019 年熊市筑底 | 包含极端行情,模型泛化能力与鲁棒性更强 |
| 市场微观结构丰富 | 提供成交量、主动买卖比、四价涨跌幅等 8 项量化指标 | 可直接用于因子挖掘、Alpha 信号提取、量化策略回测 |
| 情感-价格相关性显著 | 正负情感对应涨跌幅均值差达 1.11 个百分点 | 情感信号具备实际预测价值,适合构建情感因子模型 |
| 文本预处理规范 | 推文已完成去噪、标准化处理,字符中位长度 68 | 可直接进行 Tokenization,减少数据清洗工作量 |
---
## 数据样例
以下为从数据集中抽取的多样化样例,涵盖不同情感标签、不同时间段及不同市场行情背景,共 16 条,均为元数据与文本标注样例(数据集中不含原始图片或媒体文件,仅包含文本及量化指标)。
| 序号 | 日期 | 情感标签 | 收盘涨跌幅(%) | 推文内容(节选) |
|---|---|---|---|---|
| 1 | 2017-08-17 | 0(负面) | -4.12 | $digaf look good today bitcoin $ |
| 2 | 2017-08-17 | 0(负面) | -4.12 | sign luno get ngn worth bitcoin buy sell ngn exchangeexcluded use |
| 3 | 2017-08-17 | 0(负面) | -4.12 | one bitcoin worth $ high $ low $ market cap $ billion bitcoin |
| 4 | 2017-08-17 | 0(负面) | -4.12 | bitcoin miner new bitmain apw++ w power supply antminer d l+ usa seller $ |
| 5 | 2017-08-17 | 0(负面) | -4.12 | satori bitcoin fund btc satoshi list - like casascis lealana |
| 6 | 2017-08-17 | 0(负面) | -4.12 | humble goal $ day bitcoin steemit |
| 7 | 2017-08-17 | 0(负面) | -4.12 | aktueller bitcoin-preis eur chf |
| 8 | 2017-08-17 | 0(负面) | -4.12 | aug utc $ bitcoin btc pictwittercomysjyvtwss |
| 9 | 2017-08-19 | 1(正面) | -1.30 | one bitcoin worth $ high $ low $ market cap $ billion bitcoin pictwittercomlzdrsoz |
| 10 | 2017-08-19 | 1(正面) | -1.30 | doge price bter btc doge dogecoin -- pictwittercomfasxyoa |
| 11 | 2017-08-19 | 1(正面) | -1.30 | today bitcoin price usd via chain |
| 12 | 2017-08-19 | 1(正面) | -1.30 | hardware wallet ledger nano bitcoin ethereum litecoin - eur fecha de finalizacin lunes sep |
| 13 | 2017-08-19 | 1(正面) | -1.30 | sign luno get myr worth bitcoin buy sell myr exchangeexcluded use |
| 14 | 2017-08-19 | 1(正面) | -1.30 | aug utc $ bitcoin btc pictwittercomaethfvxww |
| 15 | 2017-08-19 | 1(正面) | -1.30 | aug utc $ bitcoin btc pictwittercomjqiozdlo |
| 16 | 2017-08-19 | 1(正面) | -1.30 | one bitcoin worth $ high $ low $ market cap $ billion bitcoin pictwittercomldicaguum |
> 上述样例中,推文已完成基本预处理(去除URL、特殊符号标准化等),正文内容保留了关键词汇与数字占位符,反映了真实采集后的清洗结果。样例覆盖了正面与负面两类情感标签、不同收盘涨跌幅背景,以及多种推文语境(价格播报、硬件交易、汇率对比、多语言内容等),充分体现了数据集的多样性。
---
## 应用场景
### 1. 加密货币情感分析模型训练
本数据集是训练面向加密货币领域情感分类模型的理想语料库。与通用领域情感语料不同,加密货币推文具有高度专业化的词汇体系(如"BTC""HODL""pump""moon"等),且情感表达往往与实时行情高度绑定,语义具有领域专属性。本数据集提供的928,322条带标注推文,覆盖正负两类情感,分布接近均衡(51.75% vs 48.25%),非常适合训练二分类情感模型,包括但不限于基于BERT、RoBERTa、FinBERT等预训练语言模型的微调实验。研究者可利用本数据集进行领域自适应预训练,将通用语言模型迁移至加密货币金融场景,显著提升模型在专业术语和市场语境下的理解能力。此外,数据集中的情感标签还可用于弱监督学习、半监督学习等数据高效利用范式的研究,探索在标注资源有限条件下的模型性能上界。
### 2. 社交舆情与加密货币价格预测研究
数据集将推文情感与当日BTC市场行情指标精准对齐,为研究社交舆情对价格走势的影响提供了直接的实验平台。数据分析表明,负面情感对应日的平均收盘涨跌幅为-0.86%,正面情感对应日则为+0.25%,二者差异显著,初步验证了情感信号的价格预测价值。研究者可以构建情感因子驱动的时序预测模型,如LSTM、Transformer、TCN等深度序列模型,将情感标签或情感聚合指标作为额外特征,与成交量、涨跌幅等量化字段联合输入,探索多模态信息融合对价格预测精度的提升。同时,数据集跨越牛市、熊市、震荡等多种市场状态,有助于评估模型在不同市场环境下的稳定性与泛化能力,为构建具有实际交易价值的情感量化策略奠定基础。
### 3. 多模态金融特征工程与因子挖掘
数据集中包含的8项市场微观结构指标(成交量、报价资产成交量、交易笔数、主动买卖量及四价涨跌幅)为量化研究者提供了丰富的因子挖掘素材。研究者可以基于这些指标构建传统量化因子(如主动买入比率、成交额动量、日内波动率等),并结合情感标签进行因子有效性验证,分析情感信号对已知量化因子的增量信息量。在特征工程层面,可以将情感极性、情感强度(如通过模型输出的概率值估算)与价量因子进行特征交叉,构建复合因子,并利用机器学习方法(如XGBoost、LightGBM、随机森林)评估因子的预测能力与稳定性。数据集完整覆盖590个交易日,足以支撑基于滚动窗口的时间序列交叉验证,确保回测结果的可靠性。
### 4. 量化交易策略开发与回测
数据集提供的每日收盘涨跌幅、开盘涨跌幅等价格变动指标,可直接作为量化策略的标签信号,支持构建多种交易策略。研究者可以设计基于情感信号的日频交易策略:当当日推文情感正面占比超过阈值时进行做多操作,反之做空或空仓,并利用数据集中的成交量信息进行仓位管理。此外,主动买入量占总成交量的比率(taker buy ratio)是市场微观结构中的重要流动性指标,可用于判断市场的主动性买卖力量对比,结合情感信号构建更精细的入场时机判断模型。数据集时间跨度横跨BTC历史上最剧烈的牛熊转换周期,极端行情下的数据(如单日涨幅超10%或跌幅超10%的约4.31%记录)对于压力测试和风险管理模型的开发尤为珍贵。
### 5. 自然语言处理基准测试与预训练数据增强
从NLP研究视角看,本数据集可作为加密货币领域文本分类任务的基准数据集(Benchmark),用于评估不同预训练语言模型在金融短文本情感理解上的表现差异。数据集中的推文已完成预处理,字符长度集中在51-100区间(占比43.97%),适合标准的短文本分类实验设置。研究者可将其划分为训练集、验证集和测试集,参照GLUE、FinancialPhraseBank等标准基准的评估方式,报告精确率、召回率、F1值等指标,与业界方法形成对比。此外,数据集中丰富的加密货币专业术语和多语言内容(部分推文包含非英语词汇)也为研究多语言情感分析、代码混合文本处理等前沿NLP课题提供了真实语料支持。
### 6. 金融市场行为与投资者情绪研究
本数据集不仅适合算法建模,同样适用于金融行为学和市场微观结构的实证研究。研究者可以从数据集中提取投资者情绪的时序演变特征,分析在市场大幅波动事件(如2017年12月BTC历史高点、2018年全年下行)前后,社交情感极性的变化规律,探究"羊群效应"、"情绪反转"等市场行为现象的统计证据。数据集中单日最高推文量达67,233条(2018年2月6日),结合当日市场行情,可深入分析突发事件对社交讨论热度的激发效应及其与价格之间的领先滞后关系(Lead-Lag Relationship),为构建基于事件驱动的市场反应模型提供数据基础。
---
## 结语
本数据集以928,322条经情感标注的比特币推文为核心,精准融合了对应日期的市场量价微观结构数据,构建了一个覆盖2017年8月至2019年3月、横跨完整牛熊周期的多模态金融情感数据集。数据集12个字段全部无缺失,情感标注覆盖率达100%,正负样本分布均衡,具备直接用于建模的高可用性。
数据集的核心创新价值在于两点:其一,将社交文本情感与真实市场行情指标在时间维度上精准对齐,使得"文本情感 → 市场行为"的因果建模成为可能;其二,丰富的市场微观结构指标(成交量、主动买卖量、四价涨跌幅等)与情感信号相互补充,为多模态方法提供了天然的特征融合基础。无论是学术研究中的情感分析、价格预测、因子挖掘,还是产业应用中的量化策略开发、风险监控系统构建,本数据集均能提供坚实的数据基础。
如需获取数据集的更多详细信息、字段说明或使用方式,欢迎私信咨询。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:







