数据描述

想要更多数据可以与我联系:450792304@qq.com

本数据集系统整理了与中国上市公司相关的股吧平台结构化互动数据,围绕“内容—互动—用户—关系”四个维度提供统一、规整且可关联的字段与时间戳信息,能够较为完整地反映投资者在社区中的发帖与回帖行为、用户活跃特征与社交关注关系。借助该数据集,研究者与从业者可在文本理解、行为分析、社群挖掘与推荐排序等典型任务上快速启动;在科研教学与产业落地中,凭借标准化字段和较好的数据完整性,显著缩短从数据清洗到原型验证的周期,并提升模型在真实业务场景中的泛化能力与可解释性。

数据基本信息

  • 数据文件与规模
    • 中国上市公司股吧帖子详情表.xlsx:6088 行 × 16 列(帖子文本、时间、互动计数、作者信息)
    • 中国上市公司股吧回帖详情表.xlsx:30000 行 × 9 列(回帖文本、时间、互动计数、引用关系)
    • 中国上市公司股吧用户详情表.xlsx:30000 行 × 14 列(用户基础属性、活跃度与创作/互动指标)
    • 中国上市公司股吧用户粉丝表.xlsx:30000 行 × 3 列(用户关注关系与关注时间)
  • 数据类型与格式
    • 统一为 .xlsx;字段表头清晰,文本、时间戳、计数与标识类字段可直接加载分析。
  • 字段与可用性说明
    • 帖子/回帖均含正文与时间字段,可直接用于 NLP 任务与时序建模;阅读量、点赞、评论等计数便于构建互动与传播特征。
    • 用户详情含吧龄、访问次数、主帖/评论数、自选股数量等活跃与兴趣信号;粉丝关系表可构建有向关注图谱用于网络分析与影响力建模。
  • 缺失与质量特征
    • 发帖 IP、回帖 IP 与图片链接在样本中大多为空;“用户认证”字段稀疏(非空 29 条)。其余核心字段完整性较好、计数类字段完备,适合直接建模。

字段字典(按文件)

中国上市公司股吧帖子详情表.xlsx(16 列)

字段名 含义/说明 数据类型 备注(缺失情况)
帖子ID 主帖唯一标识 int64 完整
股吧代码 对应股吧/股票代码 string 完整
股吧名称 对应股吧名称 string 完整
帖子标题 主帖标题 string 完整
帖子简介 标题外的简短摘要 string 少量缺失(5845/6088 非空)
帖子内容 主帖正文(长文本) string 少量缺失(5835/6088 非空)
数据来源 采集来源标记 string 完整(如“股吧网页版”)
帖子发布时间 主帖发布时间 datetime 完整
最后发帖时间 主帖最后更新时间 datetime 完整
帖子发表者ID 作者用户ID int64 完整
帖子发表者昵称 作者昵称 string 完整
发帖IP 作者发帖IP string 全空(0/6088 非空)
阅读量 浏览次数 int64 完整
分享数 被分享次数 int64 完整
点赞数 点赞次数 int64 完整
评论数 回帖/评论数量 int64 完整

中国上市公司股吧回帖详情表.xlsx(9 列)

字段名 含义/说明 数据类型 备注(缺失情况)
帖子ID 所属主帖ID int64 完整
回帖ID 回帖唯一标识 int64 完整
回帖用户ID 回帖者用户ID int64 基本完整(29998/30000 非空)
回帖内容 回帖正文(短文本为主) string 少量缺失(29988/30000 非空)
回帖时间 回帖时间戳 datetime/Excel序列 完整(可由序列值解析为时间)
回帖点赞数 回帖获得的点赞数 int64 完整
回帖图片链接 回帖附带图片URL string 全空(0/30000 非空)
回帖IP地址 回帖IP string 全空(0/30000 非空)
被回帖id 引用/被回复的回帖ID int64 极少非空(4/30000 非空)

中国上市公司股吧用户详情表.xlsx(14 列)

字段名 含义/说明 数据类型 备注(缺失情况)
用户ID 用户唯一标识 int64 完整
用户昵称 展示昵称 string 多数非空(29922/30000 非空)
用户名 账户名/登录名 string 部分缺失(28738/30000 非空)
吧龄 账号在吧内的年龄 string 完整(如“1天”等)
关注人数 该用户关注他人的数量 int64 完整
粉丝数 关注该用户的人数 int64 完整
总访问次数 累计访问频次 int64 完整
用户简介 个性签名/简介 string 少量缺失(29468/30000 非空)
用户认证 认证标识/文案 string 极度稀疏(29/30000 非空)
主帖数 该用户发布的主帖数量 int64 完整
评论数 该用户发布的评论数量 int64 完整
自选股数量 该用户自选股数量 int64 完整
用户注册时间 账户注册时间 datetime 完整(存在默认“0001-01-01”占位)
用户影响力 平台影响力评分 int64 完整

中国上市公司股吧用户粉丝表.xlsx(3 列)

字段名 含义/说明 数据类型 备注(缺失情况)
用户ID 被关注者用户ID int64 完整
粉丝用户ID 关注者用户ID string/int64 完整(部分以字符串形式存储)
关注时间 关注关系建立时间 datetime 完整

数据优势

优势点 说明
结构完整 覆盖帖子、回帖、用户与粉丝关系四大维度,形成内容与社交双闭环。
直接可用 表头规范、类型明确,文本与时间戳无需复杂清洗即可进入建模流程。
任务丰富 同时支持 NLP、时序预测、推荐/排序、社交网络挖掘与因子工程。
可扩展性强 ID 体系清晰,便于跨表关联、子集抽样与后续增量扩容。
业务贴合度高 字段紧贴社区互动与金融舆情,指标解释性强、落地路径明确。

数据样例(多样化节选,18 条)

{
  "file": "中国上市公司股吧帖子详情表.xlsx",
  "rows": [
    {
      "帖子ID": 1081967419,
      "股吧代码": "400065",
      "股吧名称": "博元3吧",
      "帖子标题": "博元1:珠海市博元投资股份有限公司对问询函的回复(公司回复)",
      "帖子简介": "公告日期:2020-06-03……[点击查看原文]...",
      "帖子内容": "公告日期:2020-06-03……[点击查看PDF原文]……敬请投资者注意风险。",
      "数据来源": "股吧网页版",
      "帖子发布时间": "2020-06-03 00:00:00",
      "最后发帖时间": "2020-06-03 00:00:00",
      "帖子发表者ID": 4620525223788610,
      "帖子发表者昵称": "博元3资讯",
      "发帖IP": null,
      "阅读量": 94,
      "分享数": 0,
      "点赞数": 0,
      "评论数": 0
    },
    {
      "帖子ID": 1081968843,
      "股吧代码": "430249",
      "股吧名称": "慧峰仁和吧",
      "帖子标题": "慧峰仁和:430249慧峰仁和-年报问询函回复(公司回复)",
      "帖子简介": "公告日期:2020-08-14……",
      "帖子内容": "……你公司主营业务为工程设计咨询……提示:本网不保证其真实性……",
      "数据来源": "股吧网页版",
      "帖子发布时间": "2020-08-14 00:00:00",
      "最后发帖时间": "2020-08-14 00:00:00",
      "帖子发表者ID": 7354013905689478,
      "帖子发表者昵称": "慧峰仁和资讯",
      "发帖IP": null,
      "阅读量": 116,
      "分享数": 0,
      "点赞数": 0,
      "评论数": 0
    },
    {
      "帖子ID": 1081973611,
      "股吧代码": "834343",
      "股吧名称": "华凯保险吧",
      "帖子标题": "华凯保险:834343年报问询函【2020】第493号(公司回复)",
      "帖子简介": "公告日期:2020-09-14……",
      "帖子内容": "……对华凯保险销售股份有限公司的年报问询函……",
      "数据来源": "股吧网页版",
      "帖子发布时间": "2020-09-14 00:00:00",
      "最后发帖时间": "2020-09-14 00:00:00",
      "帖子发表者ID": 2071014479236696,
      "帖子发表者昵称": "华凯保险资讯",
      "发帖IP": null,
      "阅读量": 104,
      "分享数": 0,
      "点赞数": 0,
      "评论数": 0
    },
    {
      "帖子ID": 1081976526,
      "股吧代码": "833588",
      "股吧名称": "九州方园吧",
      "帖子标题": "九州方园:833588九州方园-年报问询函回复(公司回复)",
      "帖子简介": "公告日期:2020-07-10……",
      "帖子内容": "……请你公司:(1)结合行业发展情况……",
      "数据来源": "股吧网页版",
      "帖子发布时间": "2020-07-10 00:00:00",
      "最后发帖时间": "2020-07-10 00:00:00",
      "帖子发表者ID": 4203014428264870,
      "帖子发表者昵称": "九州方园资讯",
      "发帖IP": null,
      "阅读量": 113,
      "分享数": 0,
      "点赞数": 0,
      "评论数": 0
    },
    {
      "帖子ID": 1081979604,
      "股吧代码": "834045",
      "股吧名称": "清众科技吧",
      "帖子标题": "清众科技:834045清众科技-年报问询函回复(公司回复)",
      "帖子简介": "公告日期:2020-08-14……",
      "帖子内容": "……城市公共安全与智慧城市建设运营……",
      "数据来源": "股吧网页版",
      "帖子发布时间": "2020-08-14 00:00:00",
      "最后发帖时间": "2020-08-14 00:00:00",
      "帖子发表者ID": 1311014461958848,
      "帖子发表者昵称": "清众科技资讯",
      "发帖IP": null,
      "阅读量": 100,
      "分享数": 0,
      "点赞数": 0,
      "评论数": 0
    }
  ]
}
{
  "file": "中国上市公司股吧回帖详情表.xlsx",
  "rows": [
    {
      "帖子ID": 29468493,
      "回帖ID": 3170995539,
      "回帖用户ID": 2397112636635232,
      "回帖内容": "支持楼主!",
      "回帖时间": 40466.4912615741,
      "回帖点赞数": 0,
      "回帖图片链接": null,
      "回帖IP地址": null,
      "被回帖id": null
    },
    {
      "帖子ID": 29496287,
      "回帖ID": 3170995583,
      "回帖用户ID": 9213112407556938,
      "回帖内容": "不过这股目前还不是热点,没有耐心的可以先玩热点",
      "回帖时间": 40466.4916666667,
      "回帖点赞数": 0,
      "回帖图片链接": null,
      "回帖IP地址": null,
      "被回帖id": null
    },
    {
      "帖子ID": 29000476,
      "回帖ID": 3170995588,
      "回帖用户ID": 4680112854097378,
      "回帖内容": "终于出了,太刺激了,赚了50%,从来没有这么痛快",
      "回帖时间": 40466.4916898148,
      "回帖点赞数": 0,
      "回帖图片链接": null,
      "回帖IP地址": null,
      "被回帖id": null
    },
    {
      "帖子ID": 29299844,
      "回帖ID": 3170995606,
      "回帖用户ID": 2397112636635232,
      "回帖内容": "支持楼主!",
      "回帖时间": 40466.4918402778,
      "回帖点赞数": 0,
      "回帖图片链接": null,
      "回帖IP地址": null,
      "被回帖id": null
    },
    {
      "帖子ID": 29459090,
      "回帖ID": 3170995676,
      "回帖用户ID": 1045112793810944,
      "回帖内容": "[原帖]……我确信有色和煤炭是这波行情的龙头……",
      "回帖时间": 40466.4925231481,
      "回帖点赞数": 0,
      "回帖图片链接": null,
      "回帖IP地址": null,
      "被回帖id": null
    }
  ]
}
{
  "file": "中国上市公司股吧用户详情表.xlsx",
  "rows": [
    {
      "用户ID": 199771,
      "用户昵称": null,
      "用户名": null,
      "吧龄": "1天",
      "关注人数": 0,
      "粉丝数": 0,
      "总访问次数": 4,
      "用户简介": null,
      "用户认证": null,
      "主帖数": 0,
      "评论数": 2,
      "自选股数量": 0,
      "用户注册时间": "0001-01-01 00:00:00",
      "用户影响力": 0
    },
    {
      "用户ID": 11111111,
      "用户昵称": null,
      "用户名": null,
      "吧龄": "1天",
      "关注人数": 0,
      "粉丝数": 0,
      "总访问次数": 1,
      "用户简介": null,
      "用户认证": null,
      "主帖数": 0,
      "评论数": 2,
      "自选股数量": 0,
      "用户注册时间": "0001-01-01 00:00:00",
      "用户影响力": 0
    },
    {
      "用户ID": 9765200000000,
      "用户昵称": null,
      "用户名": null,
      "吧龄": "1天",
      "关注人数": 0,
      "粉丝数": 0,
      "总访问次数": 80,
      "用户简介": null,
      "用户认证": null,
      "主帖数": 0,
      "评论数": 3,
      "自选股数量": 1,
      "用户注册时间": "0001-01-01 00:00:00",
      "用户影响力": 0
    },
    {
      "用户ID": 11001100110011,
      "用户昵称": null,
      "用户名": null,
      "吧龄": "1天",
      "关注人数": 0,
      "粉丝数": 0,
      "总访问次数": 72,
      "用户简介": null,
      "用户认证": null,
      "主帖数": 0,
      "评论数": 5,
      "自选股数量": 1,
      "用户注册时间": "0001-01-01 00:00:00",
      "用户影响力": 0
    }
  ]
}
{
  "file": "中国上市公司股吧用户粉丝表.xlsx",
  "rows": [
    {
      "用户ID": 1000004765568124,
      "粉丝用户ID": "3425055407815706",
      "关注时间": "2020-03-10 20:10:10"
    },
    {
      "用户ID": 1000004829322180,
      "粉丝用户ID": "4377013688466912",
      "关注时间": "2018-11-28 04:34:59"
    },
    {
      "用户ID": 1000004881722110,
      "粉丝用户ID": "2035084972603372",
      "关注时间": "2021-04-29 10:55:03"
    },
    {
      "用户ID": 1000004881722110,
      "粉丝用户ID": "5063045278988506",
      "关注时间": "2018-11-27 21:13:15"
    }
  ]
}

应用场景

  • 舆情监测与风险预警(文本理解 + 时序建模)

    依托帖子与回帖的正文、发布时间与互动量(阅读、点赞、评论),可以构建面向上市公司与行业主题的舆情监测体系。首先以分词、命名实体识别与情感极性分析抽取关键信息,再结合时间序列对情绪强度、关注度与传播速度进行动态刻画,识别异常波动与突发事件线索。在实务中,可基于“帖子-回帖”的层级关系提炼主观点与反驳/附和关系,构建事件演化链与观点极化指数;将该指数与市场行情或公告时间点对齐,可用于风控预警、公关响应优先级排序以及对投研线索的辅助筛选,提升监控的灵敏度与可解释性。

  • 推荐与排序系统(内容画像 + 用户画像 + 互动反馈)

    数据集中“帖子内容/时间/互动计数”和“用户活跃与兴趣指标”形成了训练推荐系统的天然素材。可以以帖子文本与元数据(股吧代码、标题、简介等)构建内容向量,以用户的主帖/评论数、自选股数量、访问次数等行为特征构建用户向量,再结合阅读量、点赞数、评论数作为显式或近似反馈信号,训练召回与排序模型(如双塔、序列推荐、对比学习)。同时,利用“粉丝关系”表构建社交正则化或好友传播特征,缓解冷启动问题并提升个性化推荐的稳定性,实现从热门贴分发到个性化长尾内容曝光的全链路优化。

  • 社交网络分析与影响力建模(关注图谱 + 互动网络)

    粉丝关系表刻画了用户间的有向关注边,配合帖子与回帖的互动记录,可以构建多层次的社交图谱。通过度中心性、介数中心性与 PageRank 等指标,识别潜在关键节点与话题引领者;结合时间信息评估信息扩散速度与路径,分析观点从高影响力用户向外围用户的传播规律。在业务落地中,这类网络特征不仅可以服务于优质内容的加权曝光与社区治理,也能辅助识别异常刷量、僵尸网络与灰产链路,为风控与反舞弊提供可量化的证据。

  • 事件研究与量化因子构建(文本因子 + 行为因子)

    数据集中包含的财报问询、公告讨论等主题文本,为事件研究提供了自然语料。可围绕公告前后窗口期构建基于文本情绪、主体实体、主题强度的文本因子,并与阅读/点赞/评论的互动强度因子相结合,形成跨模态的舆情因子库。进一步地,将因子与二级市场指标做相关性与回测分析,可探索具有稳健性的超额收益线索;在机构环境中还可作为投研辅助工具,为选股与风控规则提供数据支撑与可解释的证据。

  • 大语言模型与 NLP 算法训练(监督微调 + 指标评测)

    帖子与回帖的真实社区语料具备口语化、领域实体密集与观点冲突等特点,适合用于大语言模型的监督微调与对齐训练。可以构造摘要、情感分类、主题抽取、观点立场识别与问答生成等监督数据集;同时,以时间与互动量为弱标签,开展难例挖掘与偏好建模。评测方面,可基于人工标注的小样本任务集,对比不同算法在财经中文场景下的稳健性和可解释性,推动模型在垂直场景的落地效果。

结尾

该数据集以“帖子—回帖—用户—关系”四位一体的结构化设计,兼具文本深度、互动密度与社交广度,能够一站式支撑舆情分析、推荐系统、社交网络挖掘、量化研究与大模型训练等多种任务。其字段规范、质量稳健、扩展性强,适合科研教学与产业落地的双重需求。若需要更多样本、字段字典或增量更新方案,欢迎进一步沟通以获取支持。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
中国上市公司股吧数据集(含帖子正文、回帖互动、用户画像与粉丝关系,共6万+结构化样本与统一ID可关联),支持金融舆情分析、推荐排序、社交网络挖掘与中文大模型训练的高质量语料
29.9
已售 0
10.16MB
申请报告