什么是小红书”爆款”？全量数据在手，看看你能挖出什么——不猜感觉，只问数据

2026-05-15
14:14

阅读量： 66

你听过这些“爆款公式”吗？

——“晚上八点发笔记最火”

——“xx赛道周末阅读量翻倍”

——“标题里加emoji能涨点赞”

有人说“爆款”靠运气，有人说“爆款”是玄学，“爆款”的秘密是什么？每个人都在说，但每个人都拿不出证据。

如果我们真的想研究“爆款”——不靠感觉，不靠个例，靠大规模、结构化、可复现的数据说话，我们需要的不是一个词，而是一套可以拆解它的工具。

这个工具正是今天要介绍的“小红书数据集”，它包含了小红书全量数据，服务于社交媒体用户行为研究、内容创作趋势分析以及市场分析等领域。

“爆款”只是其中的一个切面，我们来看看，从这个数据集里还能挖出什么。

01 先看看数据长什么样——基于真实样例

这份数据集包含以下核心字段（来自官方数据详情）：

字段名	说明	可支撑的分析方向
id	笔记唯一ID	去重、关联
noteid	注释/笔记编号	辅助索引
userid	用户ID	跨笔记用户行为追踪、创作者分层
title	标题	NLP分析（关键词、情感、主题）
liked	喜欢数	热度指标，可作为爆款定义的基础
collected	收藏数	内容价值指标（长尾效用）
comments	评论数	用户参与度、互动深度
shared	分享数	内容传播力
raw	原始数据（完整JSON）	可用于解析更多非结构化细节（如话题标签数组、图片URL等）
comment_list	评论列表	二级互动分析、用户评论情感挖掘
pub_date	发布日期（YYYY-MM-DD）	日期级时序分析
d	精确时间（Unix timestamp）	秒级时间戳，支持精细化时段分析

数据覆盖：2019年5月–2021年8月，以及2023年3月至今（持续更新，每日约200万条增量）。样例数据约10万条，全量压缩后800GB。

下面是一条来自该数据集的真实笔记样例（已脱敏），可以看到这些字段在实际数据中是如何呈现的：

{
  "model_type": "note",
  "id": "63db821100000000080224f5",
  "type": "normal",
  "title": "虽然尺码不一样，但双胞胎就是双胞胎",
  "desc": "静态的弟弟和花花好像[偷笑R]#大熊猫和花和叶[话题]#",
  "hash_tag": [
    {
      "id": "61b066d5000000000101ce7d",
      "name": "大熊猫和花和叶",
      "type": "topic"
    }
  ],
  "images_list": [
    {
      "height": 1440,
      "width": 1080,
      "url": "http://sns-img-hw.xhscdn.com/..."
    }
  ],
  "user": {
    "id": "55f6da96f5a26319ab45f6a5",
    "nickname": "嘟嘟猫猫儿",
    "red_id": "100901366",
    "red_official_verify_type": 0
  },
  "time": 1675330065,
  "liked_count": 394,
  "collected_count": 40,
  "comments_count": 29,
  "shared_count": 11
}

这里有几个值得注意的细节（对数据分析很重要）：
– hash_tag 已经是结构化数组，name 字段可直接取用 → 不需要正则清洗
– time 是Unix时间戳，可直接转为datetime → 时序分析开箱即用

对于数据分析师、学术研究者来说，字段的结构化程度决定了数据清洗的成本这意味着你可以直接开始分析，而不需要花几天写正则表达式。

02 它能支撑起多个研究方向

这份数据集可以用于研究基于小红书的用户行为分析、内容创作趋势分析以及市场分析，为数据科学家、市场分析师、品牌经理和学术研究人员提供数据基石。

方向一：用户行为研究

你可以在数据集中寻找这些问题：
– 不同用户群体的发文频率和互动表现有什么差异？
– 做出过高互动笔记的用户，在早期有没有一些可观察的行为特征？

方向二：内容创作趋势分析

你可以在数据集中寻找这些问题：
– 某个话题标签的热度是如何随时间上升或下降的？
– 图文笔记和视频笔记，哪一种更容易获得高互动？

方向三：产品市场分析

你可以在数据集中寻找这些问题：
– 某个品牌或产品在小红书上的讨论声量如何？竞品的情况怎样？
– 不同品类的内容高峰期（比如母婴类是否周末更火）是否有差异？

方向四：学术研究

你可以在数据集中寻找这些问题：
– 平台算法调整或内容治理政策（如虚假种草整顿）前后，用户内容有何显著变化？
– 不同社会热点事件中，小红书用户的讨论框架和情感倾向有何异同？

03 爆款只是一个入口

回到我们的最早的问题：什么是小红书“爆款”？

如果你只是想要一个简单的定义，比如“点赞超过1万的笔记”，数据集很容易帮你筛出来，但是，这个数据集真正的研究价值远不止于此。

这份数据集的价值，不是替你做分析——而是把分析的权利和原材料，完整地交到你手里。

对它，你会问出什么问题？

我们无法直接定义“这就是爆款的秘密”，真正的答案，取决于各位研究者带着什么问题去敲开这个数据集。

如果你也好奇，能从这个数据集里挖出什么，不妨亲自来试一试。

查看详情请戳：小红书数据集（可先验后买）

中科宇图发布“厂园区及商务楼宇”数据产品：为产业空间绘制数字基因图谱

近日，中科宇图正式发布 “厂园区及商务楼

2026年6月26日

喘息性肺炎多模态临床医疗数据集——胸部CT影像、检验报告与超声心电的整合标注资源

引言与背景喘息性肺炎是呼吸系统常见的感

2026年6月17日

真实临床数据赋能中医AI：101例四诊报告影像，让您的算法训练事半功倍

您是否还在为中医AI研发中缺乏真实临床数

2026年6月1日

中医四诊报告影像数据集：101例包含望诊闻诊问诊切诊四诊信息的医学诊断资料年龄跨度28-75岁男女比例接近1:1 高质量中医辅助诊断与算法训练数据集

引言与背景 https://diansh

2026年5月28日

销售瞎跑 3 个月不如 AI 1 天！这家商贸公司靠它，月获客成本直降 60%

你每个月砸给销售的工资、差旅、平台会员费

2026年5月26日

京东商品评论数据集：4000条笔记本真实用户评论情感分析数据 | 典枢数据

京东笔记本评论数据集，4000条真实用户情感分析标注数据，正面负面评论各2000条，适用于深度学习模型训练、文本挖掘和电商推荐系统优化。

2026年5月14日

高质量票据识别数据集：1000张收据图像+2141个商品标注，支持OCR模型训练与文档理解研究

2026年5月11日

高质量物理大模型训练数据集：400万道LaTeX公式结构化题目，JSON格式语料库，涵盖量子力学、相对论等多学科证明题与计算题，提升物理推理能力、自动解题技术与AI算法开发，适用于教育科技与机器学习

高质量物理大模型训练数据集：400万道LaTeX公式结构化题目，JSON格式语料库，涵盖量子力学、相对论等多学科证明题与计算题，提升物理推理能力、自动解题技术与AI算法开发，适用于教育科技与机器学习

2026年5月11日

餐饮行业评论数据集：93,286条正面评价与7,921条负面评价的完整中文语料库，可用于情感分析，AI评论生成训练，助力AI情感识别模型训练与餐饮行业智能分析应用

参考数据：餐饮行业评论数据集https://dianshudata.com/dataDetail/3620

2026年5月11日

发表评论取消回复

要发表评论，您必须先登录。

什么是小红书”爆款”？全量数据在手，看看你能挖出什么——不猜感觉，只问数据

01 先看看数据长什么样——基于真实样例

02 它能支撑起多个研究方向

方向一：用户行为研究

方向二：内容创作趋势分析

方向三：产品市场分析

方向四：学术研究

03 爆款只是一个入口

相关文章

中科宇图发布“厂园区及商务楼宇”数据产品：为产业空间绘制数字基因图谱

喘息性肺炎多模态临床医疗数据集——胸部CT影像、检验报告与超声心电的整合标注资源

真实临床数据赋能中医AI：101例四诊报告影像，让您的算法训练事半功倍

中医四诊报告影像数据集：101例包含望诊闻诊问诊切诊四诊信息的医学诊断资料年龄跨度28-75岁男女比例接近1:1 高质量中医辅助诊断与算法训练数据集

销售瞎跑 3 个月不如 AI 1 天！这家商贸公司靠它，月获客成本直降 60%

京东商品评论数据集：4000条笔记本真实用户评论情感分析数据 | 典枢数据

高质量票据识别数据集：1000张收据图像+2141个商品标注，支持OCR模型训练与文档理解研究

高质量物理大模型训练数据集：400万道LaTeX公式结构化题目，JSON格式语料库，涵盖量子力学、相对论等多学科证明题与计算题，提升物理推理能力、自动解题技术与AI算法开发，适用于教育科技与机器学习

餐饮行业评论数据集：93,286条正面评价与7,921条负面评价的完整中文语料库，可用于情感分析，AI评论生成训练，助力AI情感识别模型训练与餐饮行业智能分析应用

发表评论取消回复

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群

什么是小红书”爆款”？全量数据在手，看看你能挖出什么——不猜感觉，只问数据

01 先看看数据长什么样——基于真实样例

02 它能支撑起多个研究方向

方向一：用户行为研究

方向二：内容创作趋势分析

方向三：产品市场分析

方向四：学术研究

03 爆款只是一个入口

相关文章

发表评论 取消回复

发表评论取消回复