什么是小红书“爆款”?全量数据在手,看看你能挖出什么——不猜感觉,只问数据
你听过这些“爆款公式”吗?
——“晚上八点发笔记最火”
——“xx赛道周末阅读量翻倍”
——“标题里加emoji能涨点赞”
有人说“爆款”靠运气,有人说“爆款”是玄学,“爆款”的秘密是什么?每个人都在说,但每个人都拿不出证据。
如果我们真的想研究“爆款”——不靠感觉,不靠个例,靠大规模、结构化、可复现的数据说话,我们需要的不是一个词,而是一套可以拆解它的工具。
这个工具正是今天要介绍的“小红书数据集”,它包含了小红书全量数据,服务于社交媒体用户行为研究、内容创作趋势分析以及市场分析等领域。
“爆款”只是其中的一个切面,我们来看看,从这个数据集里还能挖出什么。
01 先看看数据长什么样——基于真实样例
这份数据集包含以下核心字段(来自官方数据详情):
| 字段名 | 说明 | 可支撑的分析方向 |
|---|---|---|
| id | 笔记唯一ID | 去重、关联 |
| noteid | 注释/笔记编号 | 辅助索引 |
| userid | 用户ID | 跨笔记用户行为追踪、创作者分层 |
| title | 标题 | NLP分析(关键词、情感、主题) |
| liked | 喜欢数 | 热度指标,可作为爆款定义的基础 |
| collected | 收藏数 | 内容价值指标(长尾效用) |
| comments | 评论数 | 用户参与度、互动深度 |
| shared | 分享数 | 内容传播力 |
| raw | 原始数据(完整JSON) | 可用于解析更多非结构化细节(如话题标签数组、图片URL等) |
| comment_list | 评论列表 | 二级互动分析、用户评论情感挖掘 |
| pub_date | 发布日期(YYYY-MM-DD) | 日期级时序分析 |
| d | 精确时间(Unix timestamp) | 秒级时间戳,支持精细化时段分析 |
数据覆盖:2019年5月–2021年8月,以及2023年3月至今(持续更新,每日约200万条增量)。样例数据约10万条,全量压缩后800GB。
下面是一条来自该数据集的真实笔记样例(已脱敏),可以看到这些字段在实际数据中是如何呈现的:
{
"model_type": "note",
"id": "63db821100000000080224f5",
"type": "normal",
"title": "虽然尺码不一样,但双胞胎就是双胞胎",
"desc": "静态的弟弟和花花好像[偷笑R]#大熊猫和花和叶[话题]#",
"hash_tag": [
{
"id": "61b066d5000000000101ce7d",
"name": "大熊猫和花和叶",
"type": "topic"
}
],
"images_list": [
{
"height": 1440,
"width": 1080,
"url": "http://sns-img-hw.xhscdn.com/..."
}
],
"user": {
"id": "55f6da96f5a26319ab45f6a5",
"nickname": "嘟嘟猫猫儿",
"red_id": "100901366",
"red_official_verify_type": 0
},
"time": 1675330065,
"liked_count": 394,
"collected_count": 40,
"comments_count": 29,
"shared_count": 11
}
这里有几个值得注意的细节(对数据分析很重要):
– hash_tag 已经是结构化数组,name 字段可直接取用 → 不需要正则清洗
– time 是Unix时间戳,可直接转为datetime → 时序分析开箱即用
对于数据分析师、学术研究者来说,字段的结构化程度决定了数据清洗的成本这意味着你可以直接开始分析,而不需要花几天写正则表达式。
02 它能支撑起多个研究方向
这份数据集可以用于研究基于小红书的用户行为分析、内容创作趋势分析以及市场分析,为数据科学家、市场分析师、品牌经理和学术研究人员提供数据基石。
方向一:用户行为研究
你可以在数据集中寻找这些问题:
– 不同用户群体的发文频率和互动表现有什么差异?
– 做出过高互动笔记的用户,在早期有没有一些可观察的行为特征?
方向二:内容创作趋势分析
你可以在数据集中寻找这些问题:
– 某个话题标签的热度是如何随时间上升或下降的?
– 图文笔记和视频笔记,哪一种更容易获得高互动?
方向三:产品市场分析
你可以在数据集中寻找这些问题:
– 某个品牌或产品在小红书上的讨论声量如何?竞品的情况怎样?
– 不同品类的内容高峰期(比如母婴类是否周末更火)是否有差异?
方向四:学术研究
你可以在数据集中寻找这些问题:
– 平台算法调整或内容治理政策(如虚假种草整顿)前后,用户内容有何显著变化?
– 不同社会热点事件中,小红书用户的讨论框架和情感倾向有何异同?
03 爆款只是一个入口
回到我们的最早的问题:什么是小红书“爆款”?
如果你只是想要一个简单的定义,比如“点赞超过1万的笔记”,数据集很容易帮你筛出来,但是,这个数据集真正的研究价值远不止于此。
这份数据集的价值,不是替你做分析——而是把分析的权利和原材料,完整地交到你手里。
对它,你会问出什么问题?
我们无法直接定义“这就是爆款的秘密”,真正的答案,取决于各位研究者带着什么问题去敲开这个数据集。
如果你也好奇,能从这个数据集里挖出什么,不妨亲自来试一试。
查看详情请戳:小红书数据集(可先验后买)