wnx

verify-tagKuaiRand-Pure无偏序贯推荐数据集-27285名用户与7583个视频的262万条交互日志含用户活跃度与视频特征支持推荐系统公平性与用户行为序列建模研究

KuaiRand-Pure无偏序贯推荐数据集交互日志用户活跃度视频特征

9.9

194.25MB

数据标识:D17828201934858807

发布时间:2026/06/30

# KuaiRand-Pure无偏序贯推荐数据集-27285名用户与7583个视频的262万条交互日志含用户活跃度与视频特征支持推荐系统公平性与用户行为序列建模研究

## 引言与背景

推荐系统作为解决信息过载问题的核心技术,在电子商务、内容平台和社交媒体等领域发挥着重要作用。然而,传统推荐数据集往往存在用户曝光偏差,即用户的交互行为受到推荐算法的影响,导致数据分布与真实用户偏好存在差异。KuaiRand-Pure数据集由快手科技发布,旨在解决推荐研究中的数据偏差问题。该数据集提供了真实用户行为日志与随机曝光实验数据的对比,为推荐系统的公平性研究、偏差校正算法开发和用户行为建模提供了独特的数据支持。数据集包含27285名用户的完整行为序列、7583个视频的元数据特征以及超过262万条交互记录,是研究序贯推荐和公平性问题的宝贵资源。

## 数据基本信息

### 用户特征字段说明表

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| user_id | 整数 | 用户唯一标识符 | 0, 1, 2... | 100% |
| user_active_degree | 字符串 | 用户活跃度等级 | full_active, high_active, middle_active | 100% |
| is_lowactive_period | 整数 | 是否处于低活跃期 | 0, 1 | 100% |
| is_live_streamer | 整数 | 是否为直播用户 | 0, 1 | 100% |
| is_video_author | 整数 | 是否为视频创作者 | 0, 1 | 100% |
| follow_user_num | 整数 | 关注用户数量 | 0-2103 | 100% |
| fans_user_num | 整数 | 粉丝数量 | 0-2166 | 100% |
| friend_user_num | 整数 | 好友数量 | 0-436 | 100% |
| register_days | 整数 | 注册天数 | 0-1857 | 100% |
| onehot_feat0-17 | 浮点数 | One-hot编码特征 | 0.0, 1.0 | 部分缺失 |

### 视频特征字段说明表

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| video_id | 整数 | 视频唯一标识符 | 0, 1, 2... | 100% |
| author_id | 整数 | 作者ID | 7349781... | 100% |
| video_type | 字符串 | 视频类型 | NORMAL, AD | 100% |
| upload_dt | 日期 | 上传日期 | 2022-04-09... | 100% |
| upload_type | 字符串 | 上传方式 | Web, LongImport... | 100% |
| video_duration | 整数 | 视频时长(毫秒) | 87433... | 部分缺失 |
| server_width | 整数 | 视频宽度 | 720, 1280 | 100% |
| server_height | 整数 | 视频高度 | 720, 960, 1280 | 100% |
| music_id | 整数 | 音乐ID | 0, 9155697141... | 部分缺失 |
| tag | 字符串 | 视频标签 | 39, 2, "20,43"... | 部分缺失 |

### 交互日志字段说明表

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| user_id | 整数 | 用户ID | 0, 1, 2... | 100% |
| video_id | 整数 | 视频ID | 1527, 7405... | 100% |
| date | 整数 | 日期(YYYYMMDD) | 20220411... | 100% |
| hourmin | 整数 | 时间(HHMM) | 1900, 1100... | 100% |
| time_ms | 整数 | 时间戳(毫秒) | 1649675512388... | 100% |
| is_click | 整数 | 是否点击 | 0, 1 | 100% |
| is_like | 整数 | 是否点赞 | 0, 1 | 100% |
| is_follow | 整数 | 是否关注 | 0, 1 | 100% |
| is_comment | 整数 | 是否评论 | 0, 1 | 100% |
| is_forward | 整数 | 是否转发 | 0, 1 | 100% |
| is_hate | 整数 | 是否点踩 | 0, 1 | 100% |
| long_view | 整数 | 是否完整观看 | 0, 1 | 100% |
| play_time_ms | 整数 | 播放时长(毫秒) | 1385, 115607... | 100% |
| duration_ms | 整数 | 视频时长(毫秒) | 209900, 65400... | 100% |
| tab | 整数 | Tab来源 | 1, 8, 0 | 100% |

### 用户活跃度分布表

| 活跃度等级 | 记录数量 | 占比 | 累计占比 |
|-----------|---------|------|---------|
| full_active(完全活跃) | 17959 | 65.8% | 65.8% |
| high_active(高度活跃) | 6158 | 22.6% | 88.4% |
| middle_active(中等活跃) | 2133 | 7.8% | 96.2% |
| 2_14_day_new(14天内新用户) | 635 | 2.3% | 98.5% |
| low_active(低活跃) | 300 | 1.1% | 99.6% |
| single_low_active | 68 | 0.2% | 99.8% |
| 30day_retention | 15 | 0.1% | 99.9% |
| day_new(新用户) | 11 | 0.0% | 99.9% |
| UNKNOWN | 6 | 0.0% | 100.0% |

### 视频类型分布表

| 视频类型 | 记录数量 | 占比 | 累计占比 |
|---------|---------|------|---------|
| NORMAL(普通视频) | 7506 | 99.0% | 99.0% |
| AD(广告) | 76 | 1.0% | 100.0% |
| UNKNOWN | 1 | 0.0% | 100.0% |

### 数据规模汇总表

| 数据类型 | 数量 | 说明 |
|---------|------|------|
| 用户总数 | 27285人 | 包含不同活跃度等级 |
| 视频总数 | 7583个 | 涵盖普通视频和广告 |
| 4月8日-21日标准日志 | 1141112条 | 日常推荐日志 |
| 4月22日-5月8日标准日志 | 295497条 | 日常推荐日志 |
| 4月22日-5月8日随机日志 | 1186059条 | 随机曝光实验数据 |
| 总交互记录数 | 2622668条 | 含多种交互行为 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 无偏数据采集 | 提供随机曝光实验数据,避免推荐偏差 | 支持偏差校正算法研究和公平性评估 |
| 完整用户画像 | 包含用户活跃度、社交关系、注册时长等多维度特征 | 支持用户分群和个性化推荐 |
| 丰富的视频元数据 | 涵盖视频类型、时长、上传方式、标签等信息 | 支持内容理解和多模态推荐 |
| 多维度交互行为 | 包含点击、点赞、关注、评论、转发等行为 | 支持多任务学习和行为预测 |
| 时间序列完整 | 提供完整的行为时间戳和日期信息 | 支持序贯推荐和时序模式挖掘 |
| 真实工业数据 | 来源于快手短视频平台的真实用户行为 | 具有高度的实际应用价值 |
| 数据规模适中 | 262万条交互记录,覆盖27000+用户 | 适合学术研究和算法验证 |

## 数据样例

### 用户特征样例(user_features_pure.csv)

csv
user_id,user_active_degree,is_lowactive_period,is_live_streamer,is_video_author,follow_user_num,fans_user_num,friend_user_num,register_days
0,full_active,0,1,1,514,150,34,799
1,full_active,0,-124,1,457,20,3,1474
2,full_active,0,-124,1,8,20,3,231
3,full_active,0,1,1,91,2166,14,2145
4,full_active,0,-124,1,261,10,3,764

### 视频特征样例(video_features_basic_pure.csv)

csv
video_id,author_id,video_type,upload_dt,upload_type,video_duration,server_width,server_height,tag
0,7349781,NORMAL,2022-04-10,LongImport,87433.0,720.0,1280.0,39
1,2103883,NORMAL,2022-04-10,Kmovie,218066.0,720.0,1280.0,2
2,5067285,NORMAL,2022-04-09,ShortImport,9233.0,720.0,1280.0,1
3,7048760,NORMAL,2022-04-11,Web,16433.0,720.0,1280.0,7

### 交互日志样例(log_standard_4_08_to_4_21_pure.csv)

csv
user_id,video_id,date,hourmin,time_ms,is_click,is_like,is_follow,is_comment,is_forward,long_view,play_time_ms,duration_ms,tab
0,1527,20220411,1900,1649675512388,0,0,0,0,0,0,1385,209900,1
0,7405,20220416,2000,1650111976017,0,0,0,0,0,0,0,65400,0
1,6354,20220411,1100,1649645295928,0,0,0,0,0,0,0,255160,8
1,4073,20220412,300,1649706052290,1,0,0,0,0,1,115607,114680,1

## 应用场景

### 推荐系统公平性研究

KuaiRand-Pure数据集的核心价值在于提供了随机曝光实验数据与正常推荐数据的对比,这为研究推荐系统公平性问题提供了独特条件。研究人员可以比较用户在不同曝光机制下的行为差异,分析推荐偏差对用户体验和内容生态的影响。例如,可以研究短视频平台上不同类型创作者的内容曝光公平性,评估推荐算法是否对新人创作者或特定类型内容存在系统性偏见。这类研究对于构建更加公平、透明的推荐系统具有重要意义,有助于保护内容创作者的权益,促进平台的可持续发展。

### 用户行为序列建模

数据集包含每个用户的完整行为序列和精确的时间戳信息,支持各种序贯推荐算法的研究和评估。研究人员可以利用这些数据分析用户的兴趣演化模式,探索短期兴趣和长期偏好的交互机制。基于序列数据的推荐模型(如SASRec、BERT4Rec等)可以在此数据集上进行训练和验证,研究注意力机制、Transformer架构等前沿技术在用户行为预测中的应用效果。此外,数据集的多维度交互行为(点击、点赞、评论等)为多任务学习提供了丰富的标签信息,可支持同时预测多种用户行为的联合模型开发。

### 推荐偏差校正算法

传统推荐系统的训练数据往往存在选择偏差,即用户只能看到被推荐的内容,其交互行为受到推荐结果的影响。KuaiRand-Pure数据集通过随机曝光实验提供了无偏数据的对照样本,使研究人员能够评估各种偏差校正方法的效果。逆倾向评分(IPS)方法、因果推断模型和双塔匹配等先进技术可以在此数据集上进行验证。这类研究对于提高推荐系统的泛化能力、减少离线评估与在线效果之间的差距具有重要意义,最终目标是构建能够自适应用户真实偏好的智能推荐系统。

### 用户生命周期分析与留存预测

数据集涵盖了不同活跃度等级的用户(从完全活跃到新用户),为用户生命周期研究提供了丰富的样本。研究人员可以分析用户从新手到活跃用户的转化路径,识别影响用户留存的关键因素。基于用户行为序列的预测模型可以用于早期识别流失风险用户,为运营策略制定提供数据支持。此外,数据集中包含的低活跃期标记为研究用户活跃度波动和周期性行为模式提供了便利,这类研究对于提升用户粘性和延长用户生命周期价值具有重要商业意义。

## 结尾

KuaiRand-Pure无偏序贯推荐数据集为推荐系统研究提供了高质量的工业级数据资源。数据集的核心优势在于同时提供真实推荐场景下的用户行为数据和随机曝光实验数据,有效解决了传统推荐数据集存在的偏差问题。数据集包含27285名用户的完整行为序列、7583个视频的多维度特征以及超过262万条交互记录,覆盖点击、点赞、关注、评论等多种用户行为类型。该数据集特别适用于推荐系统公平性研究、偏差校正算法开发、用户行为序列建模和用户生命周期分析等领域的研究。其无偏数据的独特设计为因果推断和反事实推理在推荐系统中的应用提供了理想的实验平台,有需要可私信获取更多信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
KuaiRand-Pure无偏序贯推荐数据集-27285名用户与7583个视频的262万条交互日志含用户活跃度与视频特征支持推荐系统公平性与用户行为序列建模研究
9.9
194.25MB
申请报告