数据描述
本数据集包含 149,860 条用户 Spotify 播放记录,覆盖多年收听历史,完整记录曲目元数据(名称 / 艺术家 / 专辑)、播放行为(开始原因 / 结束方式 / 跳过状态)及设备信息(平台类型)。数据实时更新(每月增量),支持构建用户音乐偏好模型、分析跨平台播放习惯、优化推荐算法,适用于音乐产业研究、推荐系统开发及时间序列行为分析。
产品基本信息
● 数据规模:149,860 条记录 × 11 列
● 核心字段:
● 核心字段:
spotify_track_uri
:曲目唯一标识符(可关联 Spotify API 获取完整元数据)ts
:播放结束时间戳(UTC 格式,精确到毫秒)platform
:播放设备类型(如 Web Player、iOS App、Android App)ms_played
:实际播放时长(毫秒),可计算完整播放率(>95% 视为完整播放)skipped
:是否跳过(布尔值,True 表示未完整播放)
● 数据格式:CSV(UTF-8 编码,支持 Python/R/Spark 直接读取)
● 许可证:CC0 公共领域(可免费商用、修改、再分发)
产品使用说明
- 数据导入与预处理:
- Python 示例(pandas):
import pandas as pd df = pd.read_csv('spotify_listening_history.csv') df['ts'] = pd.to_datetime(df['ts'], unit='ms') # 转换时间戳 df['play_completion'] = df['ms_played'] / df.groupby('spotify_track_uri')['ms_played'].transform('max')
- Python 示例(pandas):
- 关键分析维度:
- 播放完成率:
ms_played
/ 曲目总时长,识别高粘性曲目(阈值 > 0.7) - 平台偏好:按
platform
分组统计播放量占比,优化移动端 / 桌面端推荐策略 - 时间模式:提取
ts
的小时 / 星期几特征,分析早间(7-9 点)、通勤时段(17-19 点)的收听高峰
- 播放完成率:
- 高级建模场景:
- 序列推荐:使用 RNN/LSTM 模型,基于历史播放序列预测下一首曲目(参考 Spotify 官方序列模型架构)
- 跳过预测:构建 XGBoost 模型,以
artist_name
/reason_start
/shuffle
为特征,预测跳过概率(AUC 可达 0.83)
- 数据关联建议:
- 结合 Spotify Web API 获取曲目音频特征(如节奏、能量值),增强偏好分析维度
- 关联外部数据(如天气、地理位置),分析环境因素对收听行为的影响
应用场景
- 推荐系统优化:基于播放时长、跳过行为训练推荐模型,提升个性化推荐准确率。
- 用户行为分析:分析不同平台(Web / 移动端)的播放差异,优化跨设备产品体验。
- 音乐趋势研究:通过专辑 / 艺术家播放频次,追踪音乐流派流行趋势及时段性偏好。
- 时间序列建模:利用时间戳数据,分析工作日 / 周末的收听模式,预测用户会话动态。
- 广告精准投放:结合播放场景(如自动播放 / 用户点击),优化音乐广告投放策略。
相似产品
青少年手机使用行为合成数据集(含心理健康 / 学业表现维度)丨手机成瘾相关性分析专用
产品来源
数据通过 Spotify 官方 API 合法采集,遵循以下流程:
- 用户授权:经用户同意后,获取其公开播放历史及行为日志。
- 实时同步:通过 Spotify Web API 流式采集播放事件,每日汇总清洗后存储。
- 隐私保护:所有用户数据均匿名化处理,移除可识别信息,仅保留聚合行为记录。
验证报告
以下为卖家选择提供的数据验证报告:

CC0 公共领域Spotify 用户收听历史数据集(14.9 万条播放记录)音乐行为数据集、播放历史数据、用户偏好建模
¥1.99
已售 0
6.09MB
申请报告