Li

verify-tagCC0 公共领域Spotify 用户收听历史数据集(14.9 万条播放记录)音乐行为数据集、播放历史数据、用户偏好建模

Spotify 收听数据音乐行为数据集播放历史数据播放时间戳平台设备用户偏好建模音乐推荐系统时间序列分析数据可视化跨平台播放分析

1.99

已售 0
6.09MB

数据标识:D17518810706515193

发布时间:2025/07/07

数据描述

本数据集包含 149,860 条用户 Spotify 播放记录,覆盖多年收听历史,完整记录曲目元数据(名称 / 艺术家 / 专辑)、播放行为(开始原因 / 结束方式 / 跳过状态)及设备信息(平台类型)。数据实时更新(每月增量),支持构建用户音乐偏好模型、分析跨平台播放习惯、优化推荐算法,适用于音乐产业研究、推荐系统开发及时间序列行为分析。

产品基本信息

● 数据规模:149,860 条记录 × 11 列
● 核心字段
  • spotify_track_uri:曲目唯一标识符(可关联 Spotify API 获取完整元数据)
  • ts:播放结束时间戳(UTC 格式,精确到毫秒)
  • platform:播放设备类型(如 Web Player、iOS App、Android App)
  • ms_played:实际播放时长(毫秒),可计算完整播放率(>95% 视为完整播放)
  • skipped:是否跳过(布尔值,True 表示未完整播放)
    ● 数据格式:CSV(UTF-8 编码,支持 Python/R/Spark 直接读取)
    ● 许可证:CC0 公共领域(可免费商用、修改、再分发)

产品使用说明

  • 数据导入与预处理
    • Python 示例(pandas):
      import pandas as pd  
      df = pd.read_csv('spotify_listening_history.csv')  
      df['ts'] = pd.to_datetime(df['ts'], unit='ms')  # 转换时间戳  
      df['play_completion'] = df['ms_played'] / df.groupby('spotify_track_uri')['ms_played'].transform('max')  
      
  • 关键分析维度
    • 播放完成率ms_played/ 曲目总时长,识别高粘性曲目(阈值 > 0.7)
    • 平台偏好:按platform分组统计播放量占比,优化移动端 / 桌面端推荐策略
    • 时间模式:提取ts的小时 / 星期几特征,分析早间(7-9 点)、通勤时段(17-19 点)的收听高峰
  • 高级建模场景
    • 序列推荐:使用 RNN/LSTM 模型,基于历史播放序列预测下一首曲目(参考 Spotify 官方序列模型架构)
    • 跳过预测:构建 XGBoost 模型,以artist_name/reason_start/shuffle为特征,预测跳过概率(AUC 可达 0.83)
  • 数据关联建议
    • 结合 Spotify Web API 获取曲目音频特征(如节奏、能量值),增强偏好分析维度
    • 关联外部数据(如天气、地理位置),分析环境因素对收听行为的影响

应用场景

  • 推荐系统优化:基于播放时长、跳过行为训练推荐模型,提升个性化推荐准确率。
  • 用户行为分析:分析不同平台(Web / 移动端)的播放差异,优化跨设备产品体验。
  • 音乐趋势研究:通过专辑 / 艺术家播放频次,追踪音乐流派流行趋势及时段性偏好。
  • 时间序列建模:利用时间戳数据,分析工作日 / 周末的收听模式,预测用户会话动态。
  • 广告精准投放:结合播放场景(如自动播放 / 用户点击),优化音乐广告投放策略。

相似产品

青少年手机使用行为合成数据集(含心理健康 / 学业表现维度)丨手机成瘾相关性分析专用


产品来源

数据通过 Spotify 官方 API 合法采集,遵循以下流程:
  • 用户授权:经用户同意后,获取其公开播放历史及行为日志。
  • 实时同步:通过 Spotify Web API 流式采集播放事件,每日汇总清洗后存储。
  • 隐私保护:所有用户数据均匿名化处理,移除可识别信息,仅保留聚合行为记录。
 

验证报告

以下为卖家选择提供的数据验证报告:

data icon
CC0 公共领域Spotify 用户收听历史数据集(14.9 万条播放记录)音乐行为数据集、播放历史数据、用户偏好建模
1.99
已售 0
6.09MB
申请报告