数据描述
本 Spotify ML 练习数据集专为机器学习初学者设计,旨在提供端到端的 ML 管道实践资源。原始数据含 24 个特征,经处理后扩展至 158 个工程特征,涵盖 11.4 万 + 首 Spotify 歌曲信息。包含音乐流行度(0-100 分)、音频特征(可舞性、能量、响度等)、结构特征、114 个流派哑变量(is_genre_前缀)、自定义指标(如 loudness_intensity、mood_pca)、聚类目标(mood_cluster 等)及艺术家 / 专辑相关统计量。数据经特征工程优化(合并特征、编码处理、删除冗余信息),支持回归(预测流行度)、分类(预测流派)、聚类(情绪分组)等任务,采用 MIT 许可,是初学者练习 EDA、特征工程、模型构建的理想工具。
产品基本信息
- 数据规模:113,999 条记录,158 个特征(原始 24 个,经工程化扩展),涵盖 11.4 万首 Spotify 歌曲。
- 核心特征:
- 基础指标:popularity(流行度)、explicit(是否含露骨歌词)、音频特征(danceability、energy 等);
- 流派相关:track_genre(原始流派)、114 个 one-hot 编码的 is_genre_哑变量、标签编码的 track_genre_le;
- 自定义指标:loudness_intensity(响度强度)、happy_dance(欢快舞曲指数)、tempo_vs_genre(速度与流派对比)等;
- 聚类目标:mood_cluster(情绪聚类)、acoustic_valence_mood_cluster(声学效价情绪聚类);
- 统计量:artist_song_count(艺术家歌曲数)、artists_avg_popularity(艺术家平均流行度)等。
- 数据处理:删除冗余标识(如歌曲名、专辑名),合并 key 与 mode 为 key_mode,将分类特征编码(one-hot / 标签编码),新增多维度工程特征。
- 许可证:MIT 许可。
- 适用人群:机器学习初学者、数据科学学习者、音乐数据分析爱好者。
产品使用说明
-
数据读取与熟悉:用 Python Pandas 读取 modified-spotify-dataset.csv,查看特征分布(如
popularity
的取值范围、track_genre
的类别数量),通过df.info()
了解特征类型(数值型 / 分类型)。pythonimport pandas as pd df = pd.read_csv('modified-spotify-dataset.csv') print(f"特征数量:{df.shape[1]}, 记录数:{df.shape[0]}") print("核心特征示例:", df[['popularity', 'danceability', 'track_genre', 'mood_cluster']].head())
-
任务选择与特征准备:
- 回归任务(预测流行度):选择音频特征(energy、loudness 等)、自定义指标(energy_rank_pct)、艺术家统计量(artists_avg_popularity)作为输入,
popularity
为目标变量; - 分类任务(预测流派):用 one-hot 编码的 is_genre_* 特征或标签编码的 track_genre_le 作为目标,输入音频特征与结构特征;
- 聚类任务:用 mood_pca(情绪主成分)、acousticness 等特征,通过 K-means 验证与数据集自带的 mood_cluster 是否匹配。
- 回归任务(预测流行度):选择音频特征(energy、loudness 等)、自定义指标(energy_rank_pct)、艺术家统计量(artists_avg_popularity)作为输入,
-
特征工程实践:基于现有特征扩展,例如:
- 计算 “能量 - 可舞性比率”(energy/danceability);
- 用
mood_pca
与tempo
构建新的情绪 - 节奏特征; - 对比自定义指标(如 happy_dance)与流派的关联性(通过箱线图可视化)。
-
模型训练与评估:
- 回归:用线性回归、随机森林预测 popularity,通过 R²、RMSE 评估;
- 分类:用逻辑回归、SVM 处理流派分类,关注多类别 F1 分数(因流派类别达 114 种);
- 聚类:用轮廓系数评估 mood_cluster 的合理性,分析不同聚类的音频特征差异(如 “高能量 - 高可舞性” 聚类的典型流派)。
应用场景
-
机器学习教学:高校或培训机构可将数据集作为入门案例,用于讲解特征工程(如 one-hot 编码、特征合并)、模型选择(回归 vs 分类)、端到端 ML 流程(从数据读取到模型评估),帮助学生理解实际项目中的数据处理逻辑。
-
音乐数据分析:音乐平台分析师可通过数据集探索 “流行度驱动因素”(如是否高能量歌曲更易流行)、“流派特征差异”(如古典乐与摇滚的 acousticness 对比),为音乐推荐策略(如基于情绪聚类的歌单生成)提供思路。
-
推荐系统原型开发:开发者可基于音频特征与流派标签,构建简易音乐推荐模型(如向喜欢 “高 happy_dance 值” 歌曲的用户推荐同类曲目),实践协同过滤或内容推荐算法。
-
初学者实战 portfolio:数据科学新手可利用数据集完成完整项目(如 “用随机森林预测歌曲流行度”),通过特征重要性分析(如发现 loudness 对流行度的影响),丰富个人作品集。
相似产品
产品来源
本数据集基于 Spotify 公开音乐数据加工而成,经特征工程(合并、编码、新增指标)优化,专为机器学习初学者设计。数据用途限于教育与练习,采用 MIT 许可,允许自由修改与分发,无需额外授权(但需保留原始声明)。完整数据可直接用于端到端 ML 管道实践,无需复杂预处理,降低初学者入门门槛。
验证报告
以下为卖家选择提供的数据验证报告:

Spotify 音乐 ML 练习数据集 含 158 个工程特征 11.4 万 + 记录 端到端 ML 管道实践 机器学习入门必备
¥1.99
已售 0
22.42MB
申请报告