Li

verify-tagSpotify 音乐 ML 练习数据集 含 158 个工程特征 11.4 万 + 记录 端到端 ML 管道实践 机器学习入门必备

Spotify 音乐数据集ML 练习数据集音乐特征工程流派预测数据流行度预测数据集音乐聚类分析初学者 ML 资源

1.99

已售 0
22.42MB

数据标识:D17525709785549476

发布时间:2025/07/15

数据描述

本 Spotify ML 练习数据集专为机器学习初学者设计,旨在提供端到端的 ML 管道实践资源。原始数据含 24 个特征,经处理后扩展至 158 个工程特征,涵盖 11.4 万 + 首 Spotify 歌曲信息。包含音乐流行度(0-100 分)、音频特征(可舞性、能量、响度等)、结构特征、114 个流派哑变量(is_genre_前缀)、自定义指标(如 loudness_intensity、mood_pca)、聚类目标(mood_cluster 等)及艺术家 / 专辑相关统计量。数据经特征工程优化(合并特征、编码处理、删除冗余信息),支持回归(预测流行度)、分类(预测流派)、聚类(情绪分组)等任务,采用 MIT 许可,是初学者练习 EDA、特征工程、模型构建的理想工具。

产品基本信息

  • 数据规模:113,999 条记录,158 个特征(原始 24 个,经工程化扩展),涵盖 11.4 万首 Spotify 歌曲。
  • 核心特征
    • 基础指标:popularity(流行度)、explicit(是否含露骨歌词)、音频特征(danceability、energy 等);
    • 流派相关:track_genre(原始流派)、114 个 one-hot 编码的 is_genre_哑变量、标签编码的 track_genre_le;
    • 自定义指标:loudness_intensity(响度强度)、happy_dance(欢快舞曲指数)、tempo_vs_genre(速度与流派对比)等;
    • 聚类目标:mood_cluster(情绪聚类)、acoustic_valence_mood_cluster(声学效价情绪聚类);
    • 统计量:artist_song_count(艺术家歌曲数)、artists_avg_popularity(艺术家平均流行度)等。
  • 数据处理:删除冗余标识(如歌曲名、专辑名),合并 key 与 mode 为 key_mode,将分类特征编码(one-hot / 标签编码),新增多维度工程特征。
  • 许可证:MIT 许可。
  • 适用人群:机器学习初学者、数据科学学习者、音乐数据分析爱好者。

产品使用说明

  1. 数据读取与熟悉:用 Python Pandas 读取 modified-spotify-dataset.csv,查看特征分布(如popularity的取值范围、track_genre的类别数量),通过df.info()了解特征类型(数值型 / 分类型)。
    python
    import pandas as pd  
    df = pd.read_csv('modified-spotify-dataset.csv')  
    print(f"特征数量:{df.shape[1]}, 记录数:{df.shape[0]}")  
    print("核心特征示例:", df[['popularity', 'danceability', 'track_genre', 'mood_cluster']].head())  
    
  2. 任务选择与特征准备
    • 回归任务(预测流行度):选择音频特征(energy、loudness 等)、自定义指标(energy_rank_pct)、艺术家统计量(artists_avg_popularity)作为输入,popularity为目标变量;
    • 分类任务(预测流派):用 one-hot 编码的 is_genre_* 特征或标签编码的 track_genre_le 作为目标,输入音频特征与结构特征;
    • 聚类任务:用 mood_pca(情绪主成分)、acousticness 等特征,通过 K-means 验证与数据集自带的 mood_cluster 是否匹配。
  3. 特征工程实践:基于现有特征扩展,例如:
    • 计算 “能量 - 可舞性比率”(energy/danceability);
    • mood_pcatempo构建新的情绪 - 节奏特征;
    • 对比自定义指标(如 happy_dance)与流派的关联性(通过箱线图可视化)。
  4. 模型训练与评估
    • 回归:用线性回归、随机森林预测 popularity,通过 R²、RMSE 评估;
    • 分类:用逻辑回归、SVM 处理流派分类,关注多类别 F1 分数(因流派类别达 114 种);
    • 聚类:用轮廓系数评估 mood_cluster 的合理性,分析不同聚类的音频特征差异(如 “高能量 - 高可舞性” 聚类的典型流派)。

应用场景

  1. 机器学习教学:高校或培训机构可将数据集作为入门案例,用于讲解特征工程(如 one-hot 编码、特征合并)、模型选择(回归 vs 分类)、端到端 ML 流程(从数据读取到模型评估),帮助学生理解实际项目中的数据处理逻辑。
  2. 音乐数据分析:音乐平台分析师可通过数据集探索 “流行度驱动因素”(如是否高能量歌曲更易流行)、“流派特征差异”(如古典乐与摇滚的 acousticness 对比),为音乐推荐策略(如基于情绪聚类的歌单生成)提供思路。
  3. 推荐系统原型开发:开发者可基于音频特征与流派标签,构建简易音乐推荐模型(如向喜欢 “高 happy_dance 值” 歌曲的用户推荐同类曲目),实践协同过滤或内容推荐算法。
  4. 初学者实战 portfolio:数据科学新手可利用数据集完成完整项目(如 “用随机森林预测歌曲流行度”),通过特征重要性分析(如发现 loudness 对流行度的影响),丰富个人作品集。

相似产品

产品来源

本数据集基于 Spotify 公开音乐数据加工而成,经特征工程(合并、编码、新增指标)优化,专为机器学习初学者设计。数据用途限于教育与练习,采用 MIT 许可,允许自由修改与分发,无需额外授权(但需保留原始声明)。完整数据可直接用于端到端 ML 管道实践,无需复杂预处理,降低初学者入门门槛。

验证报告

以下为卖家选择提供的数据验证报告:

data icon
Spotify 音乐 ML 练习数据集 含 158 个工程特征 11.4 万 + 记录 端到端 ML 管道实践 机器学习入门必备
1.99
已售 0
22.42MB
申请报告