panpan

verify-tag VOCALOID音乐数据库数据集深度分析报告

音乐数据库音乐风格分析

19.9

已售 0
1.95GB

数据标识:D17794161097117084

发布时间:2026/05/22

## 引言与背景

随着人工智能技术的快速发展,虚拟歌手(如VOCALOID、UTAU、Synthesizer V等)已经成为数字音乐创作领域的重要组成部分。本数据集源自VocaDB,是全球最大的虚拟歌手音乐数据库之一,收录了海量的虚拟歌手歌曲信息。

该数据集包含两个核心文件:vocadb.csv存储歌曲的核心元数据,vocadb_urls.csv存储歌曲关联的视频(PV)信息。数据集涵盖了从2007年VOCALOID诞生以来的大量音乐作品,包括初音未来、镜音铃/连、巡音流歌、乐正绫、言和等知名虚拟歌手的作品。

对于科研人员和开发者而言,该数据集具有重要价值:它可用于音乐推荐系统训练、音乐风格分析、虚拟歌手声音特征研究、音乐流行趋势预测等多个领域。数据集包含丰富的元数据和多维度标签信息,为深度学习模型提供了优质的训练素材。

## 数据基本信息

### 数据字段说明

#### vocadb.csv 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| id | 整数 | 歌曲唯一标识 | 13702 | 100% |
| originalVersionId | 浮点数 | 原始版本ID | 13672.0 | 约30% |
| name | 字符串 | 歌曲名称 | STORY TELLER | 100% |
| defaultName | 字符串 | 默认名称 | STORY TELLER | 100% |
| defaultNameLanguage | 字符串 | 默认名称语言 | English | 100% |
| artistString | 字符串 | 艺术家字符串 | seleP feat. 初音ミク | 100% |
| lengthSeconds | 整数 | 歌曲时长(秒) | 302 | 约95% |
| pvServices | 字符串 | PV服务列表 | NicoNicoDouga, Youtube | 100% |
| minMilliBpm | 浮点数 | 最小BPM(千分位) | 120000.0 | 约40% |
| maxMilliBpm | 浮点数 | 最大BPM(千分位) | 120000.0 | 约40% |
| songType | 字符串 | 歌曲类型 | Original | 100% |
| favoritedTimes | 整数 | 收藏次数 | 2 | 100% |
| ratingScore | 整数 | 评分 | 10 | 100% |
| createDate | 字符串 | 创建日期 | 2012-06-28 18:37:22 | 100% |
| publishDate | 字符串 | 发布日期 | 2010-06-09 00:00:00 | 100% |
| status | 字符串 | 状态 | Finished | 100% |
| version | 整数 | 版本号 | 8 | 100% |
| additionalNames | 字符串 | 其他名称 | "Nounai Kakumei Girl" | 约70% |
| pvs | JSON | PV列表 | [{"id": 109904, "url": "..."}] | 100% |
| views | JSON | 播放量数据 | {"NicoNicoDouga": [{"url": "...", "views": 11713}]} | 100% |
| artists | JSON | 艺术家列表 | [{"id": 15756, "name": "初音ミク", ...}] | 100% |
| tags | JSON | 标签列表 | [{"tag": {"id": 81, "name": "cute", ...}}] | 约85% |

#### vocadb_urls.csv 字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| id | 整数 | 记录唯一标识 | 11685 | 100% |
| pv_id | 整数 | PV唯一标识 | 426019 | 100% |
| song_id | 整数 | 关联歌曲ID | 294896 | 100% |
| url | 字符串 | PV视频URL | http://www.nicovideo.jp/watch/sm36483402 | 100% |
| service | 字符串 | 视频服务平台 | NicoNicoDouga | 100% |
| views | 浮点数 | 播放量 | 1129.0 | 约98% |
| likes | 浮点数 | 点赞数 | NULL | 约10% |
| dislikes | 浮点数 | 点踩数 | NULL | 约5% |
| favorites | 浮点数 | 收藏数 | NULL | 约10% |
| published_at | 字符串 | 发布时间 | 2020-03-09 00:00:00 | 约95% |
| created_at | 字符串 | 创建时间 | 2025-09-18 09:04:18 | 100% |
| updated_at | 字符串 | 更新时间 | 2025-09-18 13:15:23 | 100% |

### 数据分布情况

#### 歌曲类型分布

根据数据集分析,歌曲类型主要分布如下:

| 歌曲类型 | 记录数量 | 占比 |
|---------|---------|------|
| Original | 约60% | 原创歌曲,创作者独立创作的全新作品 |
| Cover | 约25% | 翻唱歌曲,使用虚拟歌手翻唱其他作品 |
| Remix | 约8% | 混音版本,在原曲基础上重新编曲 |
| Instrumental | 约5% | 纯音乐版本,无歌唱部分 |
| Other | 约2% | 其他类型 |

#### PV服务平台分布

| 平台 | 记录数量 | 占比 |
|-----|---------|------|
| NicoNicoDouga | 约45% | 日本知名弹幕视频网站 |
| Youtube | 约40% | 全球最大视频分享平台 |
| Bilibili | 约8% | 中国知名弹幕视频网站 |
| SoundCloud | 约4% | 音频分享平台 |
| Piapro | 约2% | Crypton官方社区平台 |
| Bandcamp | 约1% | 独立音乐发布平台 |

#### 语言分布

| 语言 | 占比 | 说明 |
|-----|------|------|
| Japanese | 约65% | 日语歌曲为主 |
| English | 约25% | 英语歌曲 |
| Chinese | 约8% | 中文歌曲(含中文VOCALOID) |
| Mixed | 约2% | 多语言混合 |

#### 时间分布(按发布年份)

| 年份 | 记录数量 | 占比 | 累计占比 |
|-----|---------|------|---------|
| 2007-2010 | 约15% | 早期VOCALOID发展阶段 | 15% |
| 2011-2015 | 约45% | VOCALOID黄金发展期 | 60% |
| 2016-2020 | 约25% | 稳定发展期 | 85% |
| 2021-2025 | 约15% | 多元化发展期 | 100% |

### 主要实体分布

#### 热门虚拟歌手Top 10

| 排名 | 歌手名称 | 类型 | 代表作品数 |
|-----|---------|------|-----------|
| 1 | 初音ミク (Hatsune Miku) | Vocaloid | 最多 |
| 2 | 鏡音リン (Kagamine Rin) | Vocaloid | 次多 |
| 3 | 鏡音レン (Kagamine Len) | Vocaloid | 较多 |
| 4 | GUMI | Vocaloid | 较多 |
| 5 | 巡音ルカ (Megurine Luka) | Vocaloid | 较多 |
| 6 | 乐正绫 (Yuezheng Ling) | Vocaloid | 中等 |
| 7 | 言和 (Yan He) | Vocaloid | 中等 |
| 8 | MAYU | Vocaloid | 中等 |
| 9 | Eleanor Forte | SynthesizerV | 较少 |
| 10 | 最初歌音 (Saisho Utane) | UTAU | 较少 |

#### 热门制作人Top 5

| 制作人 | 作品数 | 风格特点 |
|-------|-------|---------|
| seleP | 多 | 流行、电子 |
| クリスタルP | 多 | 器乐、氛围 |
| ヒッキーP | 中等 | 摇滚、工业 |
| natsuP | 中等 | 抒情、叙事 |
| ORYO | 中等 | 流行、动画PV |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 包含数万首虚拟歌手歌曲记录,覆盖十年以上历史 | 支持大规模模型训练和趋势分析 |
| 多维度元数据 | 包含歌曲、艺术家、标签、播放量等多维度信息 | 支持复杂的数据分析和推荐系统 |
| 跨平台覆盖 | 涵盖NicoNico、Youtube、Bilibili等多个平台 | 支持跨平台数据分析和对比研究 |
| 多语言支持 | 包含日语、英语、中文等多语言歌曲 | 支持多语言音乐研究和国际化应用 |
| 丰富的标签系统 | 包含音乐类型、情感标签、主题标签等 | 支持内容分类和语义分析 |
| 时间跨度长 | 从2007年至今的完整时间序列数据 | 支持音乐流行趋势分析和预测 |
| 高质量标注 | 包含专业的音乐类型标注和艺术家信息 | 支持机器学习模型的监督训练 |

## 数据样例

### 元数据样例

以下是从数据集中提取的10条代表性歌曲记录样例:

1. STORY TELLER - seleP feat. 初音ミク
- 时长:302秒
- 类型:Original
- PV平台:NicoNicoDouga
- 播放量:11,713
- 标签:cute, pop

2. Dear BJ -FULL Ver2- - seleP feat. 鏡音リン
- 时长:274秒
- 类型:Remix
- PV平台:NicoNicoDouga
- 播放量:13,868
- 标签:electronic

3. 田园·南亭晚 - 无刃妖影 feat. 乐正绫、言和
- 时长:0秒(数据缺失)
- 类型:Original
- PV平台:Bilibili
- 播放量:5,626
- 标签:古风

4. 脳内革命ガール - Saisho Utane feat. 最初歌音
- 时长:218秒
- 类型:Cover
- PV平台:Youtube
- 播放量:149
- 标签:editor PV

5. 陰陽 ~LEN-less - クリスタルP
- 时长:245秒
- 类型:Instrumental
- PV平台:Youtube
- 播放量:94

6. Ohno - PomsukiMochi feat. Eleanor Forte
- 时长:69秒
- 类型:Original
- PV平台:Youtube
- 播放量:36

7. 孤独の番人 - natsuP feat. MAYU
- 时长:215秒
- 类型:Original
- PV平台:NicoNicoDouga、Youtube
- 播放量:798,887(多平台合计)
- 标签:emotional

8. 花ノ舞 - ORYO feat. V3 GUMI
- 时长:252秒
- 类型:Original
- PV平台:NicoNicoDouga、Youtube
- 播放量:55,387(多平台合计)

9. Esc - ヒッキーP feat. 鏡音リン
- 时长:130秒
- 类型:Original
- PV平台:NicoNicoDouga
- 播放量:9,941
- 标签:industrial, rock

10. 恋愛サーキュレーション - Saisho Utane feat. Tefii chan
- 时长:91秒
- 类型:Cover
- PV平台:Youtube
- 播放量:307

### PV URL样例

以下是从vocadb_urls.csv中提取的PV记录样例:

| PV ID | 歌曲ID | 平台 | URL | 播放量 | 发布日期 |
|------|-------|-----|-----|--------|---------|
| 109904 | 13702 | NicoNicoDouga | http://www.nicovideo.jp/watch/sm11008499 | 11,713 | 2010-06-09 |
| 109903 | 13703 | NicoNicoDouga | http://www.nicovideo.jp/watch/sm2149135 | 13,868 | 2008-01-27 |
| 254321 | 175987 | Bilibili | https://www.bilibili.com/video/av16492883 | 5,626 | 2017-11-19 |
| 769660 | 500671 | Youtube | https://youtu.be/ETCkwuEmnZE | 149 | 2021-02-02 |

## 应用场景

### 音乐推荐系统开发

该数据集可用于训练高质量的音乐推荐系统。通过分析歌曲的元数据、标签信息和用户行为数据(播放量、收藏数等),可以构建基于内容的推荐模型和协同过滤模型。例如,可以根据歌曲的BPM、时长、标签等特征进行相似歌曲推荐,或者根据用户的播放历史进行个性化推荐。此外,数据集包含多平台数据,可以支持跨平台推荐策略的研究和实现。

### 音乐风格分析与分类

数据集丰富的标签系统和元数据为音乐风格分析提供了良好基础。研究人员可以使用机器学习算法对歌曲进行自动分类,识别不同风格的特征模式。例如,可以通过分析标签分布和音频特征(虽然本数据集不包含音频文件,但可以结合其他音频数据集)来构建音乐风格分类模型,帮助理解虚拟歌手音乐的风格演变和趋势。

### 虚拟歌手声音特征研究

通过分析不同虚拟歌手的歌曲分布、风格偏好和受众反馈,可以深入研究虚拟歌手的声音特征和表现力。例如,可以比较初音未来和镜音铃在不同音乐类型中的表现差异,或者分析中文VOCALOID(如乐正绫、言和)与日文VOCALOID的风格差异。这些研究可以为虚拟歌手的开发和优化提供参考。

### 音乐流行趋势预测

数据集包含从2007年至今的时间序列数据,为音乐流行趋势分析提供了丰富素材。研究人员可以分析不同时期的热门歌曲特征、标签变化、平台分布变化等,预测未来的音乐流行趋势。例如,可以研究电子音乐、摇滚音乐在虚拟歌手领域的流行趋势变化,或者分析不同平台上音乐传播模式的差异。

### 内容创作辅助工具开发

该数据集可以用于开发内容创作辅助工具。例如,可以基于标签和风格数据为创作者提供灵感推荐,或者根据热门歌曲特征生成创作建议。此外,数据集还可以用于训练AI作曲模型,帮助创作者生成符合特定风格的音乐作品。

## 结尾

本数据集是一个极具价值的虚拟歌手音乐数据库,包含了数万首歌曲的完整元数据和PV信息。其核心优势在于数据规模庞大、维度丰富、时间跨度长且覆盖多个平台。这些特点使得该数据集不仅适用于学术研究,也适用于产业应用,如推荐系统开发、音乐分析工具、创作辅助平台等。

数据集包含完整的元数据信息,支持多种应用场景。如果需要获取更多相关资源或有合作意向,可以私信获取更多信息。

---

数据集来源: VocaDB 数据格式: CSV 数据规模: 数万条记录 覆盖时间: 2007年至今 适用领域: 音乐推荐、风格分析、趋势预测、AI创作

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
VOCALOID音乐数据库数据集深度分析报告
19.9
已售 -
1.95GB
申请报告