总共有上万小时规模的同类粤语方言数据,本篇文档所述 81.9 小时版本为线上交付方便,如需更多请联系 450792304@qq.com。
参考数据集:粤语方言语音识别数据集
引言与背景
粤语在粤港澳大湾区、东南亚华语社群及影视、综艺、短视频等场景中极为常见,但通用语音识别模型对粤语的支持和口音适配度仍有提升空间。本数据集面向粤语语音识别与相关下游任务,提供成规模的音频—文本对,为学术与产业的粤语 ASR、口音鲁棒性、内容理解等任务提供可直接使用的高质量训练与评测材料。
本数据集共 17157 条记录,总音频时长约 81.9 小时。每条记录包含一段粤语口语音频(WAV)及对应的转写文本(字段 rover_result),并附带置信度、粤拼置信度、说话人属性、采样率与 DNSMOS 质量指标等元数据。字段统一、缺失率为 0,便于直接接入主流深度学习框架或 ASR 工具链。
数据基本信息与字段说明
数据规模与构成概览
- 记录条数:17157 条
- 音频文件数:17157 个(与标注一一对应)
- 音频格式:WAV,16 kHz 采样率(见
speech_quality.sampling_rate) - 标注格式:JSON(UTF-8 编码)
- 核心文本字段:
rover_result(粤语转写文本) - 辅助质量信息:
confidence、jyutping_confidence、speech_quality.DNSMOS - 时间与分段:
duration(秒)、cut_point(起止采样点)、可选timestamps(字/词级时间戳) - 说话人属性:
utt2spk_attributes(age/gender/multispk 等) - 内容类型:粤语口语对话、日常交流、剧情台词、电话/留言片段等多场景真实语料
字段说明表
对全部 17157 条 JSON 进行了全量扫描,核心字段均存在,文本与时长缺失率为 0%(spk 可为 null 但字段存在)。主要字段如下:
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
key |
string | 样本唯一标识,含来源与时间片段信息 | 204759947818_3nXo4_20_20060 |
100% |
rover_result |
string | 粤语转写文本 | 你都要好好哋收好佢… |
100% |
confidence |
number | 转写置信度 | 0.819 | 100% |
jyutping_confidence |
number | 粤拼置信度 | 0.848 | 100% |
duration |
number | 片段时长(秒) | 18.5 | 100% |
meta_info.link/region/program |
object | 原音频链接、区域、节目 | 链接为播客音频 URL,region 多为“未知地区” | 100% |
cut_point |
array[int,int] | 起止采样点(与原长音频的切分位置) | [510980, 528900] |
100% |
utt2spk_attributes |
object | 说话人属性(年龄/性别/是否多说话人) | age: MIDDLE_AGE, gender: Male, multispk: true |
100%(spk 可为 null) |
speech_quality |
object | 采样率与 DNSMOS 质量指标 | sampling_rate:16000, DNSMOS:1.54 |
100% |
timestamps |
array | 字/词级时间戳(部分样本存在) | [[\"融\",[0.0,0.69]],…] |
非必选,存在即用 |
数据分布情况
文本长度统计(17157 条)
- 最小/平均/最大:1 / 57.58 / 170 字符
- 长度分布(字符)
| 区间 (字符) | 记录数 | 占比 |
|---|---|---|
| (0,10] | 207 | 1.21% |
| (10,20] | 662 | 3.86% |
| (20,30] | 1016 | 5.92% |
| (30,40] | 1861 | 10.85% |
| (40,60] | 6213 | 36.21% |
| (60,80] | 4668 | 27.21% |
| (80,120] | 2370 | 13.81% |
| (120,200] | 160 | 0.93% |
| (200,400] | 0 | 0.00% |
| (400,1000] | 0 | 0.00% |
| 分析:文本集中在 40–120 字符,长文本极少,适合端到端 ASR 与对齐;短文本占比小,可补充快节奏指令或短对话训练。 |
音频时长统计(17157 条)
- 单条时长最小/平均/最大:5.50 s / 17.18 s / 30.92 s
- 总时长:约 81.9 小时(81.87 h)
- 时长分布(秒)
| 区间 (秒) | 记录数 | 占比 |
|---|---|---|
| (0,2] | 0 | 0.00% |
| (2,4] | 0 | 0.00% |
| (4,6] | 81 | 0.47% |
| (6,8] | 206 | 1.20% |
| (8,12] | 615 | 3.58% |
| (12,20] | 12982 | 75.67% |
| (20,30] | 3266 | 19.04% |
| (30,60] | 7 | 0.04% |
| (60,120] | 0 | 0.00% |
分析:时长主要落在 12–30 秒,便于端到端训练与分句切分;少量超短/超长片段可用于模型鲁棒性测试。
置信度与质量指标
- confidence 最小/平均/最大:0.603 / 0.857 / 1.000
- jyutping_confidence 最小/平均/最大:0.603 / 0.877 / 1.000
- DNSMOS 最小/平均/最大:-3.67 / 2.17 / 4.29
- 采样率分布:16 kHz 占比 100%(17157/17157) 说明:
confidence为转写模型整体置信度,jyutping_confidence为粤拼层面的置信度,可用于筛选高可信文本或加权训练;DNSMOS反映主观质量估计,越高音质越好。
分析:平均置信度 0.86/0.88 显示文本可靠度较高,可根据阈值(如 0.8)挑选高质量子集;DNSMOS 平均 2.17,建议在训练时对低于 0 的音频做降权或清洗。
说话人属性分布(utt2spk_attributes)
| 年龄段 | 数量 | 占比 |
|---|---|---|
| MIDDLE_AGE | 7951 | 46.36% |
| YOUTH | 5920 | 34.51% |
| OLD | 2457 | 14.33% |
| UNKNOWN | 713 | 4.15% |
| TEEN | 106 | 0.62% |
| CHILD | 10 | 0.06% |
| 性别 | 数量 | 占比 |
|---|---|---|
| Male | 11009 | 64.13% |
| Female | 6148 | 35.87% |
| 是否多说话人 | 数量 | 占比 |
|---|---|---|
| true | 9230 | 53.82% |
| false | 7927 | 46.18% |
时间戳与对齐信息
- 含逐字/逐词
timestamps的样本:6975 条(40.7%) - 不含
timestamps:10182 条(59.3%)cut_point在所有样本中存在,可定位原长音频的切分区间。
数据优势分析
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 含完整原始音频 | 17157 条 WAV 与标注一一对应,总时长约 81.9 小时 | 可直接用于端到端 ASR、声学建模、TTS/声纹等任务 |
| 标注与质量指标齐备 | 提供 rover_result、转写/粤拼置信度、DNSMOS、采样率 |
便于质量筛选、置信度加权训练与数据清洗 |
| 说话人属性可用 | age/gender/multispk 信息完善 |
支持性别/年龄分层评测与条件自适应建模 |
| 时间信息丰富 | duration、cut_point,部分含逐字 timestamps |
方便对齐、切分、声学事件定位及时间约束训练 |
| 真实多场景粤语口语 | 对话、电话、剧情、留言等多场景自然语料 | 提升模型在实景口语、媒体内容的鲁棒性 |
数据样例展示(完整 JSON 示例,均含 timestamps 片段)
说明:原始 WAV 较大,此处展示 6 条完整 JSON 标注样例,均包含逐字时间戳片段;实际数据集中每条记录均提供对应 WAV,可按
key/目录读取。
1) key: 204759947818_3nXo4_13_15080
{
"key": "204759947818_3nXo4_13_15080",
"rover_result": "哥你唔好开玩笑嘞喂哥唱完唱完牙齿牙齿",
"confidence": 0.77,
"jyutping_confidence": 0.86,
"duration": 15.08,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 15080],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.6, "SNR": null },
"timestamps": [
["哥", [0.00, 0.42]],
["你", [0.42, 0.78]],
["唔", [0.78, 1.02]],
["好", [1.02, 1.30]],
["开", [1.30, 1.56]],
["玩", [1.56, 1.86]],
["笑", [1.86, 2.12]],
["嘞", [2.12, 2.36]],
["喂", [2.36, 2.62]],
"... 其余时间戳略"
]
}
2) key: 204759947818_3nXo4_20_20060
{
"key": "204759947818_3nXo4_20_20060",
"rover_result": "你都要好好哋收好佢嗱系啦点解唔叫志民同你收埋呢咁贵重嘅嘢唔见咗呢就好难向佢哋交代噶啦你都系通知志民叫佢同你喺银行度开个保险箱收好佢啦",
"confidence": 0.82,
"jyutping_confidence": 0.87,
"duration": 20.06,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 20060],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.7, "SNR": null },
"timestamps": [
["你", [0.00, 0.35]],
["都", [0.35, 0.62]],
["要", [0.62, 0.90]],
["好", [0.90, 1.18]],
["好", [1.18, 1.42]],
["哋", [1.42, 1.70]],
"... 其余时间戳略"
]
}
3) key: 204759947818_3nXo4_21_17440
{
"key": "204759947818_3nXo4_21_17440",
"rover_result": "嗯诶今日成日咁多电话嚟系啲人打嚟恭喜你噶嗯有啲啦不过有啲就冇出声嘅冇出声系啊一起电话就冇声啦",
"confidence": 0.80,
"jyutping_confidence": 0.86,
"duration": 17.44,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 17440],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.6, "SNR": null },
"timestamps": [
["嗯", [0.00, 0.32]],
["诶", [0.32, 0.60]],
["今", [0.60, 0.86]],
["日", [0.86, 1.10]],
"... 其余时间戳略"
]
}
4) key: 204759947818_3nXo4_2_16480
{
"key": "204759947818_3nXo4_2_16480",
"rover_result": "你系边位佢啊校校长而家喺屋企噶噃你系边位啊哦我我系佢嘅朋友哦咁你可以去佢屋企佢啊佢多数喺屋企噶",
"confidence": 0.79,
"jyutping_confidence": 0.85,
"duration": 16.48,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 16480],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.6, "SNR": null },
"timestamps": [
["你", [0.00, 0.33]],
["系", [0.33, 0.58]],
["边", [0.58, 0.86]],
["位", [0.86, 1.12]],
"... 其余时间戳略"
]
}
5) key: 204759947818_3nXo4_33_14000
{
"key": "204759947818_3nXo4_33_14000",
"rover_result": "哪芝啊晚收尾唔系有电话嘅系又系冇声嘅都唔知边个喺度搞鬼咩话啊哎呀哪知",
"confidence": 0.78,
"jyutping_confidence": 0.85,
"duration": 14.00,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 14000],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.6, "SNR": null },
"timestamps": [
["哪", [0.00, 0.34]],
["芝", [0.34, 0.66]],
["啊", [0.66, 0.90]],
["晚", [0.90, 1.18]],
["收", [1.18, 1.46]],
["尾", [1.46, 1.70]],
"... 其余时间戳略"
]
}
6) key: 204759947818_3nXo4_45_19460
{
"key": "204759947818_3nXo4_45_19460",
"rover_result": "嗱你同雅芝开个保险商啦咁好啊我即刻同佢去啊系啦寻早只台湾货轮被救去嘅船员而家住喺爸爸嘅一间酒店度我想去睇下佢哋雅芝有冇兴趣去啊哦系好啦好啦唔好讲咁多啦",
"confidence": 0.82,
"jyutping_confidence": 0.87,
"duration": 19.46,
"meta_info": { "link": "...", "region": "未知地区", "program": "未知节目" },
"cut_point": [0, 19460],
"utt2spk_attributes": { "age": "MIDDLE_AGE", "spk": null, "gender": "Male", "multispk": true },
"speech_quality": { "sampling_rate": 16000, "DNSMOS": 1.7, "SNR": null },
"timestamps": [
["嗱", [0.00, 0.32]],
["你", [0.32, 0.60]],
["同", [0.60, 0.88]],
["雅", [0.88, 1.14]],
["芝", [1.14, 1.40]],
["开", [1.40, 1.68]],
["个", [1.68, 1.96]],
["保", [1.96, 2.20]],
["险", [2.20, 2.46]],
["商", [2.46, 2.72]],
["啦", [2.72, 2.96]],
"... 其余时间戳略"
]
}
上述样例完整呈现了文本、时长、质量与说话人属性,可直接按 key 寻址获取对应 WAV 与 JSON。
应用场景
1. 粤语自动语音识别(ASR)模型训练与评测
利用完整 WAV 与转写文本,直接构建 CTC、RNN-T、Transformer-Transducer 等端到端模型;可按置信度或 DNSMOS 进行数据筛选,按 age/gender 分层评测鲁棒性。81.9 小时规模便于快速迭代,且可与上万小时扩展版叠加进行大规模预训练。
2. 通用普通话模型的粤语口音自适应
将本数据集作为口音补充语料,对已有普通话模型进行微调或多任务学习,提升在粤语场景的词错误率表现。可结合 jyutping_confidence 做粤拼对齐或联合建模,增强音素层面的口音适配。
3. 粤语文本转语音(TTS)与风格迁移
基于 rover_result 与完整音频训练 FastSpeech/VITS 等模型,实现粤语合成与风格迁移。利用 cut_point/timestamps 做精确对齐,支持时长控制与韵律建模;DNSMOS 可用于筛选高质量子集。
4. 语音内容理解、检索与推荐
在短视频、播客、客服录音等粤语内容中,可先用本数据集训练/适配 ASR,再进行分词、实体识别、情感与主题分类,支撑字幕生成、语音检索与推荐。key 与 link 便于回溯原音频,构建可追溯的内容索引。
5. 语言学与口音研究
转写文本保留大量粤语口语词汇与语气词,辅以逐字时间戳,可研究连读、声调、韵律等现象;说话人属性支持性别/年龄差异分析,为方言语言学与口音鲁棒性算法提供实证数据。
结语与使用提示
本粤语方言语音识别数据集以 17157 条、约 81.9 小时 的 WAV 音频与完整 JSON 标注为基础,字段齐全、质量指标完备,适用于粤语 ASR、口音自适应、TTS、内容理解与语言学研究。若需更大规模(上万小时)扩展,请联系 450792304@qq.com 以获取支持。建议按质量与场景切分训练/验证/测试集,并结合 DNSMOS、置信度与说话人属性进行数据筛选,以获得更稳健的模型表现。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






