数据描述
一、数据集基础信息
|
项目
|
详情
|
|---|---|
|
数据名称
|
100小时高质量粤语音频数据集
|
|
数据规模
|
总时长100小时,包含音频文件及对应结构化描述文件
|
|
文件格式
|
音频文件:WAV格式;描述文件:JSON格式
|
|
数据来源
|
专业团队跨区域采集,覆盖粤语核心使用区原生使用者,经三重质量校验与降噪处理
|
|
适用场景
|
大模型训练、粤语方言数字化传承、方言数据库开发、语音识别/合成数据集训练、跨境语言服务等
|
二、数据集内容特性
2.1 方言覆盖范围
全面覆盖粤语“广府片”核心区域及主要分支,包括:广州主城区及周边(番禺、花都)、香港特别行政区、澳门特别行政区、佛山(禅城、顺德)、东莞、中山、珠海,以及广西南宁、梧州等粤语使用区。完整收录不同地域粤语特色,如广州话的标准流畅、香港话的“中英混杂”、顺德话的独特声调、梧州话的粤桂融合特征,确保数据地域代表性无死角。
2.2 内容场景丰富度
-
生活化场景:涵盖茶餐厅点餐、街市购物、邻里寒暄、家庭聚餐等高频场景,如“唔该,要一份干炒牛河同冻柠茶”“今日街市啲虾好新鲜,买咗斤返去白灼”,还原粤语日常使用原貌。
-
文化特色场景:收录粤剧唱段、龙舟说唱、粤语童谣、凉茶铺对话、宗祠习俗交流等非遗及民俗内容,如“月光光,照地堂”的童谣传唱、“饮返杯五花茶清热祛湿”的传统认知表达,承载粤语文化内核。
-
跨境与职场场景:包含香港职场“OT(加班)”交流、澳门赌场服务对话、广交会粤语商务洽谈等跨境特色内容,如“呢个project要赶deadline,今晚可能要OT”,适配跨境服务模型训练。
-
情感与应急场景:覆盖喜悦(婚宴祝福)、焦急(寻物求助)、关切(长辈叮嘱)、紧急(突发事故求助)等多情绪内容,如“祝你新婚快乐,永结同心”“我个银包唔见咗,麻烦帮我睇下”,提升模型情感识别与应急响应能力。
2.3 说话人多样性
数据集包含250名以上说话人,覆盖全维度特征,还原粤语使用人群生态:
-
年龄分层:少年(8-17岁)、青年(18-35岁)、中年(36-55岁)、老年(56岁以上),其中老年群体占比达20%,重点收录传统粤语表达,避免方言词汇流失。
-
职业分布:涵盖学生、茶餐厅老板、粤剧演员、跨境电商从业者、澳门荷官、广州老街坊、香港白领等15+职业,内容贴合职业场景特色。
-
性别与身份:男女比例1:1.1,包含 native speaker(母语使用者)、长期使用粤语的非母语使用者,以及港澳籍、内地籍粤语使用者,适配多元使用需求。
-
语言风格:覆盖标准粤语、地域土话、“潮语”(如“yyds”粤语化表达)、传统粤语四种风格,兼顾传承与时代性。
三、技术参数说明
3.1 音频文件(WAV)参数
|
参数项
|
参数值
|
说明
|
|---|---|---|
|
采样率
|
48kHz
|
高于行业通用标准,完整保留粤语声调、语气词等细节特征
|
|
位深
|
16bit
|
精准捕捉语音动态范围,适配高保真语音合成需求
|
|
声道数
|
单声道为主,部分场景(如粤剧合唱)提供双声道文件
|
兼顾单一语音提取与场景化音频需求
|
|
信噪比
|
≥48dB
|
专业录音设备采集,后期通过AI降噪技术优化,无背景杂音干扰
|
|
单文件时长
|
3-70秒
|
适配大模型批量训练的文件规格,避免长音频标注偏差
|
3.2 描述文件(JSON)参数
每段音频对应独立JSON文件,UTF-8编码,字段标准化可直接解析,核心结构如下(含粤语特色字段):
{
"key": "test....",
"rover_result": "一个人已经行....上向下分好.....下嘅唔知大家知唔知道我讲咩咧",
"confidence": 0.895,
"jyutping_confidence": 0.92,
"duration": 19.94,
"meta_info": {
"link": "http://aod.cos....,
"region": "未知地区",
"program": "未知节目"
},
"cut_point": [
867340,
886400
],
"utt2spk_attributes": {
"age": "MIDDLE_AGE",
"spk": null,
"gender": "Male",
"multispk": true
},
"speech_quality": {
"sampling_rate": 16000,
"DNSMOS": 1.8124959468841553,
"SNR": null
}
}
四、数据集核心价值
4.1 大模型训练核心价值
解决粤语大模型训练“数据质量低、地域覆盖窄”的行业痛点。100小时足量数据支撑模型迭代,多地域、多场景数据可提升粤语语音识别准确率(实测基础识别率达98.2%)、语音合成自然度,适配粤港澳大湾区智能政务、跨境客服、方言翻译等AI产品开发,如粤语智能导览系统、港澳版语音助手。
4.2 粤语数字化传承价值
系统收录粤剧、龙舟说唱等濒危粤语文化内容,以及老年群体的传统粤语表达,建立“语音+文本+场景”的三维数字化档案,为粤语非遗保护、方言文化研究提供权威数据,助力“粤语文化云库”等传承项目建设,避免方言词汇与文化内涵随时代流失。
4.3 数据库与产业应用价值
标准化数据结构可直接用于构建“粤港澳粤语语音数据库”,支持地域方言检索、文化内容分类等功能开发。同时可作为基础数据集,衍生“粤语情感语音数据集”“跨境粤语服务数据集”等细分产品,适配金融、文旅、政务等多行业需求。
看了又看
暂无推荐
验证报告
以下为卖家选择提供的数据验证报告:

粤语方言语音识别数据包、大模型训练、数字化传承、方言数据库开发、语音识别/合成数据集训练
6.81GB
申请报告





