数据描述
一、数据集基础信息
|
项目
|
详情
|
|---|---|
|
数据名称
|
100小时高质量四川话音频数据集
|
|
数据规模
|
总时长100小时,包含音频文件及对应描述文件
|
|
文件格式
|
音频文件:WAV格式;描述文件:JSON格式
|
|
数据来源
|
专业录音采集,涵盖四川多地原生方言使用者,经过严格质量校验与筛选
|
|
适用场景
|
大模型训练、四川方言数字化传承、方言数据库开发、语音识别/合成数据集训练等
|
二、数据集内容特性
2.1 方言覆盖范围
数据集全面覆盖四川方言核心使用区域,包括成都主城区及周边区县、重庆主城区(川渝方言同源核心区)、川南(泸州、宜宾)、川北(南充、绵阳)、川西(乐山、雅安)等代表性区域,涵盖不同地域四川话的语音语调差异,如成都话的温和软糯、重庆话的刚劲直白、川南话的独特韵母等,确保数据的地域代表性与多样性。
2.2 内容场景丰富度
-
日常交流场景:包含家庭对话、邻里闲聊、购物沟通、职场交流等高频生活场景,内容贴近实际使用,如"今天去菜市场买了点豌豆尖,煮面安逸得很"这类生活化表达,助力模型学习自然对话逻辑。
-
民俗文化场景:收录四川方言中的谚语、歇后语、民间故事、川剧唱词选段、茶馆摆龙门阵等特色内容,如"黄荆棍下出好人"“驼背子上山——前(钱)紧”等,为方言数字化传承提供核心素材。
-
专业领域场景:涵盖基础医疗咨询、政务服务对话、教育辅导交流等轻度专业内容,满足特定领域模型训练需求,如"医生,我这两天有点咳嗽,该吃啥子药哦"的医患对话片段。
-
情感表达场景:包含喜悦、愤怒、悲伤、疑惑等多情绪语音内容,如节日祝福的欢快表达、问题争议的激烈讨论等,助力模型学习方言情感识别能力。
2.3 说话人多样性
数据集包含200名以上不同特征的说话人,覆盖多维度多样性:
-
年龄分布:青少年(12-18岁)、青年(19-35岁)、中年(36-55岁)、老年(56岁以上),各年龄段占比均衡,确保数据对不同年龄层方言使用习惯的覆盖。
-
职业背景:涵盖学生、教师、工人、农民、医护人员、公务员等10余种职业,说话内容贴合各自职业场景,提升数据实用性。
-
性别比例:男女说话人比例约1:1,避免性别偏差对模型训练的影响。
-
语言熟练度:以母语为四川话的原生使用者为主,包含少量长期在四川生活的非原生熟练使用者,还原方言实际使用生态。
三、技术参数说明
3.1 音频文件(WAV)参数
|
参数项
|
参数值
|
说明
|
|---|---|---|
|
采样率
|
44.1kHz
|
满足语音识别与合成的高标准需求,保留完整语音细节
|
|
位深
|
16bit
|
精准呈现语音动态范围,降低噪声干扰
|
|
声道数
|
单声道
|
聚焦单一说话人语音,便于模型提取核心特征
|
|
信噪比
|
≥45dB
|
采用专业录音设备在安静环境下采集,后期经过降噪处理,语音清晰
|
|
单文件时长
|
5-60秒
|
避免文件过长导致的标注偏差,适配主流模型训练数据规格
|
3.2 描述文件(JSON)参数
每个音频文件对应1个JSON描述文件,采用UTF-8编码,包含以下核心字段,结构清晰易解析,可直接用于数据库导入与模型训练调用:
{
"utt": "test",
"filename": "test.wav",
"text": "我主要是喜欢你铁心交流的血性交流两万零五百怕点哎....."
}
四、数据集核心价值
4.1 大模型训练价值
提供足量、高质量的四川方言语音数据,解决目前方言大模型训练中“数据稀缺”的核心痛点。数据覆盖多地域、多场景、多人群,可有效提升方言语音识别、语音合成、情感分析等大模型的精度与泛化能力,适配智能音箱、方言翻译APP等终端产品开发。
4.2 数字化传承价值
系统收录四川方言的语音特征与文化内容,包含大量濒危的方言谚语、民间故事等素材,为四川方言的数字化存档、非遗保护提供权威、完整的数据支撑,助力方言文化在数字时代的传承与传播。
4.3 数据库与数据集开发价值
数据结构标准化,JSON描述文件字段完整,可直接用于构建四川方言语音数据库,支持数据检索、分类统计等功能开发。同时可作为基础数据集,衍生出情感方言数据集、地域差异方言数据集等细分产品。
看了又看
暂无推荐
验证报告
以下为卖家选择提供的数据验证报告:

四川方言语音识别数据包、大模型训练、四川方言数字化传承、方言数据库开发、语音识别/合成数据集训练
6.77GB
申请报告





