Y-Y-D

verify-tag四川方言语音识别数据包、大模型训练、四川方言数字化传承、方言数据库开发、语音识别/合成数据集训练

大模型方言四川数据库语音识别

300

已售 0
6.77GB

数据标识:D17654450315334058

发布时间:2025/12/11

数据描述

一、数据集基础信息

项目
详情
数据名称
100小时高质量四川话音频数据集
数据规模
总时长100小时,包含音频文件及对应描述文件
文件格式
音频文件:WAV格式;描述文件:JSON格式
数据来源
专业录音采集,涵盖四川多地原生方言使用者,经过严格质量校验与筛选
适用场景
大模型训练、四川方言数字化传承、方言数据库开发、语音识别/合成数据集训练等

二、数据集内容特性

2.1 方言覆盖范围

数据集全面覆盖四川方言核心使用区域,包括成都主城区及周边区县、重庆主城区(川渝方言同源核心区)、川南(泸州、宜宾)、川北(南充、绵阳)、川西(乐山、雅安)等代表性区域,涵盖不同地域四川话的语音语调差异,如成都话的温和软糯、重庆话的刚劲直白、川南话的独特韵母等,确保数据的地域代表性与多样性。

2.2 内容场景丰富度

  • 日常交流场景:包含家庭对话、邻里闲聊、购物沟通、职场交流等高频生活场景,内容贴近实际使用,如"今天去菜市场买了点豌豆尖,煮面安逸得很"这类生活化表达,助力模型学习自然对话逻辑。
  • 民俗文化场景:收录四川方言中的谚语、歇后语、民间故事、川剧唱词选段、茶馆摆龙门阵等特色内容,如"黄荆棍下出好人"“驼背子上山——前(钱)紧”等,为方言数字化传承提供核心素材。
  • 专业领域场景:涵盖基础医疗咨询、政务服务对话、教育辅导交流等轻度专业内容,满足特定领域模型训练需求,如"医生,我这两天有点咳嗽,该吃啥子药哦"的医患对话片段。
  • 情感表达场景:包含喜悦、愤怒、悲伤、疑惑等多情绪语音内容,如节日祝福的欢快表达、问题争议的激烈讨论等,助力模型学习方言情感识别能力。

2.3 说话人多样性

数据集包含200名以上不同特征的说话人,覆盖多维度多样性:
  • 年龄分布:青少年(12-18岁)、青年(19-35岁)、中年(36-55岁)、老年(56岁以上),各年龄段占比均衡,确保数据对不同年龄层方言使用习惯的覆盖。
  • 职业背景:涵盖学生、教师、工人、农民、医护人员、公务员等10余种职业,说话内容贴合各自职业场景,提升数据实用性。
  • 性别比例:男女说话人比例约1:1,避免性别偏差对模型训练的影响。
  • 语言熟练度:以母语为四川话的原生使用者为主,包含少量长期在四川生活的非原生熟练使用者,还原方言实际使用生态。

三、技术参数说明

3.1 音频文件(WAV)参数

参数项
参数值
说明
采样率
44.1kHz
满足语音识别与合成的高标准需求,保留完整语音细节
位深
16bit
精准呈现语音动态范围,降低噪声干扰
声道数
单声道
聚焦单一说话人语音,便于模型提取核心特征
信噪比
≥45dB
采用专业录音设备在安静环境下采集,后期经过降噪处理,语音清晰
单文件时长
5-60秒
避免文件过长导致的标注偏差,适配主流模型训练数据规格

3.2 描述文件(JSON)参数

每个音频文件对应1个JSON描述文件,采用UTF-8编码,包含以下核心字段,结构清晰易解析,可直接用于数据库导入与模型训练调用:

{

    "utt": "test",

    "filename": "test.wav",

    "text": "我主要是喜欢你铁心交流的血性交流两万零五百怕点哎....."

}

四、数据集核心价值

4.1 大模型训练价值

提供足量、高质量的四川方言语音数据,解决目前方言大模型训练中“数据稀缺”的核心痛点。数据覆盖多地域、多场景、多人群,可有效提升方言语音识别、语音合成、情感分析等大模型的精度与泛化能力,适配智能音箱、方言翻译APP等终端产品开发。

4.2 数字化传承价值

系统收录四川方言的语音特征与文化内容,包含大量濒危的方言谚语、民间故事等素材,为四川方言的数字化存档、非遗保护提供权威、完整的数据支撑,助力方言文化在数字时代的传承与传播。

4.3 数据库与数据集开发价值

数据结构标准化,JSON描述文件字段完整,可直接用于构建四川方言语音数据库,支持数据检索、分类统计等功能开发。同时可作为基础数据集,衍生出情感方言数据集、地域差异方言数据集等细分产品。

看了又看

暂无推荐

验证报告

以下为卖家选择提供的数据验证报告:

data icon
四川方言语音识别数据包、大模型训练、四川方言数字化传承、方言数据库开发、语音识别/合成数据集训练
300
已售 0
6.77GB
申请报告