总共有上万小时规模的同类四川方言数据,本篇文档所述 68.6 小时版本是为了线上交付方便,有需要的朋友直接拍下即可,如需更多请联系 450792304@qq.com。
参考数据集:四川方言语音识别数据集
引言与背景
四川方言在日常生活、短视频内容、电商直播以及本地服务场景中极为常见,但在主流语音识别模型中的覆盖与适配度相对有限,这直接影响到实际业务中对四川地区用户语音的理解效果。要系统提升模型对四川口音普通话及本地方言表达的识别准确率,亟需一套规模适中、标注规范且包含完整原始音频文件的高质量数据集。本数据集正是面向这一需求构建的四川方言语音识别训练数据集。
本数据集由 28000 条记录 构成,总音频时长约 68.6 小时。每条记录对应一个独立的四川方言或带四川口音的普通话语音片段及其精确文本转写。数据以目录为单元组织,每个目录内包含一对一对应的 WAV 格式音频文件 与 JSON 格式标注文件。标注文件采用统一结构,主要由 utt(句元编号)、filename(音频文件名)和 text(对应的中文转写文本)三部分组成,结构简洁清晰,便于直接用于科研实验与工业系统的训练管线。
从内容来看,语料覆盖了美食探店、城市故事、聊天对话、促销介绍、日常抱怨、情绪表达等多种真实口语场景,既保留了四川方言中常见的语气词与习惯表达,又整体使用规范汉字进行转写,为语音识别、方言建模和口语理解提供了兼具自然性与可读性的研究材料。整体而言,该数据集既适用于学术界在方言识别、口音鲁棒性、语音表示学习等方向的研究,也适用于工业界搭建面向四川用户群体的语音交互、语音搜索、内容理解及推荐系统。
数据基本信息与字段说明
数据规模与构成概览
- 记录条数:28000 条
- 音频文件数:28000 个(与标注一一对应)
- 音频格式:WAV
- 标注格式:JSON(UTF-8 编码)
- 组织结构:
- 顶层为若干子目录,每个子目录名称形如
编号_起始时间_结束时间(如128_30000_58150、cq00005666_121420_127270等); - 每个子目录内包含一条音频及其对应标注,例如:
128_30000_58150.wav+128_30000_58150.jsoncq00005666_121420_127270.wav+cq00005666_121420_127270.json
- 顶层为若干子目录,每个子目录名称形如
- 内容类型:四川方言/四川口音普通话音频 + 对应逐句转写文本
- 标注粒度:以句级/语音片段为单位的转写标注,不含额外时轴或说话人分段标签(可通过文件名中时间信息进一步推断片段位置)
字段说明表
对所有 28000 条 JSON 标注文件进行了全量扫描,统计结果表明每个字段在所有记录中都完整存在(缺失数为 0)。字段说明如下:
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---|---|---|---|---|
utt |
string | 句元编号/语音片段唯一标识,通常与目录名一致 | 128_30000_58150、cq00005666_121420_127270 |
100%(0/28000 缺失) |
filename |
string | 对应的音频文件名(WAV 文件),与同目录下文件一一对应 | 128_30000_58150.wav、cq00005666_121420_127270.wav |
100%(0/28000 缺失) |
text |
string | 四川方言或带四川口音普通话的转写文本内容 | 他们十几年的施工团队专业且负责材料家具家电方面更不用说超大独栋大楼整整三层全是工厂旗舰店儿厂家直接入住都是一线大品牌儿几万件产品随便挑… 等长短句不等 |
100%(0/28000 缺失,均非空) |
可以看到,数据结构高度统一,字段设计紧贴语音识别训练的核心需求:通过 utt 与 filename 精确索引音频,通过 text 提供可靠的监督信号。这种简洁、稳定的字段设计非常利于批量处理和高效加载。
数据分布情况
文本长度统计(基于全量 28000 条)
- 文本长度最小/平均/最大:1 / 41.34 / 758 字符
- 长度分布(字符数)
| 区间 (字符) | 记录数 | 占比 |
|---|---|---|
| (0,10] | 4114 | 14.69% |
| (10,20] | 8952 | 31.97% |
| (20,30] | 4311 | 15.40% |
| (30,40] | 2341 | 8.36% |
| (40,60] | 2521 | 9.00% |
| (60,80] | 1379 | 4.93% |
| (80,120] | 1676 | 5.99% |
| (120,200] | 2668 | 9.53% |
| (200,400] | 34 | 0.12% |
| (400,1000] | 4 | 0.01% |
音频时长统计(基于全量 28000 条)
- 单条音频时长最小/平均/最大:2.048 s / 8.82 s / 30.592 s
- 总音频时长:约 68.6 小时(68.57 h)
- 时长分布(秒)
| 区间 (秒) | 记录数 | 占比 |
|---|---|---|
| (0,2] | 0 | 0.00% |
| (2,4] | 10661 | 38.08% |
| (4,6] | 5125 | 18.30% |
| (6,8] | 3061 | 10.93% |
| (8,12] | 3021 | 10.79% |
| (12,20] | 2579 | 9.21% |
| (20,30] | 1477 | 5.28% |
| (30,60] | 2076 | 7.41% |
| (60,120] | 0 | 0.00% |
文本与时长分布显示,本数据集主要由 2–12 秒的短语音组成,文本长度集中在 10–60 字符区间,既适合端到端 ASR 训练,也利于对齐与数据增强操作。
数据优势分析
优势特征表
| 优势特征 | 具体表现 | 应用价值 |
|---|---|---|
| 含完整原始音频文件 | 每条记录都提供对应的 *.wav 文件,共 28000 条音频,与 JSON 标注一一对应,保证语音信号的完整性和可重复处理能力 |
可直接用于端到端 ASR 模型训练、声学建模、声码器与 TTS 训练、声纹和说话风格分析等多种任务 |
| 标注结构统一且完整 | 所有 JSON 文件均包含 utt、filename、text 三个字段,字段缺失率为 0,文本内容完整、连贯 |
降低数据清洗成本,便于快速构建训练/验证/测试拆分与数据加载脚本,减少工程复杂度 |
| 真实四川方言/口音场景 | 文本内容涵盖美食、出行、闲聊、宣传、故事讲述等多种生活场景,保留大量四川方言特色词汇和语气 | 有利于提升模型对真实用户语音、短视频解说、电商直播口语等场景的理解能力,增强模型在四川地区的落地效果 |
| 规模适中、易于实验迭代 | 28000 条语音-文本对既具备一定规模,又不会带来过重的存储和计算压力 | 适合用于模型原型验证、算法对比实验、小规模预训练与精调等任务,在有限算力环境下也能高效利用 |
| 组织清晰,易于自动化处理 | 统一的目录命名规范(编号_起始时间_结束时间),简单明确的文件对应关系 |
方便批量脚本扫描、切分、重采样和标注转换,也易于在数据湖或数据管理平台中进行版本管理和溯源 |
特别需要强调的是,本数据集随标注一同提供了完整的原始 WAV 音频文件,这在很多仅开放文本转写或抽样音频的公开方言数据集中并不常见,使得本数据集在训练端到端模型、进行声学和韵律研究时具有明显优势。
数据样例展示
说明:由于原始 WAV 音频文件总体数据量较大,本文仅展示部分 标注元数据与文本转写样例,不直接嵌入音频文件本体。实际数据集中,每条样例均配有完整的原始 WAV 音频文件,可根据
filename字段在对应目录中获取并加载。
以下样例均为 “音频 + JSON 标注”组合中的 JSON 元数据与文本内容样例,展示了数据集中语料在内容、风格和长度上的多样性。
-
元数据样例 1(餐饮场景 + 口语推广)
utt:128_30000_58150filename:128_30000_58150.wavtext:他们十几年的施工团队专业且负责材料家具家电方面更不用说超大独栋大楼整整三层全是工厂旗舰店儿厂家直接入住都是一线大品牌儿几万件产品随便挑三楼更是拥有三千片定制工厂馆儿想让自家装修有多个性都能有多个性而且现在家博会活动又给力平时要花二三十万才能达到的装修效果那次可能十二三万都能搞定所以最近需要装修的朋友都可以来看看哦
-
元数据样例 2(美食探店 + 四川口语)
utt:1111_0_16450filename:1111_0_16450.wavtext:烂蓬蓬下面总有好味道儿那家店儿的土鸡鱼都是现称现弄的酸萝卜泡椒都是各种骨头汤汤儿泡的还都在店门口名单给你炒作料那个锅上桌之后还要小火熬十五分钟才能倒鱼他们倒鱼那个机器真的有点儿洋气哦好科学哟
-
元数据样例 3(方言短句 + 食材描述)
utt:cq00005666_121420_127270filename:cq00005666_121420_127270.wavtext:哦辣哦虾米是吧这是虾米啊这是虾米炸的油虾米
-
元数据样例 4(优惠信息简短播报)
utt:cq00005567_35620_39100filename:cq00005567_35620_39100.wavtext:对退役军人医护人员免费
-
元数据样例 5(美食推荐 + 粉丝互动)
utt:cq00005360_149000_159180filename:cq00005360_149000_159180.wavtext:啊今天来吃他们的哈是也是粉丝推荐的第一家谈笑免了嘛也是粉丝推荐的第一家摊小面哈
-
元数据样例 6(点餐行为描述)
utt:cq00005447_45830_47950filename:cq00005447_45830_47950.wavtext:那我们搞个梯坎面哈面哈
-
元数据样例 7(日常生活与天气抱怨)
utt:cq00001434_65030_77700filename:cq00001434_65030_77700.wavtext:是不是啊哎呦呦前两天被热死了今天被冷死了我讲厚衣服在宁波了我真的是送我件衣服吧再送我一件就不要迪奥了好不好小姐姐你不要这么绝对嘛说话嘛说话
-
元数据样例 8(配料与口语插入)
utt:cq00005417_165160_169230filename:cq00005417_165160_169230.wavtext:再加了丝儿哈加了丝儿加了海苔找了啥字儿
-
元数据样例 9(历史/地理讲述片段)
utt:cq00003884_190950_205060filename:cq00003884_190950_205060.wavtext:那么那一场打的哪点呢也就是现在的三峡大坝以下各州大坝以以上中中间间长江拐弯的地方那个地方叫石牌石盘
-
元数据样例 10(渠道与疑问语气)
utt:cq00005443_80040_84110filename:cq00005443_80040_84110.wavtext:这个渠道那我更应该没有噻
-
元数据样例 11(行动说明与时间表达)
utt:cq00005702_39840_43530filename:cq00005702_39840_43530.wavtext:你找一下这个锅都快到了哈我出去哈好久不到
-
元数据样例 12(城市文化与历史叙述)
utt:cq00004046_60990_85390filename:cq00004046_60990_85390.wavtext:所以说在白象街你们现在去看那一边的古建筑群还有历史文物一层很多层面都在那里要说下半城也是重庆的发祥地更是我们重庆渝中区打出的最珍贵的那个母城文化的发源再加上北下街那一截又是长江大码头码头水运又发达当时北下街那一截都被称为不夜城城
-
元数据样例 13(口味评价)
utt:cq00005479_269920_275240filename:cq00005479_269920_275240.wavtext:胡椒提鲜堪设新年味道鲜美葱花多了一点点儿
-
元数据样例 14(日常试吃与方言表达)
utt:cq00001142_0_6330filename:cq00001142_0_6330.wavtext:我们那个四川的白菜可以吃生的行不行是不真的吃生的明甜甜的很那就试下吧
-
元数据样例 15(口味与情绪表达)
utt:cq00001684_260120_262910filename:cq00001684_260120_262910.wavtext:终于晓得他为啥子要限量了感到傲娇那个
-
元数据样例 16(口味调整与视觉感受)
utt:cq00005687_194970_199430filename:cq00005687_194970_199430.wavtext:淡淡一点哈再红红脸一点整个看起有食欲感一些一些
这些样例展示了从极短句到多句连说的全谱覆盖,也体现了四川地区常见语气词和口头习惯表达,为模型学习方言韵律与口语连读现象提供了丰富素材。
应用场景
1. 四川方言自动语音识别(ASR)模型训练与评测
对于希望在四川地区部署语音交互系统的企业或研究机构而言,构建一套能够准确识别四川方言及四川口音普通话的 ASR 模型是基础前提。本数据集提供了 28000 条一一对应的 WAV 原始音频 + 文本转写,覆盖了从生活对话、美食点评到宣传推介等多种真实语境,为端到端 ASR 模型的训练提供了高质量监督信号。开发者可以直接将 JSON 中的 text 作为目标序列,将 filename 所指向的 WAV 文件作为输入音频,构建 CTC、RNN-T 或 Transformer-Transducer 等主流架构的训练样本。在评测阶段,还可以利用不同前缀来源(如 digit 与 cq)切分出独立验证集与测试集,对比模型在不同录制场景下的鲁棒性与泛化能力。由于音频为完整保存的原始 WAV 文件,研究者也可以自由调整采样率、进行数据增强或噪声混入,为模型在嘈杂环境下的性能优化提供更多空间。
2. 通用普通话识别模型的四川口音自适应与鲁棒性增强
很多通用普通话语音识别系统在面对四川口音时往往出现识别错误集中、误分词和错字率偏高的问题。本数据集可作为通用普通话模型进行口音自适应(Accent Adaptation)的优质补充语料。典型做法包括:在已有大规模普通话预训练模型基础上,使用本数据集进行微调,将模型的声学空间在四川口音样本附近进行重新分布;或者在多任务学习框架中引入四川方言数据作为辅助任务,提升模型在多口音环境下的鲁棒性。由于本数据集全部音频均以 WAV 格式提供,研究者可以针对四川方言中常见的语速较快、连读明显、语气词密集等特征,设计专门的数据增强策略,如时间拉伸、音高调整或插入噪声等,从而使模型在真实方言场景下的表现更加稳定可靠。此外,通过对比同一句式在普通话与四川口音中的声学与文本差异,还可以进一步研究方言对语音表征空间的影响,为构建多方言统一语音表示提供实证依据。
3. 多口音语音合成(TTS)与风格迁移建模
除语音识别外,本数据集也非常适合用于多口音语音合成(TTS)和说话风格迁移的研究。尽管本数据集未在标注中显式区分说话人 ID,但依托目录与文件名等信息,研究者可以结合声纹聚类或说话人嵌入提取方法,对不同录音场景或声音特征进行自动聚类,构建近似“多说话人、多场景”的四川方言语音素材库。基于完整的 WAV 音频及 text 文本,可以训练 Tacotron、FastSpeech 或 VITS 等现代 TTS 模型,使其具备生成带有四川口音特征的合成语音能力。进一步地,可以将通用普通话 TTS 模型作为基座,通过在本数据集上的再训练或风格编码器微调,实现从普通话到四川口音的风格迁移,让同一文本能够以多种地域口音进行自然朗读。对于需要在短视频解说、电商直播导航或方言故事类内容中使用四川口音合成音频的应用场景,本数据集提供了兼具规模与真实性的训练基础。
4. 方言语言学研究与口语表达特征分析
对于语言学与社会语言学研究者,本数据集同样具有重要价值。大量转写文本中保留了四川方言的典型词汇与语气词,如“哈”“嘛”“噻”“晓得”“洋气哦”等,同时在句式结构上体现出方言口语常见的重复、连用和语序调整现象。通过对 28000 条 text 字段的系统分析,可以统计特定方言词汇的频次、共现关系与搭配模式,并与普通话语料进行比对,揭示四川方言在语音、词汇与句法层面的系统性差异。此外,由于每条文本都对应一段真实音频,研究者还可以从声学角度分析方言语音的韵律特征,如重音分布、语调轮廓、停顿位置与语速变化等。这些分析不仅有助于丰富现代汉语方言研究的实证资料,也能为更贴近真实口语的自然语言理解模型提供数据支撑。
5. 语音内容理解、检索与推荐系统中的方言数据支撑
在短视频平台、电商平台及本地生活服务应用中,大量内容创作者使用四川方言或四川口音普通话进行讲解与表达。要实现对这类内容的自动字幕生成、语音检索、主题归类与个性化推荐,需要模型能够准确将方言语音映射为可解析的文本,并进一步进行语义建模。本数据集提供的 28000 条四川方言音频及文本转写,为构建这类语音内容理解系统提供了直接可用的训练与评估语料。开发者可以先基于本数据集训练或适配 ASR 模型,再将识别结果输入到下游的分词、实体识别、情感分析和主题分类模型中,实现从“语音—文本—语义—推荐”的完整链路。在检索场景中,也可以利用 utt 与 filename 字段建立音频索引,支持按文本内容或语音特征进行多模态检索,实现“说方言找视频”“用四川话搜索相关内容”等更贴近本地用户习惯的交互方式。
结语与使用提示
综上所述,本四川方言语音识别训练数据集以 28000 条完整 WAV 音频与 JSON 文本标注一一对应 为基础,提供了覆盖丰富生活场景的四川方言和四川口音普通话语料,在数据结构规范性、标注完整性以及原始音频可用性方面均具备显著优势。对于语音识别、语音合成、多口音建模、语言学研究以及语音内容理解与推荐等多种应用方向,本数据集都能提供扎实可靠的基础数据支撑。尤其是完整保留的原始音频文件,使得研究者与工程师可以灵活设计声学特征提取、数据增强和多任务学习方案,充分释放数据在模型精度提升与应用创新方面的潜力。
在具体使用过程中,建议根据项目需求合理划分训练集、验证集与测试集,必要时结合自身业务数据进行跨域或跨场景对比实验。如果数据集的使用涉及商业化部署或对外服务,应结合实际情况确认相关使用条款和授权边界,确保合规与安全。在不违反平台与数据使用规范的前提下,如需进一步的统计细节或辅助脚本,可在技术交流中约定共享方式,有需要也可以通过私信等渠道获取更多信息与支持。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






