- 湘语方言学术研究:为语言学界提供长沙方言(hsn-Changsha)的真实语料,支持湘语声调、词汇演变及语法结构研究。例如通过分析对话中的 “呷饭”“何解” 等特色词汇,探究湘语与普通话的差异,助力方言谱系构建。
- 智能语音技术开发:为 AI 企业训练长沙方言语音识别模型提供数据支撑,推动方言智能助手、方言转文字工具的落地。如优化智能音箱对长沙话 “哦改搞”(怎么办)等指令的识别准确率。
- 地方文化传承应用:辅助长沙方言保护项目,为中小学方言课程、方言文化纪录片提供标准语料。例如通过对话中的长沙俚语、市井表达,还原本土生活场景,增强文化认同感。
- 数据规模:4.1 小时转录对话,含 2 位说话者的 6 次主题交流,覆盖日常生活、民俗文化等场景。
- 语言特征:聚焦长沙方言(湘语核心分支),包含 “入声韵”“浊音声母” 等典型语音特征及地方俗语。
- 数据形态:音频(WAV)与文本(TXT)对照,文本标注对话时间戳、说话人身份及方言词汇注释。
维度 |
详情 |
语言代码 |
hsn-Changsha(湘语 - 长沙话) |
音频规格 |
16kHz 采样率,16 位深度,单声道 |
文本格式 |
UTF-8 编码,带时间戳标注 |
录制条件 |
移动设备室内录制,环境噪声≤40dB |
- 语料真实性:自发对话场景还原日常交流,避免朗读式语料的失真,如包含插话、重复等自然语言特征。
- 地域针对性:聚焦长沙城区方言,覆盖河东、河西口音差异,适合本地化应用开发。
- 多场景覆盖:对话主题涉及饮食、方言童谣、节庆习俗等,兼具语言与文化研究价值。
语音分析:用 Praat 软件提取声调曲线,对比长沙话 6 个声调与普通话的差异(如阳平调值 24)。
词汇统计:通过 Python 结巴分词工具,建立长沙方言特色词汇库(如 “灵泛”“绊矮” 等)。
数据预处理:用 WeNet 框架切分音频片段,对齐文本标注,构建训练集 / 验证集 / 测试集(比例 8:1:1)。
模型优化:在 Transformer 架构中加入方言声学模型,针对 “n/l 不分”“平翘舌混淆” 等难点调整参数。
听力素材:截取对话中 “长沙童谣” 片段,制作带拼音注释的学习音频,辅助方言发音教学。
互动练习:根据对话场景设计角色扮演任务,如模拟 “菜市场砍价” 对话,强化口语应用。
- 方言变体处理:长沙话存在 “老派”“新派” 差异(如老派保留入声韵尾),使用时需标注说话人年龄层。
- 噪声消除:移动设备录制可能包含空调声等背景音,建议用 Spleeter 工具进行降噪预处理。
- 文本校准:自发对话中 “呷”“冇” 等字易转录错误,需结合《长沙方言词典》人工校验 10% 样本。
- 版权声明:数据集仅限科研与非商业用途,商业使用需联系湖南省语言资源保护中心获取授权。