Li

verify-tag方言版语音识别

语音识别方言识别模型模型训练

50

已售 0
769.72MB

数据标识:D17455589855212777

发布时间:2025/04/25

数据描述

产品应用场景

1、多语言实时转录系统:适用于跨境会议、国际直播等场景,支持普通话、粤语、英语的无缝识别,结合抗噪音能力,可在嘈杂环境中实时生成多语言文字转录,降低人工翻译成本。
2、智能客服跨语言交互:集成于客服系统后,能同时处理普通话用户、粤语用户及英语用户的语音咨询,尤其适合粤港澳大湾区及外贸企业,提升多语言服务效率。
3、嘈杂环境语音交互设备:可嵌入智能音箱、车载语音助手等设备,在地铁、工地等噪音场景中准确识别用户指令,解决传统 ASR 模型在噪音下识别率骤降的问题。
4、方言文化保护与研究:通过高精度粤语识别能力,辅助方言学家分析粤语语音特征,或用于开发粤语语音输入法、方言学习 APP,推动方言数字化传承。

产品信息

● 核心功能:
  • 基于 Paraformer large 架构,支持 16k 采样率语音输入, vocab 扩展至 11666(含 kespeech、粤语特殊字);
  • 混合训练普通话 1w 小时、粤语 200 小时、英语 1w 小时及 kespeech 数据集,具备多语言无缝识别能力;
  • 加入噪音增强训练,抗环境噪音干扰,支持嘈杂场景下的语音识别;当前训练至 0.1 epoch,后续迭代可进一步优化。
    ● 技术参数:
  • 模型架构:Paraformer large(iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch);
  • 词汇表:vocab size 11666,新增粤语字符及 kespeech 专用词汇;
  • 训练数据:多语言混合(普 / 粤 / 英)+ 噪音增强,总数据量超 2w 小时;
  • 部署形式:PyTorch 模型,支持 funasr 框架直接调用,模型地址:dengcunqin/speech_paraformer_large_asr_mtl-16k-common-vocab11666-pytorch。
    ● 特色优势:
  • 多语言融合:无需切换模型即可识别普通话、粤语、英语,适合多语言混杂场景;
  • 抗噪鲁棒性:训练阶段注入多种噪音,在车载、展会等噪音环境中识别率比传统模型提升 30%+;
  • 可扩展性:通过扩展 vocab 支持方言及专业领域词汇,适配粤语歌识别、跨境电商客服等垂直场景;
  • 持续优化空间:当前 loss 仍有明显下降趋势,后续训练至收敛后识别准确率可进一步提升。

使用方法

1. 环境部署与模型加载

python
# 安装依赖
pip install funasr torch torchaudio

# 加载模型(需联网下载权重)
from funasr import AutoModel
model = AutoModel(
    model="dengcunqin/speech_paraformer_large_asr_mtl-16k-common-vocab11666-pytorch",
    model_revision="master"
)
 

2. 多语言音频识别

python
# 模型输入格式要求:16k采样率、单声道WAV文件
wav_root_url = "https://www.modelscope.cn/api/v1/models/dengcunqin/.../repo?Revision=master&FilePath="

# 测试普通话音频
res_cmn = model.generate(input=wav_root_url+"example/asr_example_普通话.wav")
print("普通话识别结果:", res_cmn)

# 测试粤语音频
res_yue = model.generate(input=wav_root_url+"example/asr_example_粤语.wav")
print("粤语识别结果:", res_yue)

# 测试带噪音的英语音频
res_eng = model.generate(input=wav_root_url+"example/asr_example_noise_英语.wav")
print("英语识别结果:", res_eng)
 

3. 自定义音频测试

python
# 本地音频路径需为16k采样率的WAV文件
local_wav = "/path/to/your/audio.wav"
res = model.generate(input=local_wav)

相似应用场景下的相似产品

注意事项

1、训练进度影响:当前仅训练 0.1 epoch,复杂句式或低资源语言(如粤语)识别准确率可能波动,建议关注后续版本更新(训练至 5+ epoch 后效果更稳定)。
2、音频格式要求:输入音频必须为 16k 采样率、单声道 WAV 文件,若使用其他格式(如 MP3)需先转换,否则可能导致识别错误。
3、多语言识别策略:模型通过上下文自动判断语言类型,但粤语与普通话混杂时可能出现误判(如 “食饭” 可能被识别为 “吃饭”),建议按语言分场景使用。
4、噪音鲁棒性边界:可抵抗 60dB 以下的稳态噪音(如空调声、背景音乐),但突发强噪音(如汽车鸣笛)可能导致识别中断,需结合前端降噪算法优化。
5、vocab 扩展限制:当前 vocab 已包含 11666 个字符,若需新增专业领域词汇(如粤语俚语),需重新训练模型,建议通过 ModelScope 平台提交微调需求。
以上内容从应用场景、技术细节到使用规范全面介绍了该多语言 ASR 模型。若需补充模型性能对比数据(如不同噪音分贝下的 WER 指标)或增加微调教程,可随时告知进行扩展。

验证报告

以下为卖家选择提供的数据验证报告:

data icon
方言版语音识别
50
已售 0
769.72MB
申请报告