Li

verify-tag方言版语音识别

语音识别方言识别模型模型训练

50

已售 0
769.72MB

数据标识:D17455589855212777

发布时间:2025/04/25

以下为卖家选择提供的数据验证报告:

数据描述

模型介绍

基于Paraformer large(iic/speech_paraformer-large_asr_nat-zh-cn-16k-common-vocab8404-pytorch),更换vocab为11666,增加kespeech以及粤语部分字,通过在普通话1w小时、粤语200小时、英语1w小时+整个kespeech train音频数据集上进行训练,当前版本为训练0.1 epoch。语音数据混合合并训练,并且增加噪音,所以模型可无缝识别多语言,抗噪音能力较强。

训练loss如下图,可见loss下降空间仍很大,继续训练效果应该挺不错的。

测试代码

from funasr import AutoModel model = AutoModel(model="dengcunqin/speech_paraformer_large_asr_mtl-16k-common-vocab11666-pytorch", model_revision="master" ) wav_root_url="https://www.modelscope.cn/api/v1/models/dengcunqin/speech_paraformer_large_asr_mtl-16k-common-vocab11666-pytorch/repo?Revision=master&FilePath=" res = model.generate(input=wav_root_url+"example/asr_example.wav") print(res) res = model.generate(input=wav_root_url+"example/asr_example_普通话.wav") print(res) res = model.generate(input=wav_root_url+"example/asr_example_粤语.wav") print(res)
data icon
方言版语音识别
50
已售 0
769.72MB
申请报告