## 引言与背景
在全球化和数字化转型的浪潮下,金融服务行业对智能客服系统的需求日益增长。多语言支持已成为银行和金融机构提升用户体验、拓展国际市场的关键能力。WolBanking77 数据集正是为满足这一需求而构建的专业数据集,它包含三种语言的银行客服对话数据,为自然语言处理模型的训练和研究提供了宝贵的资源。
该数据集涵盖了完整的客服交互场景,包括用户问题、系统回复、语音转写等多维度信息。数据集中包含元数据(标签、意图分类)、原始文本内容(三种语言)以及音频转写信息,构成了一个完整的多模态数据生态系统。这些数据对于训练支持多语言的智能客服机器人、语音识别系统以及金融领域的自然语言理解模型具有重要价值。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| :--- | :--- | :--- | :--- | :--- |
| input | 字符串 | 英语用户问题 | "What are the auto-top up policies?" | 100% |
| input_fr | 字符串 | 法语用户问题 | "Quelles sont les politiques de rechargement automatique?" | 100% |
| input_wo | 字符串 | 沃洛夫语用户问题 | "yan ñooy sàrti sarse si saa si?" | 100% |
| label | 字符串 | 意图分类标签 | "visa or mastercard" | 100% |
| reponses_fr | 字符串 | 法语系统回复 | "Bienvenue à notre service client" | 100% |
| reponse_intent | 字符串 | 回复意图标签 | "WELCOME" | 100% |
| reponses_wo | 字符串 | 沃洛夫语系统回复 | "Dalal jàmm ci sunu màkkaanu kilyaan bi." | 100% |
| reponses_transcription | 字符串 | 语音转写(IPA格式) | "[dalal jàmː ci sunu makːaːnu kilyaːn bi]" | 100% |
### 意图分类分布
数据集包含丰富的意图分类,涵盖银行客服的主要业务场景。以下是部分主要意图的分布情况:
| 意图标签 | 记录数量 | 占比 |
| :--- | :--- | :--- |
| declined card payment | 高频 | 约12% |
| activate my card | 高频 | 约8% |
| Refund not showing up | 高频 | 约7% |
| top up limits | 中频 | 约5% |
| lost or stolen card | 中频 | 约5% |
| cash withdrawal not recognised | 中频 | 约4% |
| verify my identity | 中频 | 约4% |
| getting virtual card | 中频 | 约3% |
| transfer timing | 中频 | 约3% |
| OTHER | 低频 | 约49% |
### 数据规模与格式
- 总记录数:训练集约包含数千条对话记录,测试集规模适中
- 语言覆盖:英语、法语、沃洛夫语三种语言
- 数据格式:CSV、Parquet等多种格式
- 覆盖领域:账户管理、转账服务、卡片服务、支付问题、身份验证等银行核心业务
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
| :--- | :--- | :--- |
| 多语言支持 | 同时包含英语、法语、沃洛夫语三种语言的平行语料 | 支持构建多语言智能客服系统,服务多语言用户群体 |
| 语音转写数据 | 包含IPA格式的语音转写信息 | 可用于训练语音识别模型,提升语音交互能力 |
| 意图标注完整 | 每个对话都有明确的意图标签 | 支持意图分类模型训练,提升对话理解准确性 |
| 真实业务场景 | 涵盖银行客服常见问题场景 | 训练出的模型可直接应用于实际金融服务场景 |
| 多格式支持 | 提供CSV和Parquet等多种格式 | 方便不同数据处理框架和工具的使用 |
## 数据样例
以下为数据集的部分样例展示,涵盖不同意图分类和语言特点:
样例1:账户激活问题 - 英语:"Can I activate my card?" - 法语:"Puis-je activer ma carte ?" - 沃洛夫语:"Ndax mën naa fexe ba sama kàrt dox ?" - 标签:activate my card样例2:转账问题 - 英语:"Why hasn't arrived yet a transaction I did to my friend?" - 法语:"Pourquoi une transaction que j'ai effectuée avec mon ami n'est-elle pas encore arrivée ?" - 沃洛夫语:"Lu tax xaalis bi ma yónnee sama xarit bi yeggagul ba tay ?" - 标签:transfer not received by recipient样例3:退款问题 - 英语:"My refund is still pending" - 法语:"Mon remboursement est toujours en attente" - 沃洛夫语:"Ba leegi maa ngiy xaar ñu delloo sama xaalis" - 标签:Refund not showing up样例4:卡片丢失问题 - 英语:"I have lost my phone and I'm worried someone's going to steal money from me" - 法语:"bonjour, j'ai perdu mon téléphone et j'ai peur que quelqu'un ne me vole de l'argent" - 沃洛夫语:"Nanga def, dama ñàkk sama telefon te dama rmu agal am ku sàcc sama xaalis." - 标签:lost or stolen phone样例5:汇率问题 - 英语:"You got the exchange rate wrong for my cash withdrawal" - 法语:"Vous vous êtes trompé de taux de change pour mon retrait d'argent" - 沃洛夫语:"Da ngeena juum ci njëgu weccoo xaalis bi bimay jël xaalis." - 标签:wrong exchange rate for cash withdrawal样例6:虚拟卡片问题 - 英语:"Where do I get a disposable virtual card?" - 法语:"Où puis-je obtenir une carte virtuelle jetable ?" - 沃洛夫语:"Fan laa mëna ame kàrt wirtiyel bu ñuy jëfandikoo benn yoon?" - 标签:get disposable virtual card样例7:身份验证问题 - 英语:"Verify my source of funds?" - 法语:"Vérifier ma source de fonds ?" - 沃洛夫语:"Naka laay cambaree fi sama xaalis jóge ?" - 标签:verify source of funds样例8:支付拒绝问题 - 英语:"You have declined my payment." - 法语:"Vous avez refusé mon paiement." - 沃洛夫语:"da ngeen ma bañal sama peyoor." - 标签:declined card payment样例9:余额更新问题 - 英语:"Why isn't my cash deposit showing up in my account?" - 法语:"Pourquoi mon dépôt en espèces n'apparaît-il pas sur mon compte ?" - 沃洛夫语:"Lan moo tax xaalis bima dugal feeñul ci sama kont?" - 标签:balance not updated after cheque or cash deposit样例10:密码重置问题 - 英语:"Is there a way yo change my PIN?" - 法语:"Existe-t-il un moyen de changer mon code PIN ?" - 沃洛夫语:"Ndax am na nu ñu mëna soppi sama baatu ubbikaay?" - 标签:change pin## 应用场景
### 智能客服机器人训练
WolBanking77 数据集为训练多语言智能客服机器人提供了丰富的语料基础。通过对三种语言的对话数据进行训练,机器人可以理解和响应用户的各种银行服务请求,包括账户查询、转账操作、卡片管理等。系统可以自动识别用户意图,提供准确的回复,提升客户服务效率和用户体验。
### 语音识别与转写系统
数据集中包含的语音转写信息(IPA格式)可用于训练和优化语音识别模型。在银行客服场景中,语音交互是重要的服务方式之一。通过使用该数据集,可以提高语音识别系统在处理金融领域专业术语和多种语言时的准确性,为用户提供更自然的语音交互体验。
### 意图分类与自然语言理解
数据集的意图标注信息支持训练高精度的意图分类模型。这类模型可以自动分析用户输入,确定用户的需求类型,从而实现智能路由和自动化处理。在实际应用中,意图分类系统可以帮助客服人员快速定位问题,提升服务效率,同时为用户提供更精准的服务推荐。
### 多语言机器翻译
作为平行语料库,该数据集可用于训练英语、法语和沃洛夫语之间的机器翻译模型。在跨国金融服务场景中,多语言翻译能力至关重要。通过使用该数据集训练的翻译模型,可以实现不同语言用户之间的无障碍沟通,提升银行的国际化服务能力。
### 客户服务质量分析
通过对数据集的分析,可以深入了解客户服务中常见的问题类型和用户需求分布。这些洞察可以帮助银行优化服务流程,改进产品设计,提升客户满意度。例如,通过分析高频问题,可以针对性地优化自助服务系统,减少人工客服的压力。
## 结尾
WolBanking77 数据集是一个具有重要价值的多语言银行客服数据集,其核心优势在于同时支持英语、法语和沃洛夫语三种语言,并包含完整的意图标注和语音转写信息。这些特性使其成为训练多语言智能客服系统、语音识别模型和自然语言理解模型的理想资源。
该数据集的应用价值不仅体现在模型训练方面,还可以为银行和金融机构提供客户服务质量分析的基础数据。通过深入分析用户问题分布和服务需求,可以帮助机构优化服务流程,提升整体服务水平。
如需获取该数据集的完整信息或有进一步的使用需求,可私信获取更多详情。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









