DS数据代找

verify-tagCDConv中文对话一致性检测数据集

多轮对话多轮对话冲突中文对话一致性检测千言数据集

1

已售 0
642.11KB

数据标识:D17313834604678479

发布时间:2024/11/12

以下为卖家选择提供的数据验证报告:

数据描述

CDConv中文对话一致性检测数据集

作者:百度、黄民烈清华大学计算机科学与技术系长聘副教授,国家杰出青年科学基金获得者,
智能技术与系统实验室副主任百度、清华大学

数据集介绍

CDConv是第一个高质量中文对话一致性检测数据集,包含12K对话Session,覆盖多轮对话中的句内冲突、角色混淆、历史冲突等全面丰富的对话冲突类型。该数据采用一系列方法,通过模拟常见的用户行为来自动触发聊天机器人产生对话冲突,然后由人工标注得到具体冲突类型。聊天机器人采用领先的中文对话机器人百度PLATO和清华EVA。该数据集关注多轮对话中的内部冲突,更符合对话任务特点,可用于对话冲突检测和对话质量改善等相关研究。

数据预览

数据样例展示如下:
数据统计信息
EVA PLATO Total
对话Session(全部对话) 5,458 6,202 11,660
正例Session(无冲突对话) 3,233 4,076 7,309
负例Session(有冲突对话) 2,225 2,126 4,351
触发方法
短句:u2为无信息量的短句 1,121/395 1,121/395 1,121/395
设问-bot:u2对b1中的实体信息提问 1,609/983 1,609/983 1,609/983
设问-user:u2对u1中的实体信息提问 258/222 258/222 258/222
设问-user(-M):u2对u1中的实体信息提问 728/1,093 728/1,093 728/1,093
同义-回译:将u1翻译成英文、再回译成中文 1,808/837 1,808/837 1,808/837
同义-同义词:替换u1中的词为同义词 664/292 664/292 664/292
反义-反义词:替换u1中的词为反义词 504/246 504/246 504/246
反义-否定词:在u1中插入否定词 617/283 617/283 617/283
冲突类型
句内矛盾 12.20% 12.20% 12.20%
角色混淆 17.60% 17.60% 17.60%
与对话历史矛盾 70.20% 70.20% 70.20%
数据统计信息
人设类型
人物属性 47.70% 47.70% 47.70%
人物观点和偏好 21.50% 21.50% 21.50%
人物经历 28.60% 28.60% 28.60%
其它 2.20% 2.20% 2.20%
数据说明:
{
    u1 : USER的第1句话;
    b1 : BOT的第1句话;
    u2 : USER的第2句话;
    b2 : BOT的第2句话;
    model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型(编码器-解码器模型,各24层、共2.8B参数;plato为32层版本的模型,共1.6B参数);
    method : 表示u2的构造方法;
(短句:u2为无信息量的短句; 设问-bot:u2对b1中的实体信息提问; 设问-user(-v2):u2对u1中的实体信息提问; 同义-回译:将u1翻译成英文、再回译成中文;同义-同义词:替换u1中的词为同义词; 反义-反义词:替换u1中的词为反义词; 反义-否定词:在u1中插入否定词);
    label : 表示矛盾类型标注(0:无矛盾,1:b2句内矛盾,2:b2角色混淆,3:b2与对话历史矛盾);
    persona : 表示从人设角度,对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1:人物属性,2:人物观点和偏好,3:人物经历,0:其他);
}
data icon
CDConv中文对话一致性检测数据集
1
已售 0
642.11KB
申请报告