以下为卖家选择提供的数据验证报告:
数据描述
CDConv中文对话一致性检测数据集
作者:百度、黄民烈清华大学计算机科学与技术系长聘副教授,国家杰出青年科学基金获得者,
智能技术与系统实验室副主任百度、清华大学
数据集介绍
CDConv是第一个高质量中文对话一致性检测数据集,包含12K对话Session,覆盖多轮对话中的句内冲突、角色混淆、历史冲突等全面丰富的对话冲突类型。该数据采用一系列方法,通过模拟常见的用户行为来自动触发聊天机器人产生对话冲突,然后由人工标注得到具体冲突类型。聊天机器人采用领先的中文对话机器人百度PLATO和清华EVA。该数据集关注多轮对话中的内部冲突,更符合对话任务特点,可用于对话冲突检测和对话质量改善等相关研究。
数据预览
数据样例展示如下:

数据统计信息
— | EVA | PLATO | Total |
---|---|---|---|
对话Session(全部对话) | 5,458 | 6,202 | 11,660 |
正例Session(无冲突对话) | 3,233 | 4,076 | 7,309 |
负例Session(有冲突对话) | 2,225 | 2,126 | 4,351 |
触发方法 | — | — | — |
---|---|---|---|
短句:u2为无信息量的短句 | 1,121/395 | 1,121/395 | 1,121/395 |
设问-bot:u2对b1中的实体信息提问 | 1,609/983 | 1,609/983 | 1,609/983 |
设问-user:u2对u1中的实体信息提问 | 258/222 | 258/222 | 258/222 |
设问-user(-M):u2对u1中的实体信息提问 | 728/1,093 | 728/1,093 | 728/1,093 |
同义-回译:将u1翻译成英文、再回译成中文 | 1,808/837 | 1,808/837 | 1,808/837 |
同义-同义词:替换u1中的词为同义词 | 664/292 | 664/292 | 664/292 |
反义-反义词:替换u1中的词为反义词 | 504/246 | 504/246 | 504/246 |
反义-否定词:在u1中插入否定词 | 617/283 | 617/283 | 617/283 |
冲突类型 | — | — | — |
---|---|---|---|
句内矛盾 | 12.20% | 12.20% | 12.20% |
角色混淆 | 17.60% | 17.60% | 17.60% |
与对话历史矛盾 | 70.20% | 70.20% | 70.20% |
数据统计信息
人设类型 | — | — | — |
---|---|---|---|
人物属性 | 47.70% | 47.70% | 47.70% |
人物观点和偏好 | 21.50% | 21.50% | 21.50% |
人物经历 | 28.60% | 28.60% | 28.60% |
其它 | 2.20% | 2.20% | 2.20% |
数据说明:
{
u1 : USER的第1句话;
b1 : BOT的第1句话;
u2 : USER的第2句话;
b2 : BOT的第2句话;
model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型(编码器-解码器模型,各24层、共2.8B参数;plato为32层版本的模型,共1.6B参数);
method : 表示u2的构造方法;
(短句:u2为无信息量的短句; 设问-bot:u2对b1中的实体信息提问; 设问-user(-v2):u2对u1中的实体信息提问; 同义-回译:将u1翻译成英文、再回译成中文;同义-同义词:替换u1中的词为同义词; 反义-反义词:替换u1中的词为反义词; 反义-否定词:在u1中插入否定词);
label : 表示矛盾类型标注(0:无矛盾,1:b2句内矛盾,2:b2角色混淆,3:b2与对话历史矛盾);
persona : 表示从人设角度,对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1:人物属性,2:人物观点和偏好,3:人物经历,0:其他);
}
{
u1 : USER的第1句话;
b1 : BOT的第1句话;
u2 : USER的第2句话;
b2 : BOT的第2句话;
model : 表示bot所采用的模型(eva或plato)(eva为EVA2.0模型(编码器-解码器模型,各24层、共2.8B参数;plato为32层版本的模型,共1.6B参数);
method : 表示u2的构造方法;
(短句:u2为无信息量的短句; 设问-bot:u2对b1中的实体信息提问; 设问-user(-v2):u2对u1中的实体信息提问; 同义-回译:将u1翻译成英文、再回译成中文;同义-同义词:替换u1中的词为同义词; 反义-反义词:替换u1中的词为反义词; 反义-否定词:在u1中插入否定词);
label : 表示矛盾类型标注(0:无矛盾,1:b2句内矛盾,2:b2角色混淆,3:b2与对话历史矛盾);
persona : 表示从人设角度,对对话历史矛盾进行了矛盾内容的标注(当label为3时才有此项)(1:人物属性,2:人物观点和偏好,3:人物经历,0:其他);
}

CDConv中文对话一致性检测数据集
642.11KB
申请报告