数据描述
cMedQA中文医疗社区问答数据集
作者:国防科技大学
数据集介绍
本数据集是目前为止最大规模的公开中文医疗社区问答数据集。数据来源为寻医问药网。 其中,cMedQA v1.0数据集有超过5万个医疗问题和超过10万个专业医生回答的答案构成[1],cMedQA v2.0数据集有近11万个医疗问题和近23万个专业医生回答的答案构成[2]。研究者需要通过训练集训练医疗自动问答模型,在验证和测试集上,针对每一个问题在给定的100个候选答案池中找出最佳的答案(该答案为真实医生所回答的答案)。数据集适合于训练中文医疗问答系统,减轻在线系统中医生的工作量,提高医疗社区系统服务用户的效率。
数据预览
数据集包含5个文件:
questions.csv:所有的问题以及它们的问题内容;
answers.csv:所有的答案以及它们的内容;
train_candidates.txt、dev_candidates.txt、test_candidates.txt:数据集的训练集、开发集和测试集的划分,对应前两个文件中的问题id、答案id、序号以及是否是正确答案的标记,每个问题包含100个候选答案池。
输出文件为train_pred.txt文件,英文逗号隔开,首行为(question_id,ans_id,score),每行三列,分别为问题id、答案id、相似度得分(0-1小数),每一行与xxx_candidates.txt文件每行相对应。
测评指标为最高候选答案准确率(top-1准确率)。
questions.csv:所有的问题以及它们的问题内容;
answers.csv:所有的答案以及它们的内容;
train_candidates.txt、dev_candidates.txt、test_candidates.txt:数据集的训练集、开发集和测试集的划分,对应前两个文件中的问题id、答案id、序号以及是否是正确答案的标记,每个问题包含100个候选答案池。
输出文件为train_pred.txt文件,英文逗号隔开,首行为(question_id,ans_id,score),每行三列,分别为问题id、答案id、相似度得分(0-1小数),每一行与xxx_candidates.txt文件每行相对应。
测评指标为最高候选答案准确率(top-1准确率)。
验证报告
以下为卖家选择提供的数据验证报告:

cMedQA中文医疗社区问答数据集
88.58MB
申请报告