DS数据代找

verify-tagcMedQA中文医疗社区问答数据集

段落检索中医医疗问答千言数据集

0.5

已售 0
88.58MB

数据标识:D17313834407232785

发布时间:2024/11/12

数据描述

cMedQA中文医疗社区问答数据集

作者:国防科技大学

数据集介绍

本数据集是目前为止最大规模的公开中文医疗社区问答数据集。数据来源为寻医问药网。 其中,cMedQA v1.0数据集有超过5万个医疗问题和超过10万个专业医生回答的答案构成[1],cMedQA v2.0数据集有近11万个医疗问题和近23万个专业医生回答的答案构成[2]。研究者需要通过训练集训练医疗自动问答模型,在验证和测试集上,针对每一个问题在给定的100个候选答案池中找出最佳的答案(该答案为真实医生所回答的答案)。数据集适合于训练中文医疗问答系统,减轻在线系统中医生的工作量,提高医疗社区系统服务用户的效率。

数据预览

数据集包含5个文件:

questions.csv:所有的问题以及它们的问题内容;
answers.csv:所有的答案以及它们的内容;
train_candidates.txt、dev_candidates.txt、test_candidates.txt:数据集的训练集、开发集和测试集的划分,对应前两个文件中的问题id、答案id、序号以及是否是正确答案的标记,每个问题包含100个候选答案池。

输出文件为train_pred.txt文件,英文逗号隔开,首行为(question_id,ans_id,score),每行三列,分别为问题id、答案id、相似度得分(0-1小数),每一行与xxx_candidates.txt文件每行相对应。

测评指标为最高候选答案准确率(top-1准确率)。

验证报告

以下为卖家选择提供的数据验证报告:

data icon
cMedQA中文医疗社区问答数据集
0.5
已售 0
88.58MB
申请报告