数据洋

cMedQA中文医疗社区问答数据集

段落检索中医医疗问答千言数据集

￥0.5

88.58MB

数据标识：D17313834407232785

发布时间：2024/11/12

cMedQA中文医疗社区问答数据集

作者：国防科技大学

数据集介绍

本数据集是目前为止最大规模的公开中文医疗社区问答数据集。数据来源为寻医问药网。其中，cMedQA v1.0数据集有超过5万个医疗问题和超过10万个专业医生回答的答案构成[1]，cMedQA v2.0数据集有近11万个医疗问题和近23万个专业医生回答的答案构成[2]。研究者需要通过训练集训练医疗自动问答模型，在验证和测试集上，针对每一个问题在给定的100个候选答案池中找出最佳的答案（该答案为真实医生所回答的答案）。数据集适合于训练中文医疗问答系统，减轻在线系统中医生的工作量，提高医疗社区系统服务用户的效率。

数据预览

数据集包含5个文件：

questions.csv：所有的问题以及它们的问题内容；
answers.csv：所有的答案以及它们的内容；
train_candidates.txt、dev_candidates.txt、test_candidates.txt：数据集的训练集、开发集和测试集的划分，对应前两个文件中的问题id、答案id、序号以及是否是正确答案的标记，每个问题包含100个候选答案池。

输出文件为train_pred.txt文件，英文逗号隔开，首行为（question_id,ans_id,score），每行三列，分别为问题id、答案id、相似度得分（0-1小数），每一行与xxx_candidates.txt文件每行相对应。

测评指标为最高候选答案准确率（top-1准确率）。

看了又看

验证报告

以下为卖家选择提供的数据验证报告：

cMedQA中文医疗社区问答数据集

￥0.5

88.58MB

申请报告

cMedQA中文医疗社区问答数据集

cMedQA中文医疗社区问答数据集

数据集介绍

数据预览

关于典枢

下载与支持

服务协议

关于我们

官方公众号

技术交流群