数据描述
引言与背景
该数据集由四个主要部分组成,分别为200k_abstracts、20k_abstracts、20k_abstracts_numbers_with@和Numbers_replaced_with@,涵盖了不同规模和处理方式的生物医学文献摘要句子分类数据。每个部分都包含完整的训练集、开发集和测试集,确保了数据的完整性和可用于模型评估的可用性。原始数据来源于生物医学领域的权威期刊和会议文献,经过专业标注人员的人工标注,确保了数据的高质量和可靠性。
这些数据对于生物医学领域的科研人员、自然语言处理算法工程师以及医疗信息系统开发者都具有重要价值。科研人员可以利用这些数据进行文献综述和知识发现,算法工程师可以基于这些数据训练和优化文本分类模型,医疗信息系统开发者可以将这些数据应用于临床决策支持系统和医学文献检索平台的开发。
数据基本信息
数据字段说明
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| 摘要ID | 字符串 | 每篇摘要的唯一标识符 | ###24491034 | 100% |
| 句子标签 | 字符串 | 句子在摘要中的功能分类 | BACKGROUND | 100% |
| 句子内容 | 文本 | 生物医学文献摘要中的原始句子 | The emergence of HIV as a chronic condition means that people living with HIV are required to take more responsibility for the self-management of their condition. |
数据分布情况
数据集规模分布
| 训练集大小(MB) | 开发集大小(MB) | 测试集大小(MB) | 总规模(MB) | 摘要数量 | 句子数量 | |
|---|---|---|---|---|---|---|
| 200k_abstracts | 341.20 | 4.42 | 4.44 | 350.06 | 195,654 | 2,465,940 |
| 20k_abstracts | 28.52 | 4.38 | 4.48 | 37.38 | 20,000 | 260,387 |
| 20k_abstracts_numbers_with_@ | 27.94 | 4.42 | 4.42 | 36.78 | 20,000 | 260,387 |
| Numbers_replaced_with_@ | 335.37 | 4.42 | 4.44 | 344.23 | 195,654 |
句子标签分布
| 出现次数 | 占比 | |
|---|---|---|
| RESULTS | 1,728,062 | 31.7% |
| METHODS | 1,642,220 | 30.1% |
| CONCLUSIONS | 769,714 | 14.1% |
| BACKGROUND | 461,448 | 8.5% |
| OBJECTIVE | 419,902 |
数据集类型分布
| 数量 | 占比 | 主要特点 | |
|---|---|---|---|
| 原始数据 | 2 | 50% | 包含完整的数字信息 |
| 数字替换 | 2 | 50% | 数字被替换为@符号,便于某些特定任务的模型训练 |
| 大规模 | 2 | 50% | 包含约19.6万篇摘要,适合深度学习模型训练 |
| 小规模 | 2 | 50% |
数据集分割分布
| 200k_abstracts | 20k_abstracts | 20k_abstracts_numbers_with_@ | Numbers_replaced_with_@ | |
|---|---|---|---|---|
| 训练集比例 | 98.5% | 79.3% | 79.1% | 98.3% |
| 开发集比例 | 0.7% | 10.5% | 10.6% | 0.7% |
| 测试集比例 | 0.7% | 10.2% | 10.3% |
数据格式说明
数据集采用纯文本格式(.txt)存储,每篇摘要以"###"开头,后跟唯一的摘要ID。摘要中的每个句子单独占一行,句子以标签开头,标签与句子内容之间用制表符分隔。标签包括BACKGROUND(背景)、OBJECTIVE(目的)、METHODS(方法)、RESULTS(结果)、CONCLUSIONS(结论)等,涵盖了生物医学文献摘要的主要结构要素。
数据覆盖领域
数据集覆盖了生物医学领域的多个研究方向,包括但不限于:
-
传染病研究(如HIV、艾滋病等)
-
慢性疾病管理(如心脏病、糖尿病等)
-
药物研发与临床试验
-
医疗器械评估
-
公共卫生研究
-
精神健康研究
-
中医中药研究
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 大规模数据 | 包含约19.6万篇完整摘要和227万句子,覆盖生物医学多个领域 | 支持大规模深度学习模型训练,提高模型的泛化能力 |
| 高质量标注 | 句子标签经过专业人员标注,涵盖BACKGROUND、METHODS、RESULTS、CONCLUSIONS等多个类别 | 确保模型训练数据的准确性,提高下游任务的性能 |
| 结构化信息 | 每个句子都有明确的功能标签,反映了生物医学文献的结构特点 | 便于进行文本结构分析和信息提取任务 |
| 多版本数据 | 提供原始数据和数字替换版本,以及大规模和小规模版本 | 满足不同研究需求和计算资源条件 |
| 标准分割 | 所有数据集都按照训练集、开发集、测试集的标准方式分割 | 便于模型训练、验证和评估,支持公平的性能比较 |
| 领域专业性 | 专注于生物医学领域的文献摘要,包含丰富的专业术语和研究方法 |
数据样例
原始数据样例 (200k_abstracts)
###24491034
BACKGROUND The emergence of HIV as a chronic condition means that people living with HIV are required to take more responsibility for the self-management of their condition , including making physical , emotional and social adjustments .
BACKGROUND This paper describes the design and evaluation of Positive Outlook , an online program aiming to enhance the self-management skills of gay men living with HIV .
METHODS This study is designed as a randomised controlled trial in which men living with HIV in Australia will be assigned to either an intervention group or usual care control group .
METHODS The intervention group will participate in the online group program ` Positive Outlook ' .
METHODS The program is based on self-efficacy theory and uses a self-management approach to enhance skills , confidence and abilities to manage the psychosocial issues associated with HIV in daily life .
RESULTS Both groups showed improvement in symptoms and in clinical evidence of inflammation with improvement of eye movement and proptosis in most cases .
CONCLUSIONS Results of the Positive Outlook study will provide information regarding the effectiveness of online group programs improving health related outcomes for men living with HIV .
数字替换数据样例 (Numbers_replaced_with_@)
###20497432
BACKGROUND The aim of this study was to evaluate the efficacy , safety and complications of orbital steroid injection versus oral steroid therapy in the management of thyroid-related ophthalmopathy .
METHODS A total of @ patients suffering from thyroid ophthalmopathy were included in this study .
METHODS Patients were randomized into two groups : group I included @ patients treated with oral prednisolone and group II included @ patients treated with peribulbar triamcinolone orbital injection .
RESULTS Mean exophthalmometry value before treatment was @ @ mm that decreased to @ @ mm in group I , compared with @ @ mm that decreased to @ @ mm in group II .
CONCLUSIONS Orbital steroid injection for thyroid-related ophthalmopathy is effective and safe .
不同标签的句子样例
OBJECTIVE To explore the effects of GengNianLe ( GNL , also called perimenopausal depression relieving formula ) , a defined formula of Chinese medicinal herbs in relieving perimenopausal depression in Chinese women .
METHODS Between September 2004 and April 2008 , 47 Chinese women were randomized into a GNL group ( n = 21 ) and a control group which received tibolone ( n = 26 ) using a randomization chart .
RESULTS After 12 weeks of treatment , HAMD scores in both groups decreased significantly ( p < 0.05 ) with no significant difference between the groups ( p > 0.05 ) .
CONCLUSIONS The Chinese medicinal formula GNL showed promise in relieving perimenopausal depression and merits further study .
开发集样例片段
###15337700
BACKGROUND Adrenergic activation is thought to be an important determinant of outcome in subjects with chronic heart failure ( CHF ) , but baseline or serial changes in adrenergic activity have not been previously investigated in a large patient sample treated with a powerful antiadrenergic agent .
RESULTS Systemic venous norepinephrine was measured at baseline , 3 months , and 12 months in the beta-Blocker Evaluation of Survival Trial ( BEST ) , which compared placebo treatment with the beta-blocker/sympatholytic agent bucindolol .
RESULTS Baseline norepinephrine level was associated with a progressive increase in rates of death or death plus CHF hospitalization that was independent of treatment group .
RESULTS On multivariate analysis , baseline norepinephrine was also a highly significant ( P < 0.001 ) independent predictor of death .
应用场景
生物医学文献自动分类与结构化
该数据集可用于训练生物医学文献自动分类模型,将文献摘要中的句子自动分类到不同的功能类别中,如背景、目的、方法、结果和结论等。这种自动结构化处理可以大大提高文献阅读和分析的效率,帮助研究人员快速获取文献的核心信息。对于生物医学领域的科研人员来说,这意味着他们可以在短时间内浏览更多的文献,发现研究趋势和新的研究方向。此外,结构化的文献数据也便于构建生物医学知识图谱,支持知识发现和关联分析。例如,研究人员可以利用结构化的文献数据,快速了解某一疾病领域的研究进展、常用研究方法和主要研究结果,为自己的研究提供参考。
医学信息提取与知识发现
基于该数据集训练的模型可以应用于医学信息提取任务,从大规模生物医学文献中自动提取研究方法、实验结果、结论等关键信息。这些提取的信息可以用于构建医学知识库,支持临床决策支持系统的开发。例如,医生可以通过查询知识库快速获取特定疾病的最新研究进展和治疗方法。同时,这些结构化的信息也便于进行系统评价和meta分析,帮助研究人员综合多个研究的结果,得出更可靠的结论。此外,通过对大规模文献数据的分析,可以发现潜在的研究关联和新的研究方向,促进生物医学领域的知识发现和创新。
自然语言处理模型训练与评估
该数据集为自然语言处理研究人员提供了一个高质量的生物医学领域文本分类基准数据集。研究人员可以使用该数据集训练和评估各种文本分类算法,如朴素贝叶斯、支持向量机、循环神经网络、Transformer等。通过在该数据集上的实验,研究人员可以比较不同算法在生物医学文本分类任务上的性能,推动自然语言处理技术在生物医学领域的应用和发展。此外,该数据集还可以用于迁移学习研究,将在该数据集上训练的模型迁移到其他生物医学自然语言处理任务中,如命名实体识别、关系抽取等。数据集提供的不同版本(原始数据和数字替换版本)也便于研究人员探索数据预处理对模型性能的影响。
医疗信息系统开发
该数据集可以应用于医疗信息系统的开发,如智能医学文献检索系统、临床决策支持系统等。智能医学文献检索系统可以利用文本分类模型,根据用户的查询需求,返回最相关的文献摘要及其结构化信息。例如,医生可以查询某一疾病的最新治疗方法,系统可以返回相关文献的方法和结果部分,帮助医生快速获取关键信息。临床决策支持系统可以整合从文献中提取的信息,为医生提供基于最新研究的治疗建议。这些系统的开发将有助于提高医疗服务的质量和效率,促进循证医学的发展。此外,结构化的文献数据也可以用于医学教育和培训,帮助医学生和年轻医生快速学习和理解医学文献。
结尾
本数据集是一个高质量的生物医学文献摘要句子分类数据集,包含约19.6万篇摘要和227万句子,涵盖了生物医学领域的多个研究方向。数据集提供了原始数据和数字替换版本,以及大规模和小规模版本,满足不同研究需求和计算资源条件。每个句子都有明确的功能标签,反映了生物医学文献的结构特点,便于进行文本结构分析和信息提取任务。
该数据集的核心优势在于其大规模性、高质量标注和结构化信息,这些特点使其成为生物医学领域自然语言处理研究和应用的宝贵资源。通过利用该数据集,研究人员可以开发出更先进的文本分类和信息提取模型,推动生物医学领域的知识发现和临床应用。
该数据集可广泛应用于生物医学文献自动分类与结构化、医学信息提取与知识发现、自然语言处理模型训练与评估以及医疗信息系统开发等多个领域。随着自然语言处理技术的不断发展,该数据集的应用前景将更加广阔,为生物医学研究和医疗实践带来更多创新和突破。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:









