# 蛋白质二级结构数据集:大规模高质量PDB蛋白质结构标注数据
## 引言与背景
蛋白质二级结构预测是生物信息学领域的核心研究课题之一,对于理解蛋白质功能、药物设计和蛋白质工程具有重要意义。本数据集包含从蛋白质数据库(PDB)中提取的大规模蛋白质序列及其对应的二级结构标注,是进行蛋白质结构分析、机器学习模型训练和算法研究的理想资源。
数据集由两个核心文件组成:2018-06-06-ss.cleaned.csv包含基础的蛋白质序列和二级结构标注信息,2018-06-06-pdb-intersect-pisces.csv则补充了实验方法、分辨率等关键元数据。这些数据经过严格筛选和清洗,确保了高质量标注和数据完整性,为科研人员提供了可靠的研究基础。
该数据集对于蛋白质二级结构预测算法的开发和验证、蛋白质结构分析、以及计算生物学研究具有重要价值,能够支持从基础研究到实际应用的多种场景。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|-------|
| pdb_id | 字符串 | 蛋白质数据库标识符 | 1FV1 | 100% |
| chain_code | 字符串 | 蛋白质链代码 | F | 100% |
| seq | 字符串 | 氨基酸序列 | NPVVHFFKNIVTPRTPPPSQ | 100% |
| sst8 | 字符串 | 8类二级结构标注 | CCCC BCCCCCCCCCCCCCC | 100% |
| sst3 | 字符串 | 3类二级结构标注 | CCCC ECCCCCCCCCCCCCC | 100% |
| len | 整数 | 序列长度 | 20 | 100% |
| has_nonstd_aa | 布尔值 | 是否包含非标准氨基酸 | False | 100% |
| Exptl. | 字符串 | 实验方法 | XRAY | 99.8% |
| resolution | 浮点数 | 分辨率(Å) | 1.9 | 99.5% |
| R-factor | 浮点数 | R因子 | 0.23 | 99.2% |
| FreeRvalue | 浮点数 | 自由R值 | 0.27 | 98.5% |
### 数据分布情况
#### 序列长度分布
| 长度范围 | 记录数量 | 占比 | 累计占比 |
|---------|---------|-----|---------|
| 3-10 | 127 | 3.8% | 3.8% |
| 11-20 | 985 | 29.6% | 33.4% |
| 21-30 | 1,456 | 43.8% | 77.2% |
| 31-40 | 762 | 22.9% | 100% |
| 总计 | 3,330 | 100% | - |
#### 实验方法分布
| 实验方法 | 记录数量 | 占比 |
|---------|---------|-----|
| XRAY | 3,323 | 99.8% |
| NMR | 7 | 0.2% |
| 总计 | 3,330 | 100% |
#### 分辨率分布
| 分辨率范围(Å) | 记录数量 | 占比 |
|--------------|---------|-----|
| ≤1.0 | 156 | 4.7% |
| 1.0-1.5 | 892 | 26.8% |
| 1.5-2.0 | 1,945 | 58.4% |
| >2.0 | 337 | 10.1% |
| 总计 | 3,330 | 100% |
#### 二级结构类型分布
3类二级结构标注中,C(卷曲)、E(β-折叠)、H(α-螺旋)的分布情况如下:
| 结构类型 | 描述 | 典型占比范围 |
|---------|-----|-------------|
| C | 无规卷曲 | 30%-50% |
| E | β-折叠 | 15%-30% |
| H | α-螺旋 | 20%-40% |
8类二级结构标注包含更细致的分类:H(α-螺旋)、G(3₁₀螺旋)、I(π螺旋)、E(β-折叠)、B(β-桥)、T(转角)、S(弯曲)和C(卷曲)。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 数据规模庞大 | 包含超过3,300条高质量蛋白质序列-结构对 | 支持大规模机器学习模型训练和统计分析 |
| 标注质量高 | 基于PDB实验数据,结构标注准确可靠 | 为模型训练提供高质量监督信号 |
| 双重标注体系 | 同时包含8类和3类二级结构标注 | 支持不同粒度的研究需求 |
| 元数据丰富 | 包含分辨率、R因子等实验信息 | 便于数据筛选和质量评估 |
| 序列多样性 | 涵盖不同长度、来源和功能的蛋白质 | 增强模型的泛化能力 |
| 数据完整性 | 核心字段完整率达100% | 减少数据预处理工作量 |
| 实验方法明确 | 主要基于X射线晶体学数据 | 数据可靠性有保障 |
## 数据样例
以下展示15条代表性数据样例,涵盖不同序列长度和结构特征:
1. pdb_id: 1FV1, chain_code: F
- seq: NPVVHFFKNIVTPRTPPPSQ (长度20)
- sst8: CCCC BCCCCCCCCCCCCCC
- sst3: CCCC ECCCCCCCCCCCCCC
- 分辨率: 1.9Å, R因子: 0.23
2. pdb_id: 1LM8, chain_code: H
- seq: DLDLEMLAPYIPMDDDFQLR (长度20)
- sst8: CCCCCCCC BCCSSCCCEECC
- sst3: CCCCCCCC ECCCCCCEECC
3. pdb_id: 1O06, chain_code: A
- seq: EEDPDLKAAIQESLREAEEA (长度20)
- sst8: CCCHHHHHHHHHHHHHHHTC
- sst3: CCCHHHHHHHHHHHHHHHCC
- 分辨率: 1.45Å, R因子: 0.19
4. pdb_id: 1QOW, chain_code: D
- seq: CTFTLPGGGGVCTLTSECI* (长度20,含非标准AA)
- sst8: CCTTSCTTCSSTTSSTTCCC
- sst3: CCCC CCCCCCCCCCCCCCCC
5. pdb_id: 1RDQ, chain_code: I
- seq: TTYADFIASGRTGRRNAIHD (长度20)
- sst8: CHHHHHHTSSCSSCCCCEEC
- sst3: CHHHHHHCCCCCCCCCCEEC
- 分辨率: 1.26Å, R因子: 0.13
6. pdb_id: 1T6O, chain_code: B
- seq: QDSRRSADALLRLQAMAGIS (长度20)
- sst8: CHHHHHHHHHHHHHHHHTCC
- sst3: CHHHHHHHHHHHHHHHHCCC
7. pdb_id: 1T7F, chain_code: B
- seq: SSRGLLWDLLTKDSRSGSGK (长度20)
- sst8: CCCC HHHHHHCCCCCCCCCC
- sst3: CCCC HHHHHHCCCCCCCCCC
8. pdb_id: 1U7B, chain_code: B
- seq: SRQGSTQGRLDDFFKVTGSL (长度20)
- sst8: CCCCCC BCCGGGTSBCCCCC
- sst3: CCCCCC ECCHHHCCECCCCC
9. pdb_id: 1UGX, chain_code: B
- seq: DEQSGISQTVIVGPWGAKVS (长度20)
- sst8: CCCCCSCCCEEEEEEECCCC
- sst3: CCCCCCCCCEEEEEEECCCC
10. pdb_id: 1VPP, chain_code: Y
- seq: RGWVEICAADDYGRCLTEAQ (长度20)
- sst8: CCCE EEEE BCTTSCBTTCCC
- sst3: CCCE EEEE CCCC ECCCCC
11. pdb_id: 2V8C, chain_code: C
- seq: GPPPPPGPPPPPGPPPPPGL (长度20)
- sst8: CCCCSSCCCCCCCCCCCCC
- sst3: CCCCCCCCCCCCCCCCCCC
12. pdb_id: 2VZG, chain_code: A
- seq: NLSELDRLLLELNAVQHNPP (长度20)
- sst8: CCCHHHHHHHHHHCCCCCC
- sst3: CCCHHHHHHHHHHCCCCCC
13. pdb_id: 3EMW, chain_code: B
- seq: DINNNNNIVEDVERKREFYI (长度20)
- sst8: CTTSCBCCCCCCCCCCCCCC
- sst3: CCCC ECCCCCCCCCCCCCC
14. pdb_id: 3JRV, chain_code: E
- seq: SFGSRSDSRGKSSFFSDRGS (长度20)
- sst8: CCCCCCCCCCCCBSCCCCCC
- sst3: CCCCCCCCCCCC ECCCCCCC
15. pdb_id: 3WGX, chain_code: D
- seq: HGEVCPAGWKPGSETIIPDP (长度20)
- sst8: CCCC EECCCCCCCCCCCCCC
- sst3: CCCC EECCCCCCCCCCCCCC
- 分辨率: 0.92Å, R因子: 0.14
## 应用场景
### 二级结构预测模型训练
蛋白质二级结构预测是计算生物学的经典问题,本数据集为训练深度学习模型提供了理想的监督数据。研究人员可以利用序列数据作为输入,二级结构标注作为输出,训练卷积神经网络(CNN)、循环神经网络(RNN)、Transformer等模型。数据集中丰富的序列多样性和高质量标注能够帮助模型学习氨基酸序列与二级结构之间的复杂映射关系,从而提高预测准确率。此外,双重标注体系(8类和3类)允许研究人员根据需求选择不同的预测粒度。
### 蛋白质结构分析与功能研究
通过分析数据集中的结构分布特征,研究人员可以深入了解不同类型蛋白质的结构偏好。例如,某些蛋白质家族可能倾向于形成特定的二级结构组合,这与其生物学功能密切相关。结合分辨率、R因子等元数据,可以评估结构数据的质量,筛选出高质量的结构样本进行深入研究。此外,非标准氨基酸的标记为研究特殊氨基酸对蛋白质结构的影响提供了便利。
### 算法评估与基准测试
本数据集可作为评估新算法性能的基准测试集。研究人员可以将新开发的二级结构预测算法在该数据集上进行测试,与现有方法进行对比。数据集中包含不同长度、不同结构复杂度的蛋白质序列,能够全面评估算法的性能表现。同时,数据集的大规模性确保了评估结果的统计显著性和可靠性。
### 蛋白质工程与药物设计
在蛋白质工程领域,准确预测二级结构对于设计具有特定功能的新型蛋白质至关重要。本数据集可以帮助研究人员理解氨基酸序列如何决定蛋白质的二级结构,从而指导蛋白质设计。在药物设计中,了解蛋白质的结构特征有助于设计能够特异性结合目标蛋白的小分子化合物,提高药物的有效性和选择性。
### 生物信息学教学与学习
该数据集也适用于生物信息学教学场景。学生可以利用这些真实数据学习蛋白质结构分析、序列比对、机器学习等技术。通过实践操作,学生能够加深对蛋白质结构生物学的理解,掌握数据分析和模型训练的基本方法。
## 结尾
本蛋白质二级结构数据集是一个高质量、大规模的资源,包含超过3,300条蛋白质序列及其对应的二级结构标注。数据经过严格筛选和清洗,核心字段完整率达100%,为蛋白质结构研究提供了可靠的数据基础。
数据集的主要优势包括:大规模数据支持机器学习训练、高质量标注确保模型训练效果、双重标注体系满足不同研究需求、丰富的元数据便于数据筛选和质量评估。这些特点使得该数据集成为蛋白质二级结构预测、结构分析、算法开发等研究领域的理想选择。
研究人员可以利用该数据集进行模型训练、算法评估、结构分析等多种研究,推动蛋白质结构生物学领域的发展。如有需要,可私信获取更多相关信息或技术支持。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






