panpan

verify-tag大规模化学分子特征数据集:SMILES结构、物理化学性质、ECFP指纹与药物结合亲和力标注

化学分子数据集SMILES结构物理化学性质

29.9

204.37MB

数据标识:D17823549257112860

发布时间:2026/06/25

## 引言与背景

在药物发现和分子设计领域,高质量的分子数据集是推动算法研发和模型训练的核心基础。本数据集整合了大规模的化学分子信息,涵盖分子结构表示、物理化学性质特征、分子指纹向量以及药物结合亲和力标注,为计算化学、药物设计、机器学习等领域的研究提供了丰富的数据支撑。

数据集包含多个核心文件:分子SMILES结构文件(all_bb_mols.csv、all_bb_smiles_by_bb.csv)提供了分子的标准简化分子线性输入规范表示;物理化学特征文件(bb_features_phys_chem.csv)包含了详细的分子物理化学性质描述符;分子指纹文件(bb_features_ecfp_1024.csv)提供了1024维的扩展连接指纹特征向量;药物结合亲和力文件(bb_features_p_active_all_train.csv)包含了分子与三种蛋白质靶点(BRD4、HSA、sEH)的结合亲和力预测值。

该数据集对于科研人员和算法开发者具有重要价值,可用于分子性质预测、药物-靶点相互作用研究、分子生成与优化、虚拟筛选等多个研究方向,为药物发现领域的人工智能应用提供了坚实的数据基础。

## 数据基本信息

### 数据集构成

| 文件名称 | 记录数量 | 字段数量 | 数据类型 | 说明 |
|---------|---------|---------|---------|------|
| all_bb_mols.csv | 约4706条 | 1 | SMILES字符串 | 分子结构的SMILES表示 |
| all_bb_smiles_by_bb.csv | 约4706条 | 3 | 字符串/整数 | SMILES、构建块类别、数据集划分 |
| bb_features_phys_chem.csv | 约4706条 | 28 | 字符串/数值 | 物理化学性质描述符 |
| bb_features_ecfp_1024.csv | 约4706条 | 1025 | 字符串/数值 | ECFP分子指纹特征 |
| bb_features_p_active_all_train.csv | 训练子集 | 5 | 字符串/数值 | 药物结合亲和力标注 |

### 数据字段说明

#### 分子结构与划分字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| molecule_smiles / smiles | 字符串 | 分子的SMILES结构表示 | C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21 | 100% |
| BB | 整数 | 构建块类别编号 | 1 | 100% |
| set | 字符串 | 数据集划分(训练/测试/验证) | train | 100% |

#### 物理化学性质字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| SMILES | 字符串 | 分子结构表示 | C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21 | 100% |
| MF | 字符串 | 分子式 | C21H19NO4 | 100% |
| MW | 数值 | 分子量 | 349.37986 | 100% |
| Ncharges | 整数 | 电荷数 | 0 | 100% |
| C | 整数 | 碳原子数 | 21 | 100% |
| H | 整数 | 氢原子数 | 19 | 100% |
| N | 整数 | 氮原子数 | 1 | 100% |
| O | 整数 | 氧原子数 | 4 | 100% |
| Cl | 整数 | 氯原子数 | 0 | 100% |
| F | 整数 | 氟原子数 | 0 | 100% |
| S | 整数 | 硫原子数 | 0 | 100% |
| RINGS | 整数 | 环数量 | 6 | 100% |
| AROMATIC | 整数 | 芳香环数量 | 2 | 100% |
| RNH2 | 整数 | 伯胺基团数 | 0 | 100% |
| R2NH | 整数 | 仲胺基团数 | 1 | 100% |
| ROH | 整数 | 羟基基团数 | 0 | 100% |
| RCOOH | 整数 | 羧基基团数 | 1 | 100% |

#### 药物结合亲和力字段

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| BB | 字符串 | 构建块名称 | buildingblock1_smiles | 100% |
| smiles | 字符串 | 分子SMILES结构 | C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21 | 100% |
| BRD4_TE | 数值 | BRD4蛋白结合亲和力 | 0.00180386108892622 | 100% |
| HSA_TE | 数值 | HSA蛋白结合亲和力 | 0.0033240615791358 | 100% |
| sEH_TE | 数值 | sEH蛋白结合亲和力 | 0.00248684971496241 | 100% |

### 数据分布情况

#### 构建块类别分布

| BB类别 | 记录数量 | 占比 |
|-------|---------|------|
| BB_1 | 约4706条 | 100%(当前数据) |
| 其他类别 | 待扩展 | - |

#### 数据集划分分布

| 划分类型 | 记录数量 | 占比 |
|---------|---------|------|
| train | 约4706条 | 100%(当前数据) |
| test | 待补充 | - |
| valid | 待补充 | - |

#### 物理化学特征统计

| 特征 | 最小值 | 最大值 | 平均值 | 标准差 |
|-----|-------|-------|-------|-------|
| 分子量(MW) | ~335 | ~438 | ~365 | ~25 |
| 碳原子数(C) | 20 | 24 | 22 | 1.5 |
| 氧原子数(O) | 4 | 6 | 4.5 | 0.8 |
| 环数量(RINGS) | 6 | 7 | 6.2 | 0.4 |
| 芳香环数量(AROMATIC) | 2 | 3 | 2.1 | 0.3 |

#### 药物结合亲和力分布

| 靶点 | 最小值 | 最大值 | 平均值 | 数据特征 |
|-----|-------|-------|-------|---------|
| BRD4_TE | ~5e-5 | ~0.0058 | ~0.002 | 连续数值,范围较广 |
| HSA_TE | ~2.5e-4 | ~0.004 | ~0.003 | 连续数值,分布集中 |
| sEH_TE | ~6.6e-5 | ~0.0029 | ~0.0019 | 连续数值,范围适中 |

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 多维度特征覆盖 | 包含SMILES结构、物理化学性质、ECFP指纹三种核心特征类型 | 支持多种机器学习模型输入,提高模型表达能力 |
| 高质量标注数据 | 包含BRD4、HSA、sEH三种蛋白质靶点的结合亲和力标注 | 可直接用于监督学习模型训练和评估 |
| 标准化数据格式 | 所有数据采用CSV格式存储,字段定义清晰 | 便于数据读取、处理和分析,降低使用门槛 |
| 完整的分子信息 | 每个样本包含完整的分子结构和特征描述 | 支持分子可视化、结构分析和性质预测 |
| 大规模数据量 | 约4706条分子记录,1024维指纹特征 | 提供充足的数据支撑,提高模型泛化能力 |
| 数据完整性高 | 关键字段缺失率为0% | 无需复杂的数据清洗和补全处理 |

## 数据样例

以下展示数据集中的典型样本,涵盖不同的分子结构和特征类型。

### 分子SMILES样例

1. C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21
2. C#CCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O
3. C=CCCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O
4. CC(C)(C)OC(=O)CCC(NC(=O)OCC1c2ccccc2-c2ccccc21)C(=O)O
5. CC(C)(C)OC(=O)N1CCN(C(=O)OCC2c3ccccc3-c3ccccc32)C1C(=O)O
6. COc1ccc(C(=O)O)c(NC(=O)OCC2c3ccccc3-c3ccccc32)c1
7. Cc1cc(C(=O)O)ccc1NC(=O)OCC1c2ccccc2-c2ccccc21
8. N#Cc1ccc(CC@@HOCC2c3ccccc3-c3ccccc32)C(=O)O)cc1

### 物理化学特征样例

| SMILES | MF | MW | C | H | N | O | RINGS | AROMATIC |
|--------|----|----|---|---|---|---|-------|----------|
| C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21 | C21H19NO4 | 349.38 | 21 | 19 | 1 | 4 | 6 | 2 |
| C#CCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O | C20H17NO4 | 335.35 | 20 | 17 | 1 | 4 | 6 | 2 |
| C=CCCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O | C21H21NO4 | 351.40 | 21 | 21 | 1 | 4 | 6 | 2 |
| COc1ccc(C(=O)O)c(NC(=O)OCC2c3ccccc3-c3ccccc32)c1 | C23H19NO5 | 389.40 | 23 | 19 | 1 | 5 | 7 | 3 |

### 药物结合亲和力样例

| BB | SMILES | BRD4_TE | HSA_TE | sEH_TE |
|----|--------|---------|--------|--------|
| buildingblock1_smiles | C#CCC@@HO)NC(=O)OCC1c2ccccc2-c2ccccc21 | 0.0018 | 0.0033 | 0.0025 |
| buildingblock1_smiles | C#CCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O | 0.0020 | 0.0022 | 0.0011 |
| buildingblock1_smiles | C=CCCC@@HOCC1c2ccccc2-c2ccccc21)C(=O)O | 0.0058 | 0.0037 | 0.0029 |

## 应用场景

### 药物-靶点相互作用预测

该数据集包含分子与三种蛋白质靶点(BRD4、HSA、sEH)的结合亲和力标注,可用于构建药物-靶点相互作用预测模型。BRD4是一种重要的表观遗传调控蛋白,与多种癌症相关;HSA是人体内最丰富的血浆蛋白,药物与HSA的结合会影响药物的分布和代谢;sEH是一种参与炎症反应调节的酶,是抗炎药物的潜在靶点。研究人员可以利用该数据集训练机器学习模型,从分子结构和物理化学性质出发,预测新分子与这些靶点的结合能力,从而加速药物筛选过程。该应用场景的核心价值在于能够在实验验证之前对大量化合物进行虚拟筛选,显著降低药物发现的成本和时间。

### 分子性质预测与优化

数据集中的物理化学性质特征为分子性质预测提供了丰富的输入信息。研究人员可以基于这些特征构建回归模型,预测分子的各种物理化学性质,如溶解度、脂溶性、代谢稳定性等。此外,结合ECFP指纹特征,还可以进行分子相似性搜索和聚类分析,发现具有相似性质的分子群组。在分子优化方面,研究人员可以利用生成模型基于现有分子结构进行优化,生成具有特定性质的新分子。例如,通过调整分子的官能团组成和环结构,可以改善分子的溶解度或提高其与靶点的结合亲和力。

### 虚拟筛选与药物设计

虚拟筛选是药物发现中的重要环节,通过计算方法从化合物库中筛选出可能具有生物活性的分子。该数据集提供的分子指纹特征(ECFP_1024)非常适合用于基于结构的虚拟筛选。研究人员可以利用分子指纹进行相似性搜索,找到与已知活性化合物结构相似的分子;也可以构建分类模型,区分活性分子和非活性分子。此外,结合药物结合亲和力标注数据,可以构建更精确的筛选模型,直接预测分子的结合强度。这些方法能够显著提高筛选效率,从海量化合物中快速识别出具有潜在开发价值的候选药物。

### 机器学习算法研发与评估

该数据集为机器学习算法研发提供了理想的测试平台。数据集中包含多种类型的特征(结构化的物理化学性质、高维的分子指纹)和连续数值的标注(结合亲和力),适合评估各种机器学习算法的性能,包括传统的机器学习方法(如支持向量机、随机森林、梯度提升树)和深度学习方法(如神经网络、图神经网络)。研究人员可以利用该数据集比较不同算法在分子性质预测和药物-靶点相互作用预测任务上的表现,探索更有效的特征表示和模型架构。同时,数据集的标准化格式和高质量标注也便于进行模型的复现和比较。

## 结尾

本数据集整合了大规模化学分子的多维度信息,包括分子结构表示、物理化学性质特征、分子指纹向量和药物结合亲和力标注,为药物发现和分子设计领域的研究提供了丰富的数据资源。数据的完整性、标准化格式和高质量标注使其成为科研和工业界应用的理想选择。

数据集的核心优势在于其多维度特征覆盖和完整的分子信息,支持多种研究方向和应用场景,包括药物-靶点相互作用预测、分子性质预测与优化、虚拟筛选与药物设计以及机器学习算法研发与评估。

如需获取更多数据集信息或完整的数据文件,可私信联系获取详细资料。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
大规模化学分子特征数据集:SMILES结构、物理化学性质、ECFP指纹与药物结合亲和力标注
29.9
204.37MB
申请报告