# 高能物理实验喷注(Jet)数据集:3.3万事件与24.6万粒子喷注的B标记特征全量分析
## 引言与背景
在高能粒子物理实验中,喷注(Jet)是探测夸克、胶子等基本粒子相互作用的关键物理对象。精确识别喷注所包含的强子种类(如b夸克喷注、c夸克喷注、轻子喷注等)——即所谓的"喷注味道鉴别(Jet Flavor Tagging)"——是寻找希格斯玻色子、顶夸克、新物理粒子研究中的核心技术环节。b标记(b-tagging)算法通过利用b强子较长的寿命、较大的质量和独特的衰变拓扑结构来区分b喷注与其他轻喷注,在大型强子对撞机(LHC)的ATLAS、CMS等实验中扮演着重要角色。
本数据集来源于真实的粒子物理实验模拟或真实数据采集流程,以Parquet列式存储格式提供,完整覆盖了33,000个对撞事件与245,783个重建喷注,每个喷注包含632个特征维度,涵盖了从基础运动学参数到高级b标记判别特征的完整信息链。数据集的字段设计与主流高能物理实验(如ATLAS)的CustomTagger、MV2、DL1r等b标记算法输出保持一致,包含粒子级候选特征(Cpfcan,带电荷粒子)、中性粒子候选特征(Npfcan)以及次级顶点(SV)重建特征,可为b标记算法的训练与验证、喷注物理研究、以及未来新物理搜索提供高价值的数据资源。
## 数据基本信息
### 数据规模与构成
| 指标 | 数值 |
|------|------|
| 对撞事件数 | 33,000 个 |
| 喷注总数 | 245,783 个 |
| 单事件平均喷注数 | 7.45 个(中位数 7,范围 2–20) |
| 数据字段总数 | 632 个 |
| 数据格式 | Apache Parquet(列式存储,支持高效分块读取) |
| 特征类别 | 运动学特征、味道标记、粒子候选特征、次级顶点特征 |
| 物理覆盖 | 质子-质子对撞过程中的多喷注末态 |
### 数据字段说明表
为便于理解,将632个字段按语义归纳为以下六大类别,每类选取代表性字段说明。
#### 1. 喷注基础运动学与味道标识字段
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| Jet_pt | float | 喷注横向动量(GeV) | 69.94 | 100% |
| Jet_eta | float | 喷注赝快度 | 0.823 | 100% |
| Jet_hadronFlavour | int32 | 喷注强子味道(0=轻子, 4=c, 5=b) | 5 | 100% |
| Jet_partonFlavour | int32 | 母部分子味道(±1=u, ±2=d, ±3=s, ±4=c, ±5=b, 21=g) | -5 | 100% |
| Jet_FlavSplit | int32 | 衰变细分代码(0=轻, 4xx=c, 5xx=b, 999=g, 1000=t) | 500 | 100% |
| Jet_nBHadrons | int32 | 喷注内B强子数量 | 1 | 100% |
| Jet_nCHadrons | int32 | 喷注内C强子数量 | 2 | 100% |
#### 2. 喷注级全局标记特征
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| Jet_CustomTagger_jetIdx | int32 | 喷注索引 | 0 | 100% |
| Jet_CustomTagger_nCpfcand | int32 | 带电荷粒子候选数 | 12 | 100% |
| Jet_CustomTagger_nNpfcand | int32 | 中性粒子候选数 | 7 | 100% |
| Jet_CustomTagger_nsv | int32 | 重建次级顶点数 | 1 | 100% |
| Jet_CustomTagger_npv | int32 | 关联初级顶点数 | 11 | 100% |
#### 3. 带电荷粒子候选(Cpfcan)特征(每个喷注最多25条,下标0–24)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| Jet_CustomTagger_Cpfcan_puppiw_{i} | float | 粒子候选质量权重 | 1.0 | 100% |
| Jet_CustomTagger_Cpfcan_drminsv_{i} | float | 与最近次级顶点最小距离 | 0.083 | 100% |
| Jet_CustomTagger_Cpfcan_ptrel_{i} | float | 相对于喷注的横向动量比 | -0.989 | 100% |
| Jet_CustomTagger_Cpfcan_chi2_{i} | float | 轨迹拟合卡方值 | -1.0 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackDeltaR_{i} | float | 与喷注轴的ΔR | 0.0 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackEtaRel_{i} | float | 相对喷注的赝快度 | 3.418 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackJetDistVal_{i} | float | 轨迹到喷注轴距离 | -0.00021 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackPPar_{i} | float | 平行于喷注方向的动量 | 5.969 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackPParRatio_{i} | float | 动量平行分量占比 | 0.998 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackPtRel_{i} | float | 相对横向动量 | 0.366 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackSip2dSig_{i} | float | 2D横向撞击参数显著性 | -0.072 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackSip3dSig_{i} | float | 3D撞击参数显著性 | -0.087 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackSip2dVal_{i} | float | 2D横向撞击参数值 | -0.00021 | 100% |
| Jet_CustomTagger_Cpfcan_BtagPf_trackSip3dVal_{i} | float | 3D撞击参数值 | -0.00028 | 100% |
| Jet_CustomTagger_Cpfcan_VTX_ass_{i} | int32 | 关联次级顶点索引 | 1 | 100% |
| Jet_CustomTagger_Cpfcan_quality_{i} | int32 | 轨迹质量标志 | 7 | 100% |
#### 4. 中性粒子候选(Npfcan)特征(每个喷注最多25条,下标0–24)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| Jet_CustomTagger_Npfcan_puppiw_{i} | float | 中性粒子质量权重 | 0.0 | 100% |
| Jet_CustomTagger_Npfcan_deltaR_{i} | float | 与喷注轴ΔR | 0.0 | 100% |
| Jet_CustomTagger_Npfcan_drminsv_{i} | float | 距最近次级顶点距离 | 0.0 | 100% |
| Jet_CustomTagger_Npfcan_HadFrac_{i} | float | 强子能量占比 | 0.0 | 100% |
| Jet_CustomTagger_Npfcan_ptrel_{i} | float | 相对横向动量 | 0.0 | 100% |
| Jet_CustomTagger_Npfcan_isGamma_{i} | int32 | 是否为光子候选 | 0 | 100% |
#### 5. 次级顶点(SV)特征(每个喷注最多5个,下标0–4)
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|----------|----------|----------|----------|--------|
| Jet_CustomTagger_sv_mass_{i} | float | 次级顶点不变质量(GeV) | 1.812 | 100% |
| Jet_CustomTagger_sv_pt_{i} | float | 次级顶点横向动量(GeV) | 37.42 | 100% |
| Jet_CustomTagger_sv_ntracks_{i} | int32 | 次级顶点关联轨迹数 | 3 | 100% |
| Jet_CustomTagger_sv_chi2_{i} | float | 顶点拟合卡方值 | 12.53 | 100% |
| Jet_CustomTagger_sv_normchi2_{i} | float | 归一化卡方 | 4.18 | 100% |
| Jet_CustomTagger_sv_dxy_{i} | float | 横向撞击参数值 | 0.125 | 100% |
| Jet_CustomTagger_sv_dxysig_{i} | float | 横向撞击参数显著性 | 8.73 | 100% |
| Jet_CustomTagger_sv_d3d_{i} | float | 3D撞击参数值 | 0.215 | 100% |
| Jet_CustomTagger_sv_d3dsig_{i} | float | 3D撞击参数显著性 | 12.68 | 100% |
| Jet_CustomTagger_sv_deltaR_{i} | float | 顶点与喷注轴ΔR | 0.185 | 100% |
| Jet_CustomTagger_sv_enratio_{i} | float | 顶点能量占喷注能量比 | 0.082 | 100% |
| Jet_CustomTagger_sv_costhetasvpv_{i} | float | 顶点-初级顶点夹角余弦 | -0.392 | 100% |
| Jet_CustomTaggerExtra_sv_phirel_{i} | float | 顶点相对方位角 | 0.264 | 100% |
| Jet_CustomTaggerExtra_sv_ptrel_{i} | float | 顶点横向动量相对比 | 0.368 | 100% |
### 数据分布情况
#### 1. 喷注数量分布(按单事件喷注数)
| 单事件喷注数 | 事件数 | 占比 | 累计占比 |
|------------|--------|------|----------|
| 2 | 27 | 0.08% | 0.08% |
| 3 | 281 | 0.85% | 0.93% |
| 4 | 1,541 | 4.67% | 5.60% |
| 5 | 4,127 | 12.51% | 18.11% |
| 6 | 5,935 | 17.98% | 36.09% |
| 7 | 6,391 | 19.37% | 55.46% |
| 8 | 5,475 | 16.59% | 72.05% |
| 9 | 3,854 | 11.68% | 83.73% |
| 10 | 2,450 | 7.42% | 91.15% |
| 11 | 1,443 | 4.37% | 95.52% |
| 12 | 806 | 2.44% | 97.96% |
| 13 | 378 | 1.15% | 99.11% |
| 14–20 | 291 | 0.89% | 100.00% |
#### 2. 喷注横向动量(pT)分布
| pT 区间(GeV) | 喷注数 | 占比 |
|----------------|--------|------|
| 0–20 | 46,953 | 19.10% |
| 20–40 | 77,457 | 31.51% |
| 40–60 | 44,579 | 18.14% |
| 60–100 | 46,983 | 19.12% |
| 100–200 | 25,902 | 10.54% |
| 200–500 | 3,757 | 1.53% |
| >500 | 152 | 0.06% |
统计特征:均值约 65 GeV,中位数约 45 GeV,覆盖从低动量到高动量喷注的完整动力学区间。
#### 3. 喷注赝快度(eta)分布
| eta 区间 | 喷注数 | 占比 |
|----------|--------|------|
| -5 ~ -2.5(前向区) | 20,389 | 8.30% |
| -2.5 ~ -1.5(中前向区) | 28,068 | 11.42% |
| -1.5 ~ 0(中心区) | 73,941 | 30.08% |
| 0 ~ 1.5(中心区) | 74,214 | 30.19% |
| 1.5 ~ 2.5(中前向区) | 28,278 | 11.51% |
| 2.5 ~ 5(前向区) | 20,457 | 8.32% |
数据在中心赝快度区(|eta|<1.5)呈对称分布,约60%的喷注集中于该区域,符合强子对撞机的典型特征。
#### 4. 强子味道分布(hadronFlavour)
| 味道类别 | 喷注数 | 占比 |
|----------|--------|------|
| 轻子(0) | 163,012 | 66.32% |
| c强子(4) | 21,128 | 8.60% |
| b强子(5) | 61,643 | 25.08% |
数据集包含约四分之一的b强子喷注,这是训练与评估b标记算法的关键样本来源。
#### 5. 母部分子味道分布(partonFlavour,按夸克类型合并)
| 母部分子 | 喷注数 | 占比 |
|----------|--------|------|
| 胶子 g(21) | 62,796 | 25.55% |
| b夸克(±5) | 61,498 | 25.02% |
| 胶子/未知(0) | 45,384 | 18.47% |
| d夸克(±2) | 21,335 | 8.68% |
| c夸克(±4) | 20,112 | 8.18% |
| u夸克(±1) | 18,434 | 7.50% |
| s夸克(±3) | 16,224 | 6.60% |
#### 6. B强子数量分布(nBHadrons)
| B强子数 | 喷注数 | 占比 |
|--------|--------|------|
| 0 | 184,140 | 74.92% |
| 1 | 60,766 | 24.72% |
| 2 | 861 | 0.35% |
| 3 | 16 | 0.01% |
约25%的喷注包含至少一个B强子,其中绝大多数B喷注只含有一个B强子,双B强子喷注约占0.35%。
#### 7. 次级顶点数量分布(nsv)
| 次级顶点数 | 喷注数 | 占比 |
|----------|--------|------|
| 0 | 177,273 | 72.13% |
| 1 | 56,609 | 23.03% |
| 2 | 9,961 | 4.05% |
| 3 | 1,626 | 0.66% |
| 4 | 264 | 0.11% |
| 5+ | 50 | 0.02% |
约28%的喷注至少含有一个重建次级顶点,这是典型的b标记特征样本分布。
#### 8. 初级顶点关联数分布(npv,Top 5)
| 初级顶点数 | 喷注数 | 占比 |
|-----------|--------|------|
| 7 | 15,964 | 6.50% |
| 8 | 20,815 | 8.47% |
| 9 | 24,218 | 9.85% |
| 10 | 26,720 | 10.87% |
| 11 | 26,217 | 10.67% |
#### 9. 衰变细分代码分布(FlavSplit,按类别合并)
| 衰变类型 | 喷注数 | 占比 |
|---------|--------|------|
| 底介子(5xx) | 61,444 | 25.00% |
| 轻子/未知(0) | 59,365 | 24.15% |
| 其他(1) | 38,551 | 15.68% |
| 顶夸克(1000) | 30,009 | 12.21% |
| 粲介子(4xx) | 20,703 | 8.42% |
| 胶子(999) | 19,981 | 8.13% |
| 其他(2) | 15,730 | 6.40% |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|----------|----------|----------|
| 大规模真实物理样本 | 3.3万事件、24.6万喷注,覆盖多动量、多快度区间 | 为深度学习模型训练提供充足样本,避免过拟合 |
| 完整的b标记特征链 | 同时包含粒子级(Cpfcan/Npfcan)、顶点级(SV)、事件级特征 | 支持从简单阈值算法到深度神经网络的全谱系b标记方法研究 |
| 全字段100%完整性 | 632个字段无缺失值,所有喷注均具备完整特征 | 无需数据填补处理,可直接用于建模 |
| 物理标签齐备 | 同时提供 hadronFlavour、partonFlavour、FlavSplit 三种味道标签 | 可进行多角度的味道识别任务(b/c/轻子/胶子分类) |
| 双粒子候选系统 | 同时提供带电荷粒子(Cpfcan,最多25条)与中性粒子(Npfcan,最多25条)特征 | 可分别评估基于带电轨迹与基于完整 calorimeter 信息的标记方法 |
| 多次级顶点支持 | 每个喷注最多5个次级顶点的完整重建信息 | 支持多顶点b标记算法(如 MV2、MV2c 的训练与优化) |
| 高效列式存储 | Apache Parquet 格式,列式压缩,支持向量化读取 | 便于大数据平台(Spark、Dask)高效加载,适合分布式训练 |
| 真实物理分布 | 样本涵盖0–500 GeV+动量区间、中心到前向赝快度区 | 训练出的模型具备良好的物理外推能力 |
## 数据样例
以下展示从全量数据集中随机抽取的代表性样例,涵盖不同动量区间、不同味道类型及不同顶点结构的喷注记录。样例仅展示核心字段,完整字段请以原始Parquet文件为准。
样例1:b夸克喷注(高动量区,含次级顶点)| 字段 | 数值 |
|------|------|
| Jet_pt | 121.56 GeV |
| Jet_eta | -0.576 |
| Jet_hadronFlavour | 5(b强子) |
| Jet_partonFlavour | -5(b夸克) |
| Jet_nBHadrons | 1 |
| Jet_nCHadrons | 2 |
| Jet_FlavSplit | 500(底介子) |
| Jet_CustomTagger_npv | 12 |
| Jet_CustomTagger_nsv | 1 |
| Jet_CustomTagger_nCpfcand | 7 |
| Jet_CustomTagger_nNpfcand | 14 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 25.23 GeV |
| Jet_eta | 1.492 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 21(胶子g) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 0(轻子/未知) |
| Jet_CustomTagger_npv | 8 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 8 |
| Jet_CustomTagger_nNpfcand | 7 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 23.27 GeV |
| Jet_eta | 2.889 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 2(d夸克) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 1(其他类型) |
| Jet_CustomTagger_npv | 10 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 0 |
| Jet_CustomTagger_nNpfcand | 8 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 15.52 GeV |
| Jet_eta | -4.405 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 0(未知) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 999(胶子标记) |
| Jet_CustomTagger_npv | 11 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 0 |
| Jet_CustomTagger_nNpfcand | 16 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 46.59 GeV |
| Jet_eta | -1.467 |
| Jet_hadronFlavour | 5(b强子) |
| Jet_partonFlavour | 5(b夸克) |
| Jet_nBHadrons | 1 |
| Jet_nCHadrons | 2 |
| Jet_FlavSplit | 500(底介子) |
| Jet_CustomTagger_npv | 5 |
| Jet_CustomTagger_nsv | 1 |
| Jet_CustomTagger_nCpfcand | 12 |
| Jet_CustomTagger_nNpfcand | 7 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 49.25 GeV |
| Jet_eta | 0.555 |
| Jet_hadronFlavour | 5(b强子) |
| Jet_partonFlavour | 5(b夸克) |
| Jet_nBHadrons | 1 |
| Jet_nCHadrons | 1 |
| Jet_FlavSplit | 520(底介子激发态) |
| Jet_CustomTagger_npv | 7 |
| Jet_CustomTagger_nsv | 1 |
| Jet_CustomTagger_nCpfcand | 10 |
| Jet_CustomTagger_nNpfcand | 2 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 169.50 GeV |
| Jet_eta | -0.833 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | -2(d夸克) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 1(其他类型) |
| Jet_CustomTagger_npv | 14 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 13 |
| Jet_CustomTagger_nNpfcand | 6 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 98.88 GeV |
| Jet_eta | -0.461 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 21(胶子g) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 0(轻子/未知) |
| Jet_CustomTagger_npv | 7 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 15 |
| Jet_CustomTagger_nNpfcand | 14 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 24.53 GeV |
| Jet_eta | -1.026 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 21(胶子g) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 0(轻子/未知) |
| Jet_CustomTagger_npv | 19 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 8 |
| Jet_CustomTagger_nNpfcand | 7 |
| 字段 | 数值 |
|------|------|
| Jet_pt | 69.94 GeV |
| Jet_eta | 0.823 |
| Jet_hadronFlavour | 0(轻子) |
| Jet_partonFlavour | 1(u夸克) |
| Jet_nBHadrons | 0 |
| Jet_nCHadrons | 0 |
| Jet_FlavSplit | 1(其他类型) |
| Jet_CustomTagger_npv | 11 |
| Jet_CustomTagger_nsv | 0 |
| Jet_CustomTagger_nCpfcand | 1 |
| Jet_CustomTagger_nNpfcand | 10 |
> 说明:完整数据集中包含 245,783 条喷注记录,每条记录有 632 个特征字段。由于篇幅限制,上述样例仅展示每条喷注记录的核心字段。实际数据集包含每个带电荷粒子候选(最多25条)的16个特征、每个中性粒子候选(最多25条)的6个特征、每个次级顶点(最多5个)的14个特征,共计数百维的完整低层物理信息,可直接用于底层特征驱动的算法研究。
## 应用场景
### 场景一:B标记算法的训练与性能评估
B标记算法是LHC实验中寻找希格斯玻色子衰变(H→bb̄)、顶夸克(t→Wb)、以及新物理粒子的核心工具。本数据集提供了从粒子级撞击参数到次级顶点拓扑的完整特征链,可用于训练包括但不限于以下b标记算法:基于简单阈值的Impact Parameter(IP)算法、基于多变量分析的MV2/MV2c算法、以及基于深度学习的DL1/DL1r算法。研究者可利用 hadronFlavour 字段作为真值标签,系统评估不同算法在不同动量区间(低pT、中pT、高pT)和不同赝快度区域(中心区、前向区)的识别效率与本底拒绝率。数据集提供的约6.2万个b喷注与约18.4万个非b喷注样本,足以支持具有统计显著性的分类器训练与ROC曲线绘制,为ATLAS/CMS实验的b标记刻度提供独立验证。
### 场景二:多类别味道识别与胶子-夸克喷注鉴别
除b标记外,数据集同时支持多类别味道分类任务:利用 partonFlavour 字段可将喷注区分为u、d、s、c、b、胶子等多种母部分子来源;利用 FlavSplit 字段可进一步细分为底介子、粲介子、顶夸克、轻子等子类。特别是胶子喷注与夸克喷注的鉴别(g/q tagging)在希格斯玻色子的强子衰变(H→gg)寻找中至关重要。本数据集包含约25.6%的胶子喷注样本与25.0%的b夸克喷注样本,以及c、u、d、s夸克喷注各约6%–9%,为多类别分类器的训练与校准提供了均衡的样本分布。研究者可基于Cpfcan的撞击参数、动量比特征,结合Npfcan的中性粒子能量分配特征,构建高精度的多类味道识别模型。
### 场景三:次级顶点重建算法开发与验证
次级顶点(SV)的重建质量直接决定了b标记算法的性能上限。本数据集为每个喷注提供了最多5个次级顶点的完整重建信息,包括顶点质量(sv_mass)、动量(sv_pt)、轨迹关联数(sv_ntracks)、拟合质量(sv_chi2、sv_normchi2)、撞击参数(sv_dxy、sv_d3d)及其显著性(sv_dxysig、sv_d3dsig)等14项特征。约28%的喷注至少包含一个次级顶点,这一比例与真实LHC数据的b喷注比例相符。研究者可利用这些特征评估不同SV重建算法(如基于自适应顶点选择、基于机器学习的顶点过滤)的性能,优化顶点-喷注关联策略,或开发基于SV拓扑的新型b标记判别变量。此外,sv_enratio(顶点能量占比)和sv_deltaR(顶点-喷注轴距离)等特征还可用于研究b强子在喷注中的能量分配与空间分布规律。
### 场景四:深度学习与图神经网络架构研究
632维的丰富特征空间为深度学习架构的设计与对比提供了广阔空间。研究者可构建基于全连接神经网络(FCNN)的传统b标记模型,也可设计基于粒子序列的Transformer或基于粒子关系的图神经网络(GNN)架构——例如将Cpfcan与Npfcan视为图节点,使用轨迹动量比、撞击参数等作为节点特征,使用ΔR作为边权重,构建喷注级的粒子关系图。数据集提供的每个喷注最多25条带电荷粒子与25条中性粒子的序列结构,天然适配基于序列或图的深度学习方法。同时,约24.6万的样本量足以支撑深模型的训练而不致过拟合。该数据集还可用于研究动量校准(momentum calibration)对模型性能的影响,以及评估模型在不同训练-测试动量区间间的泛化能力。
### 场景五:新物理搜索与超出标准模型(BSM)研究
在寻找超出标准模型的新物理粒子时,b标记是区分信号过程(如H→bb̄、A→bb̄、H+→τν)与本底过程(如Z→bb̄、QCD多喷注)的关键手段。本数据集的动量区间覆盖了从低动量(<20 GeV)到高动量(>500 GeV)的完整范围,涵盖了新物理搜索中典型的硬散射过程产生的喷注。研究者可基于该数据集开发针对特定BSM模型优化的b标记算法——例如,针对重希格斯玻色子衰变产生的高动量b喷注(boosted bb̄系统),利用数据集提供的粒子级ΔR、撞击参数等特征设计专门的 boosted b-tagger;或利用多次级顶点特征研究长寿命粒子的衰变拓扑结构。此外,数据集的3.3万事件规模也允许进行初步的新物理信号敏感度分析,为后续更大规模的数据集采集与分析提供方法学验证。
## 结尾
本数据集以3.3万个真实物理事件与24.6万喷注的规模,提供了覆盖从基础运动学到高级b标记特征的完整632维特征信息,是高能物理喷注物理与b标记算法研究的重要数据资源。其核心价值体现在三个方面:一是完整的特征链设计,从粒子级撞击参数、动量比到顶点级拓扑、质量重建,再到事件级味道标签,形成了可支持从经典算法到前沿深度学习的全谱系研究的特征生态;二是真实的物理分布,涵盖0–500 GeV+动量区间与中心-前向赝快度区,包含约25%的b喷注、25%的胶子喷注及其他各类味道喷注,样本分布均衡且物理意义明确;三是全字段100%的完整性,无缺失值的高质量数据可直接用于建模,大幅降低了数据预处理成本。
无论是面向b标记算法的优化与刻度、多类别味道识别、次级顶点重建,还是深度学习架构的探索与新物理搜索,本数据集均能提供有力支撑。研究者可基于此数据集开展算法原型开发与性能验证工作,所获得的方法学成果可直接迁移到更大规模的LHC真实数据分析中。
若需获取更多关于本数据集的详细信息、特征工程建议或算法使用范例,可进一步咨询获取。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:





