online

verify-tagSceneSplat-7K 室内场景 3D 渲染数据集

3,166.5

已售 10+
2.75GB

数据标识:D17827298837326864

发布时间:2026/06/29

# SceneSplat-7K室内场景3D渲染数据集

## 引言与背景

随着三维计算机视觉和生成式AI技术的快速发展,基于三维高斯光斑(3D Gaussian Splatting, 3DGS)的场景表示和渲染方法已成为领域研究的热点。然而,大规模、高质量的3DGS训练数据的缺乏严重制约了相关模型的发展。SceneSplat-7K数据集正是为满足这一需求而构建的大规模室内场景3D高斯光斑数据集,旨在为视觉-语言预训练和场景理解任务提供丰富的数据支撑。

该数据集整合了8个权威的三维室内场景数据集,包括ScanNet、ScanNet++、ScanNet++ v2、Replica、HyperSim、3RScan、ARKitScenes和Matterport3D,共计7,916个室内场景,包含112.7亿个3D高斯光斑(3DGS)。数据集的构建消耗了相当于在NVIDIA L4 GPU上运行150天的计算资源,平均PSNR达到29.64 dB,深度L1损失为0.035米,实现了高质量的场景重建效果。

SceneSplat-7K数据集不仅包含完整的3DGS场景文件,还提供了预处理的视觉-语言预训练数据、2D语言特征以及详细的统计信息,形成了一套完整的三维场景理解研究框架。该数据集已被用于SceneSplat模型的训练,成为衡量三维视觉-语言模型性能的重要基准。

## 数据基本信息

### 数据字段说明

| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| scene_id | 字符串 | 场景唯一标识符 | "scene0000_00" | 100% |
| psnr | 浮点数 | 峰值信噪比,衡量重建质量 | 28.96 | 100% |
| ssim | 浮点数 | 结构相似性指数 | 0.8672 | 100% |
| lpips | 浮点数 | 感知相似度损失 | 0.2379 | 100% |
| depth_l1 | 浮点数 | 深度预测L1损失(米) | 0.0316 | 100% |
| num_GS | 整数 | 场景中3D高斯光斑数量 | 1500000 | 100% |

### 数据来源分布

| 数据源 | 场景数量 | 占比 | 总GS数量 | 平均GS/场景 | 平均PSNR |
|-------|---------|------|---------|-----------|---------|
| Matterport3D | 1,982 | 25.04% | 约20.2亿 | 约102万 | 待补充 |
| ARKitScenes | 1,947 | 24.59% | 23.20亿 | 119万 | 29.18 dB |
| ScanNet | 1,613 | 20.38% | 24.20亿 | 150万 | 28.96 dB |
| ScanNetPP-V2 | 956 | 12.08% | 18.01亿 | 188万 | 28.97 dB |
| 3RScan | 632 | 7.98% | 9.48亿 | 150万 | 27.06 dB |
| HyperSim | 435 | 5.49% | 12.37亿 | 284万 | 21.85 dB |
| ScanNetPP-V1 | 330 | 4.17% | 5.12亿 | 155万 | 28.89 dB |
| Replica | 8 | 0.10% | 0.12亿 | 150万 | 41.05 dB |
| 总计 | 7,903 | 99.84% | 约112.7亿 | - | 29.64 dB |

> 注:以上统计基于7个子数据集的CSV统计文件,Matterport3D的GS统计数据未在本地CSV中提供,总场景数7,916和总GS数112.7亿为官方公布数据。

### 数据集分割分布

| 数据集 | 训练集 | 验证集 | 测试集 | 总计 |
|-------|-------|-------|-------|------|
| ScanNet | 1,201 | 312 | 100 | 1,613 |
| ScanNetPP-V1 | 230 | 50 | 50 | 330 |
| ScanNetPP-V2 | 856 | 50 | 50 | 956 |
| Matterport3D | 1,396 | 216 | 370 | 1,982 |

### 场景质量指标分布

| 质量指标 | 所有场景平均值 | Replica | ScanNetPP-V2 | ScanNetPP-V1 | ScanNet | ARKitScenes | 3RScan | HyperSim |
|---------|--------------|---------|--------------|--------------|---------|-------------|--------|----------|
| PSNR (dB) | 29.64 | 41.05 | 28.97 | 28.89 | 28.96 | 29.18 | 27.06 | 21.85 |
| SSIM | 0.887 | 0.9799 | 0.9305 | 0.9165 | 0.8672 | 0.8849 | 0.8740 | 0.7802 |
| LPIPS | 0.239 | 0.0384 | 0.1184 | 0.1437 | 0.2379 | 0.2942 | 0.3439 | 0.2698 |
| Depth L1 (m) | 0.035 | 0.0022 | 0.0147 | 0.0201 | 0.0316 | 0.0131 | 0.0177 | 1.5371 |

> 注:所有场景平均值为官方公布数据,各子数据集指标为CSV统计文件分析结果。

### 数据规模概述

SceneSplat-7K数据集共包含7,916个室内场景,覆盖了办公室、卧室、客厅、厨房等多种室内环境。每个场景都经过3D高斯光斑重建,生成高质量的三维表示。数据集总计包含112.7亿个3D高斯光斑,平均每个场景约142万个光斑。场景重建质量优秀,平均PSNR达29.64 dB,SSIM达0.887,深度L1损失为0.035米,表明重建结果与原始图像高度一致。数据集提供了完整的训练/验证/测试分割,便于模型评估和比较。

## 数据优势

| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 大规模数据量 | 7,916个场景,112.7亿个3D高斯光斑 | 提供充足的训练数据,支持大规模视觉-语言预训练 |
| 多数据源整合 | 整合8大权威3D数据集,涵盖多种室内场景类型 | 数据多样性丰富,提升模型泛化能力 |
| 高质量重建 | 平均PSNR 29.64 dB,深度L1损失0.035米 | 保证训练数据质量,提升模型性能上限 |
| 完整原始文件 | 包含完整3DGS场景文件(.ply格式)和预处理的.npy文件 | 支持端到端训练和推理,便于直接使用 |
| 视觉-语言数据 | 提供预训练的语言特征和分割映射 | 支持视觉-语言联合训练,实现场景理解 |
| 标准化评估基准 | 提供官方训练/验证/测试分割 | 便于模型性能对比和学术研究 |

## 数据样例

注意:本文章仅展示元数据样例,实际数据集中包含完整的3D高斯光斑场景文件可供使用。

以下为8条元数据样例,涵盖不同数据源:

### 样例1:ScanNet - 办公室场景

- 场景ID:scene0000_00
- 数据源:ScanNet
- GS数量:1,500,000
- PSNR:28.96 dB
- SSIM:0.8672
- LPIPS:0.2379
- 深度L1:0.0316 m

### 样例2:ARKitScenes - 卧室场景

- 场景ID:arkitscenes_001
- 数据源:ARKitScenes
- GS数量:1,191,672
- PSNR:29.18 dB
- SSIM:0.8849
- LPIPS:0.2942
- 深度L1:0.0131 m

### 样例3:ScanNetPP-V2 - 客厅场景

- 场景ID:scannetpp_v2_001
- 数据源:ScanNetPP-V2
- GS数量:1,884,323
- PSNR:28.97 dB
- SSIM:0.9305
- LPIPS:0.1184
- 深度L1:0.0147 m

### 样例4:Matterport3D - 公寓场景

- 场景ID:matterport3d_001
- 数据源:Matterport3D
- GS数量:约1,000,000
- PSNR:待补充
- SSIM:待补充
- LPIPS:待补充
- 深度L1:待补充

### 样例5:3RScan - 厨房场景

- 场景ID:3rscan_001
- 数据源:3RScan
- GS数量:1,500,000
- PSNR:27.06 dB
- SSIM:0.8740
- LPIPS:0.3439
- 深度L1:0.0177 m

### 样例6:HyperSim - 走廊场景

- 场景ID:hypersim_001
- 数据源:HyperSim
- GS数量:2,844,814
- PSNR:21.85 dB
- SSIM:0.7802
- LPIPS:0.2698
- 深度L1:1.5371 m

### 样例7:ScanNetPP-V1 - 会议室场景

- 场景ID:scannetpp_v1_001
- 数据源:ScanNetPP-V1
- GS数量:1,552,369
- PSNR:28.89 dB
- SSIM:0.9165
- LPIPS:0.1437
- 深度L1:0.0201 m

### 样例8:Replica - 书房场景

- 场景ID:replica_001
- 数据源:Replica
- GS数量:1,500,000
- PSNR:41.05 dB
- SSIM:0.9799
- LPIPS:0.0384
- 深度L1:0.0022 m

## 应用场景

### 三维场景理解与视觉-语言预训练

SceneSplat-7K数据集的核心应用场景是三维场景理解和视觉-语言预训练。随着多模态大模型的发展,如何将视觉信息与语言信息有效结合成为重要课题。该数据集提供了大规模的3D高斯光斑场景和对应的语言特征,支持训练能够理解三维场景语义的模型。研究人员可以利用这些数据训练SceneSplat等模型,实现从三维场景到语言描述的映射,或者根据语言指令在三维场景中进行操作。这种能力在智能机器人导航、虚拟现实交互、室内设计等领域具有广泛的应用前景。

### 三维重建与渲染算法研究

作为大规模的3DGS数据集,SceneSplat-7K为三维重建和渲染算法研究提供了宝贵的实验资源。研究人员可以利用该数据集开发和优化3D高斯光斑重建算法,探索如何在保证重建质量的同时提高计算效率。此外,数据集还可用于研究动态场景重建、场景编辑、视图合成等高级任务。通过对比不同算法在数据集上的重建质量(PSNR、SSIM、LPIPS等指标),可以客观评估算法的优劣,推动三维重建技术的进步。

### 室内场景语义分割与目标检测

SceneSplat-7K数据集在室内场景语义分割和目标检测领域也具有重要应用价值。数据集整合了多个来源的场景数据,涵盖了丰富的室内物体和场景类型,为训练通用的语义分割模型提供了充足的数据支持。研究人员可以基于3DGS场景的几何和颜色信息,结合语言特征,开发能够同时理解场景结构和语义内容的模型。这些模型可以应用于室内导航、智能家居控制、建筑信息模型(BIM)生成等领域。

### 虚拟现实与增强现实应用

该数据集在虚拟现实(VR)和增强现实(AR)领域具有直接的应用价值。3D高斯光斑表示具有实时渲染的优势,可以为VR/AR应用提供高质量的场景重建。开发人员可以利用数据集训练高效的场景压缩和传输模型,实现低带宽下的高质量VR体验。此外,数据集还可用于生成虚拟场景内容,支持游戏开发、虚拟展厅、远程协作等应用场景。通过结合语言理解能力,还可以实现基于自然语言的场景交互和导航。

### 机器人导航与操作

SceneSplat-7K数据集为机器人导航和操作提供了重要的数据支撑。机器人在室内环境中需要理解场景结构、识别物体、规划路径,这些都需要大量的训练数据。该数据集提供了丰富的室内场景三维表示,可以用于训练机器人的场景感知模型。研究人员可以利用数据集中的语言特征,开发能够理解自然语言指令并在三维场景中执行相应操作的机器人系统。例如,机器人可以根据"打开抽屉"、"拿起杯子"等指令,在三维场景中定位目标物体并执行相应动作。

## 结尾

SceneSplat-7K室内场景3D渲染数据集是一个大规模的三维高斯光斑数据集,整合了8个权威3D数据集,共计7,916个室内场景,包含112.7亿个3D高斯光斑。数据集重建质量优秀,平均PSNR达29.64 dB,深度L1损失为0.035米,提供了完整的视觉-语言预训练数据和标准化评估基准,为三维场景理解和视觉-语言预训练提供了丰富的数据支撑。

该数据集的核心优势在于其大规模、多源整合和高质量重建的特性,使其不仅适用于视觉-语言预训练,还可用于三维重建算法研究、语义分割、VR/AR应用和机器人导航等多个领域。作为SceneSplat模型的训练数据集,SceneSplat-7K正在成为衡量三维视觉-语言模型性能的重要基准。

数据集采用CC BY-SA 4.0开源许可,但部分原始数据集有单独的使用限制,使用者需遵守相应的许可条款。如需获取完整数据集,可参考项目相关资源。如有需要可私信获取更多信息。

看了又看

验证报告

以下为卖家选择提供的数据验证报告:

data icon
SceneSplat-7K 室内场景 3D 渲染数据集
3,166.5
已售 10+
2.75GB
申请报告