# LET-Base-Dataset:1000小时全尺寸人形机器人真实世界多任务数据集深度分析
## 引言与背景
人形机器人技术正处于快速发展阶段,而高质量的真实世界数据集是推动这一领域进步的关键基础。LET-Base-Dataset 作为一个大规模全尺寸人形机器人真实世界遥操作数据集,为机器人学习、模仿学习和技能迁移研究提供了宝贵的数据资源。该数据集包含超过1000小时的真实世界操作数据,覆盖55+子任务,涉及工业制造、快消品、物流、酒店服务、3C工厂和家庭服务等多个领域,具有极高的研究价值和应用价值。
数据集由乐聚机器人(LejuRobotics)构建,基于 Kuavo 4Pro 和 Kuavo 5W 两种人形机器人平台采集。数据内容包括完整的 ROSbag 轨迹文件、语义标注 JSON 文件,以及多模态观测数据(RGB图像、深度图像、关节状态、IMU数据等)。这些数据对于训练机器人模仿学习模型、开发机器人操控算法、研究人机协作策略具有重要意义,能够显著加速人形机器人在真实场景中的应用落地。
## 数据基本信息
### 数据字段说明
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
| :--- | :--- | :--- | :--- | :--- |
| location | string | 数据采集地点 | 长三角一体化示范区智能机器人训练中心 | 100% |
| primaryScene | string | 一级场景名称 | 默认一级场景 | 100% |
| primarySceneCode | string | 一级场景编码 | default_level_one_scene | 100% |
| secondaryScene | string | 二级场景名称 | 快消场景 | 100% |
| secondarySceneCode | string | 二级场景编码 | fast moving consumer goods | 100% |
| tertiaryScene | string | 三级场景名称 | 快消装箱 | 100% |
| tertiarySceneCode | string | 三级场景编码 | goods orders | 100% |
| initSceneText | string | 初始场景描述 | 快消品凌乱的放置在桌子中间... | 100% |
| englishInitSceneText | string | 初始场景英文描述 | FMCG items are placed in a mess... | 100% |
| taskGroupName | string | 任务组名称 | 多个快消订单装箱 | 100% |
| taskGroupCode | string | 任务组编码 | more_goods_orders | 100% |
| taskName | string | 任务名称 | 多个快消品装箱 | 100% |
| taskCode | string | 任务编码 | KXPZX_15 | 100% |
| deviceSn | string | 设备序列号 | P4-195 | 100% |
| taskPrompt | string | 任务提示 | (空或具体提示) | 95% |
| marks | array | 语义标注数组 | [{taskId, markStart, ...}] | 部分 |
### 数据分布情况
#### 平台分布
| 平台 | real/Labelled | real/Unlabelled | sim | 典型末端执行器 |
| :--- | :---: | :---: | :---: | :--- |
| Kuavo4Pro | 37 | 29 | 4 | dex_hand / leju_claw / claw / linker_hand_l6 |
| Kuavo5W | 4 | 0 | 0 | dex_hand / leju_claw |
| 合计 | 41 | 29 | 4 | - |
#### 场景领域分布
| 场景领域 | 代表任务 | 数据占比 |
| :--- | :--- | :---: |
| 汽车工厂 | 钣金上料、工装上料、SPS 分拣 | 18% |
| 快消品 | 日化品分拣、扫码称重、商品上架 | 22% |
| 物流 | 快递分拣、传送带分拣、包裹称重 | 20% |
| 3C 工厂 | SMT 料盘下料、零件分拣 | 15% |
| 酒店服务 | 递送房卡、送水、客户入住 | 10% |
| 家庭服务 | 桌面整理、衣物收纳、垃圾分类 | 10% |
| Benchmark | 拧瓶盖、倒米、削柠檬、排列木块 | 5% |
#### 时间分布(按采集日期)
| 日期 | 记录数量 | 占比 |
| :--- | :---: | :---: |
| 2025-08-09 | 20 | 10% |
| 2025-08-10 | 15 | 7% |
| 2025-08-11 | 25 | 12% |
| 2025-08-12 | 35 | 17% |
| 2025-08-13 | 28 | 14% |
| 2025-08-14 | 22 | 11% |
| 2025-08-15 | 20 | 10% |
| 其他日期 | 38 | 19% |
### 原子技能分布
数据集包含117种原子技能标注,主要包括:
| 技能类型 | 具体技能 | 应用场景 |
| :--- | :--- | :--- |
| 抓取类 | grab, pick | 从桌面或容器中抓取物品 |
| 放置类 | place, put | 将物品放置到目标位置 |
| 旋转类 | rotate | 旋转物体或调整姿态 |
| 推拉类 | push, pull | 推动或拉动物体 |
| 按压类 | press | 按压按钮或开关 |
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
| :--- | :--- | :--- |
| 大规模真实数据 | 1000+小时全尺寸人形机器人真实世界遥操作数据 | 提供丰富的训练样本,提升模型泛化能力 |
| 多模态观测 | RGB + Depth + 关节状态 + IMU,三视角(头部/左腕/右腕) | 支持多模态融合学习,提升感知精度 |
| 多末端执行器 | 灵巧手、夹爪、六轴灵巧手 | 覆盖不同操作需求,支持技能迁移研究 |
| 高质量语义标注 | 117种原子技能标注,中英双语描述 | 支持language-conditioned policy训练 |
| 完整工具链 | rosbag转换、模型训练到推理部署 | 开箱即用,降低使用门槛 |
| 跨场景覆盖 | 7大领域55+子任务 | 支持通用机器人技能学习 |
## 数据样例
以下为快消装箱任务的语义标注样例:
json
{
"location": "长三角一体化示范区智能机器人训练中心",
"primaryScene": "默认一级场景",
"secondaryScene": "快消场景",
"tertiaryScene": "快消装箱",
"taskGroupName": "多个快消订单装箱",
"taskName": "多个快消品装箱",
"taskCode": "KXPZX_15",
"deviceSn": "P4-195",
"marks": [
{
"taskId": "1948780548486991872",
"markStart": "2025-08-09 13:44:44.895",
"markEnd": "2025-08-09 13:44:46.620",
"duration": 1.725,
"startPosition": "0.05157894836592963",
"endPosition": "0.09263158096166861",
"skillAtomic": "grab",
"skillDetail": "右手抓取前方桌面上的快消品瓶子",
"enSkillDetail": "Grab the fast-moving consumer goods bottle on the table in front of you with your right hand",
"markType": "step"
},
{
"taskId": "1948780548486991872",
"markStart": "2025-08-09 13:44:46.620",
"markEnd": "2025-08-09 13:44:48.988",
"duration": 2.368,
"startPosition": "0.09263158096166861",
"endPosition": "0.14894737443252437",
"skillAtomic": "place",
"skillDetail": "右手将快消瓶子放置到绿色物料框中",
"enSkillDetail": "Place the FMCG bottle into the green material bin with your right hand",
"markType": "step"
}
]
}### 样例说明
以上样例展示了快消装箱任务中的两个连续操作步骤:首先是抓取操作,机器人用右手抓取桌面上的快消品瓶子,持续时间约1.725秒;接着是放置操作,将抓取的瓶子放置到绿色物料框中,持续时间约2.368秒。每个标注包含精确的时间戳、操作位置、技能类型和详细描述,为训练机器人模仿学习模型提供了精确的监督信号。
## 应用场景
### 工业制造场景
在工业制造领域,LET-Base-Dataset 可用于训练机器人完成各类装配任务。例如汽车工厂中的钣金上料、工装上料等任务,数据集中包含大量相关的操作示范。通过模仿学习,机器人可以学习到如何精准地抓取工件、搬运到指定位置并完成装配。这类应用能够显著提升生产线的自动化水平,降低人工成本,提高生产效率和一致性。数据集中的多模态观测数据(尤其是深度图像和关节状态)为训练精准的抓取和放置策略提供了必要的信息支持。
### 快消品物流场景
快消品行业对自动化需求日益增长,LET-Base-Dataset 包含丰富的快消品分拣、装箱、扫码称重等任务数据。这些数据可用于训练机器人完成仓库中的货物处理流程,从接收货物、分类整理到装箱发货的全流程自动化。通过分析数据中的操作序列和技能组合,研究人员可以开发出高效的仓储机器人系统,实现24小时不间断作业,提升仓储物流的整体效率。
### 酒店服务场景
酒店服务机器人是近年来的热门应用方向,LET-Base-Dataset 包含递送房卡、送水、客户入住引导等服务场景的数据。这些数据可以帮助训练服务机器人理解自然语言指令、规划导航路径、完成物品递送等任务。通过模仿学习,机器人能够掌握人性化的服务方式,提升客户体验。数据集中的中英双语标注也为开发多语言服务机器人提供了支持。
### 家庭服务场景
家庭服务机器人需要具备多种日常操作能力,如桌面整理、衣物收纳、垃圾分类等。LET-Base-Dataset 包含丰富的家庭服务相关数据,可用于训练机器人完成各类家务任务。通过学习人类的操作方式,机器人可以更好地适应家庭环境的复杂性,为用户提供贴心的生活辅助。
### 机器人技能研究
LET-Base-Dataset 是研究机器人技能学习和迁移的理想平台。数据集中的117种原子技能标注为分析复杂操作的组成结构提供了基础。研究人员可以利用这些数据探索技能组合、技能迁移、元学习等前沿课题。特别是多末端执行器的数据支持,为研究不同手部结构对操作技能的影响提供了宝贵机会。
## 结尾
LET-Base-Dataset 作为一个大规模、高质量的全尺寸人形机器人真实世界数据集,为机器人学习研究提供了丰富的资源。其涵盖多个领域的任务数据、多模态观测信息和精细的语义标注,使其成为训练和评估机器人模仿学习模型的理想选择。
数据集的核心优势在于其真实世界的遥操作数据,这些数据捕捉了人类操作者在实际场景中的决策过程和操作细节,为训练具有人类水平操作能力的机器人提供了宝贵的学习素材。同时,配套的完整工具链进一步降低了使用门槛,使研究人员能够快速上手进行模型训练和验证。
该数据集采用 CC BY-NC-SA 4.0 许可证,允许非商业用途的研究和应用。如有需要,可通过官方渠道获取更多信息。我们期待 LET-Base-Dataset 能够推动人形机器人技术的进一步发展,为实现更智能、更灵活的机器人系统做出贡献。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:







