## 引言与背景
在智能制造与工业物联网(IIoT)快速发展的背景下,工业数据的采集、处理与分析已成为提升生产效率、保障设备可靠性的核心驱动力。高质量的工业数据集不仅是科研人员开展算法研究的基础,更是产业界构建预测模型、优化决策系统的关键资产。本数据集集合了两类典型的工业应用场景数据——传感器环境监测数据与智能决策数据,并辅以高维结构化数据文件,形成一套多源融合的工业数据资源。
本数据集由四部分组成:CSV格式的结构化数据表两份(Dataset_2.1.csv 和 data_pizza_robot.csv),以及 HDF5 格式的高维数据文件两份(Dataset_3.2.h5 和 Dataset_4.1.h5)。其中,CSV 文件包含 15,066 条完整的结构化记录,涵盖温度、压力、状态标签、事件时间、决策变量等多维度字段;HDF5 文件以压缩形式存储大规模数值数组,单文件大小约 26 MB,采用 deflate 压缩算法以优化存储效率。
从科研与产业应用的角度看,该数据集具有多重价值。在学术研究方面,数据集中的温度-压力-事件字段构成了典型的生存分析场景,适用于 Cox 比例风险模型、Weibull 分布拟合、Kaplan-Meier 估计等统计方法的验证;二进制决策字段则为决策树、随机森林、逻辑回归等分类算法提供了测试基准。在工业实践层面,该数据集可用于设备健康监测系统的原型开发、工业机器人的智能决策模块训练、以及基于环境参数的故障预警模型构建。数据的多样性——包含连续型、分类型、时间型三类字段——使其在教学与研究中具有广泛的适用性。
## 数据基本信息
### 整体规模与结构
本数据集总计包含 4 个独立文件,总数据量约 52.3 MB。其中结构化记录合计 15,066 条,分布于两个 CSV 文件中;高维压缩数据约 51.9 MB,存储于两个 HDF5 文件中。数据字段类型丰富,涵盖整数索引、布尔标志位、双精度浮点数、分类标签等多种数据类型,适用于多场景算法研究。
### 数据集构成概览
| 文件名 | 文件格式 | 记录数量 | 文件大小 | 主要内容 |
|--------|---------|---------|---------|---------|
| Dataset_2.1.csv | CSV | 7,456 条 | 523 KB | 温度、压力、使用状态、事件时间数据 |
| data_pizza_robot.csv | CSV | 7,610 条 | 170 KB | 机器人状态检测与决策行动数据 |
| Dataset_3.2.h5 | HDF5 | 高维数组 | 25.89 MB | deflate 压缩的数值数据集 |
| Dataset_4.1.h5 | HDF5 | 高维数组 | 26.00 MB | deflate 压缩的数值数据集 |
### Dataset_2.1.csv 字段说明
该文件包含 7,456 条工业传感器监测记录,每条记录包含 6 个字段,描述了设备运行环境参数与事件状态。
| 字段名称 | 字段类型 | 字段含义 | 数据范围/示例 | 完整性 |
|---------|---------|---------|-------------|--------|
| H1 | 整数 (索引) | 记录编号 | 0 – 7,455 | 100% |
| usage | 布尔值 | 设备使用状态标志 | True/False | 100% |
| Temperature | 双精度浮点数 | 环境温度 (°C) | 0.22 – 38.55 | 100% |
| Pression | 双精度浮点数 | 压力值 | 955.75 – 1,037 | 100% |
| censored | 布尔值 | 数据截尾标志 (生存分析) | True/False | 100% |
| event (fail or censored) | 双精度浮点数 | 事件发生时间 (失败或截尾时间) | 1.71 – 1,017.24 | 98.98% |
### Dataset_2.1.csv 字段分布统计
温度分布:| 温度区间 (°C) | 记录数量 | 占比 | 累计占比 |
|--------------|---------|------|---------|
| < 10 | 167 | 2.24% | 2.24% |
| 10 – 15 | 1,040 | 13.95% | 16.19% |
| 15 – 20 | 2,504 | 33.58% | 49.77% |
| 20 – 25 | 2,606 | 34.95% | 84.72% |
| 25 – 30 | 968 | 12.98% | 97.70% |
| ≥ 30 | 171 | 2.29% | 100.00% |
压力值呈现以 1,000 为中心的近似正态分布特征。四分位数为 Q1=993.27,Q2=1000.05,Q3=1006.54,全距约 81.25 个单位。
使用状态分布:| 状态 | 记录数量 | 占比 |
|------|---------|------|
| False (未使用) | 4,593 | 61.60% |
| True (使用中) | 2,863 | 38.40% |
| 状态 | 记录数量 | 占比 |
|------|---------|------|
| False (非截尾/事件发生) | 7,380 | 98.98% |
| True (截尾/事件未发生) | 76 | 1.02% |
| 字段 | 均值 | 最小值 | 最大值 | 中位数 | 完整率 |
|------|------|--------|--------|--------|--------|
| Temperature (°C) | 19.98 | 0.22 | 38.55 | 20.03 | 100% |
| Pression | 999.93 | 955.75 | 1,037.00 | 1000.05 | 100% |
| event | 270.14 | 1.71 | 1,017.24 | —— | 98.98% |
### data_pizza_robot.csv 字段说明
该文件包含 7,610 条工业智能机器人的决策记录,每条记录包含 10 个字段,描述了系统对关键部件状态的检测结果与相应的决策行动。所有字段均为二进制编码(0/1),适用于分类与决策算法研究。
| 字段名称 | 字段类型 | 字段含义 | 数据示例 | 完整性 |
|---------|---------|---------|---------|--------|
| H1 | 整数 (索引) | 记录编号 | 0 – 7,609 | 100% |
| pizza_food | 二进制 | 披萨食材库存状态 (1=充足, 0=不足) | 0/1 | 100% |
| question_istherepizza | 二进制 | 是否存在披萨的检测标志 | 0/1 | 100% |
| robotic_arm | 二进制 | 机械臂工作状态 (1=故障, 0=正常) | 0/1 | 100% |
| question_isrobotdead | 二进制 | 机器人停机状态检测 | 0/1 | 100% |
| pilote | 二进制 | 引导/控制模块状态 | 0/1 | 100% |
| question_isscreenok | 二进制 | 显示屏状态检测 | 0/1 | 100% |
| action_repair_robotic_arm | 二进制 | 决策: 维修机械臂 | 0/1 | 100% |
| action_addpizzafood | 二进制 | 决策: 补充披萨食材 | 0/1 | 100% |
| action_reboot | 二进制 | 决策: 重启系统 | 0/1 | 100% |
### data_pizza_robot.csv 字段分布统计
状态检测字段分布:| 字段名称 | 值=1 数量 | 值=1 占比 | 值=0 数量 | 值=0 占比 |
|---------|----------|----------|----------|----------|
| pizza_food | 5,649 | 74.23% | 1,961 | 25.77% |
| question_istherepizza | 6,458 | 84.86% | 1,152 | 15.14% |
| robotic_arm | 3,644 | 47.88% | 3,966 | 52.12% |
| question_isrobotdead | 3,998 | 52.54% | 3,612 | 47.46% |
| pilote | 5,189 | 68.19% | 2,421 | 31.81% |
| question_isscreenok | 4,373 | 57.46% | 3,237 | 42.54% |
| 字段名称 | 值=1 (行动) 数量 | 值=1 占比 | 值=0 (无行动) 数量 | 值=0 占比 |
|---------|----------------|----------|-------------------|----------|
| action_repair_robotic_arm | 5,649 | 74.23% | 1,961 | 25.77% |
| action_addpizzafood | 4,382 | 57.58% | 3,228 | 42.42% |
| action_reboot | 5,613 | 73.76% | 1,997 | 26.24% |
| 组合条件 | 记录数量 | 占比 | 说明 |
|---------|---------|------|------|
| robotic_arm=0, action_repair=1 | 3,966 | 52.12% | 机械臂正常仍触发维修决策 |
| robotic_arm=1, action_repair=0 | 1,961 | 25.77% | 机械臂故障未触发维修决策 |
| robotic_arm=1, action_repair=1 | 1,683 | 22.12% | 机械臂故障触发维修决策 |
| pizza_food=1, action_add=0 | 3,228 | 42.42% | 食材充足无需补充 |
| pizza_food=1, action_add=1 | 2,421 | 31.81% | 食材充足仍执行补充 |
| pizza_food=0, action_add=1 | 1,961 | 25.77% | 食材不足触发补充 |
### HDF5 高维数据文件信息
两个 HDF5 文件存储了大规模数值型数据,采用 deflate 压缩算法进行高效存储,数据密度极高(非零字节比例约 99.5%),表明其包含紧密排列的数值矩阵或多维数组。
| 文件名 | 文件大小 | 压缩方式 | 数据密度特征 |
|--------|---------|---------|-------------|
| Dataset_3.2.h5 | 25.89 MB | deflate | 标准 HDF5 结构, 含 TREE/HEAP 数据块 |
| Dataset_4.1.h5 | 26.00 MB | deflate | 标准 HDF5 结构, 含 TREE/HEAP 数据块 |
从文件命名与结构推断,这两份 HDF5 数据可能与 CSV 数据集的高维特征展开、模型训练输入矩阵、或传感器高频采样的原始波形数据相关。其文件版本号(3.2 与 4.1)与 CSV 数据集(2.1)呈现递进关系,暗示了数据集的版本演化脉络。
## 数据优势
| 优势特征 | 具体表现 | 应用价值 |
|---------|---------|---------|
| 多源数据融合 | 融合环境传感器数据(温度、压力)与智能决策数据(状态检测、行动决策),辅以高维 HDF5 数值文件 | 支持跨模态学习、多特征融合算法的研究与验证 |
| 完整的标注信息 | 所有 CSV 数据字段完整率均在 98.98% 以上,15,066 条记录中仅有 76 条 event 字段缺失,缺失率仅 1.02% | 减少数据清洗工作量,可直接用于模型训练与评估,保证研究结果的可靠性 |
| 数据类型丰富 | 包含连续型数值字段(温度、压力、事件时间)、布尔标志字段(使用状态、截尾标志)、二进制分类字段(状态检测与决策)三大类 | 适用于回归分析、生存分析、分类算法、决策系统等多方向研究 |
| 适用生存分析场景 | event + censored 字段组合构成标准的生存分析数据格式,支持 Kaplan-Meier 曲线、Cox 模型等经典方法 | 对设备故障预测、可靠性工程研究具有直接应用价值 |
| 高维压缩数据 | 两份约 26 MB 的 HDF5 文件提供大规模数值数组,采用 deflate 压缩优化存储 | 可用于深度学习模型的大规模训练、高维特征工程研究、矩阵运算算法优化测试 |
| 工业场景贴合 | 数据内容紧扣工业监测、机器人决策两大典型应用场景,字段命名与实际工业术语一致 | 有助于研究成果向产业落地转化,具有较高的教学与培训价值 |
| 规模适中但结构完整 | CSV 部分含 15,066 条记录,足以支持稳健的统计分析与中等规模机器学习任务 | 在普通工作站即可完成处理,便于教学演示与快速算法原型开发 |
## 数据样本展示
### Dataset_2.1.csv 样本(10 条)
以下样本展示了温度、压力、使用状态与事件时间的变化特征。注意 usage=True 的记录通常伴随较短的 event 时间值(快速事件发生),而 usage=False 记录的事件时间分布较广。
| 索引 | usage | Temperature | Pression | censored | event |
|-----|-------|-------------|----------|----------|-------|
| 0 | False | 14.98 | 1000.70 | False | 374.97 |
| 1 | False | 16.86 | 992.76 | False | 336.46 |
| 2 | False | 18.57 | 1002.51 | False | 268.89 |
| 3 | True | 14.68 | 994.70 | False | 59.61 |
| 4 | False | 16.37 | 995.13 | False | 573.57 |
| 5 | True | 17.18 | 992.06 | False | 96.20 |
| 6 | False | 16.46 | 1004.95 | False | 467.46 |
| 7 | True | 17.03 | 988.10 | False | 221.54 |
| 8 | True | 18.47 | 1012.22 | False | 182.85 |
| 9 | False | 23.32 | 988.68 | False | 146.47 |
### data_pizza_robot.csv 样本(10 条)
以下样本展示了状态检测字段与决策行动字段的多种组合模式。观察可见,决策字段与状态检测字段呈现复杂的依赖关系,而非简单的一一对应。
| 索引 | pizza_food | q_istherepizza | robotic_arm | q_isrobotdead | pilote | q_isscreenok | a_repair_arm | a_add_food | a_reboot |
|-----|-----------|---------------|------------|---------------|--------|-------------|-------------|-----------|----------|
| 0 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 |
| 1 | 1 | 1 | 1 | 1 | 0 | 0 | 1 | 1 | 0 |
| 2 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 |
| 3 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 |
| 4 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 1 | 0 |
| 5 | 0 | 0 | 0 | 0 | 1 | 1 | 1 | 1 | 1 |
| 6 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 |
| 7 | 1 | 1 | 1 | 0 | 1 | 1 | 1 | 0 | 1 |
| 8 | 1 | 1 | 0 | 1 | 1 | 0 | 1 | 1 | 0 |
| 9 | 1 | 1 | 0 | 0 | 1 | 1 | 1 | 0 | 1 |
### HDF5 文件数据说明
由于 HDF5 文件为二进制压缩格式,内容无法直接以文本形式展示。实际数据集中包含完整的 HDF5 数据文件,可使用 Python(h5py 库)、MATLAB、R(rhdf5 包)等工具进行加载与分析。根据文件结构特征推断,其数据内容可能为:环境传感器高频率采样的原始时间序列、数值模型输出矩阵、或深度学习特征张量。
## 应用场景
### 设备故障预测与可靠性分析
本数据集中的 Dataset_2.1.csv 提供了典型的生存分析数据结构——event(事件时间)与 censored(截尾标志)字段组合,配合温度、压力等环境参数,构成设备可靠性研究的理想数据源。在该应用场景中,研究人员可以将温度与压力作为协变量输入 Cox 比例风险模型,分析环境条件对设备故障发生时间的影响程度;可以采用 Kaplan-Meier 估计器绘制不同使用状态(usage 分组)下的生存函数曲线,对比使用中与未使用设备的故障风险差异;还可以通过参数模型(如 Weibull 分布、对数正态分布)拟合故障时间分布,获得设备的平均无故障时间(MTBF)与可靠度函数。这种分析方法在工业设备维护策略优化中具有直接的应用价值——企业可根据模型输出制定预防性维护计划,降低意外停机造成的损失。温度分布数据显示 15–25°C 区间集中了约 68.53% 的记录,这提示大部分设备运行于常规环境条件下,而少数极端条件样本(<10°C 或 ≥30°C)为研究极端工况下的可靠性提供了宝贵数据。
### 工业机器人智能决策系统训练
data_pizza_robot.csv 的 7,610 条二进制决策记录为构建智能决策系统提供了丰富的训练样本。该数据集的结构特点在于区分了"状态检测字段"(如 pizza_food、robotic_arm、question_isrobotdead 等)与"决策行动字段"(如 action_repair_robotic_arm、action_addpizzafood、action_reboot),形成了典型的多标签分类任务。研究人员可以训练决策树、随机森林、梯度提升树(XGBoost、LightGBM)或神经网络模型,以状态字段为输入特征,以决策字段为输出目标,学习从状态到行动的映射规则。交叉分析结果显示,pizza_food 与 action_repair_robotic_arm 存在有趣的数值巧合(同为 74.23% 的正样本比例),而 robotic_arm 与维修决策之间呈现非单调关系(机械臂正常时反而有较高比例触发维修决策),这暗示了决策逻辑可能涉及多个状态字段的组合判断,而非简单的单因素触发。这一特征使数据集对研究复杂决策规则的算法具有特殊价值——模型需要学习多因素的非线性关系,而非依赖单一强特征。在产业应用中,经该数据集训练的决策模型可部署于工业机器人的控制单元,实现故障的自动诊断与修复动作的智能推荐。### 环境参数监测与异常检测
温度与压力字段的连续型数值分布特征使数据集适用于异常检测算法的研究。温度范围(0.22°C – 38.55°C)与压力范围(955.75 – 1,037)覆盖了较广的工况区间,研究人员可利用这些数据构建基于统计方法(如 3σ 准则、Grubbs 检验)或机器学习方法(Isolation Forest、One-Class SVM、Autoencoder)的异常检测系统。从数据分布来看,温度近似于均值 20°C、标准差约 4°C 的正态分布,压力则集中于 1,000 附近,具有较窄的波动范围。这种特征意味着大部分正常样本集中在较小的区域中,偏离中心的样本即为潜在的异常点。异常检测模型的输出可应用于工业监测系统的实时告警模块——当温度或压力读数偏离正常范围一定幅度时,系统自动发出警报并记录异常事件。此外,将温度、压力与使用状态结合分析,还可研究设备使用与环境参数之间的因果关系,例如高温高负荷条件是否加速了设备老化,这对制定合理的运行调度策略具有参考意义。
### 高维数据分析与压缩算法研究
两份 HDF5 文件(合计约 52 MB)提供了大规模数值数据,适合用于高维数据处理与压缩算法的性能测试。deflate 压缩格式本身即构成研究对象——研究人员可以比较不同压缩算法(如 gzip、bzip2、LZ4、Zstandard)在工业数值数据上的压缩率与解压速度差异。此外,HDF5 的分层数据结构与数据集组织方式可用于研究高效数据 I/O 策略,包括分块读取、并行访问、内存映射等技术。在机器学习场景下,高维数据文件可能包含原始传感器读数的时间窗口切片或深度学习模型的输入张量,研究人员可利用这些数据测试降维算法(PCA、t-SNE、UMAP)的性能,验证特征选择方法的有效性,或开发适用于工业大数据的增量学习与在线学习框架。HDF5 格式的广泛兼容性(支持 Python、C++、MATLAB、R 等多种语言)使数据的跨平台使用与跨语言协作变得便捷。
### 多模态数据融合算法验证
本数据集的最大特色在于其多源异构性——结构化 CSV 数据与非结构化/高维 HDF5 数据共存,为多模态学习研究提供了天然的实验环境。在实际工业应用中,单一数据源往往无法全面反映系统状态:传感器读数描述了环境条件,高维时序数据记录了设备运行的动态变化过程,决策数据则体现了专家知识与操作经验。如何有效融合这些异质信息是当前工业人工智能研究的核心挑战之一。研究人员可以基于本数据集探索多种融合策略:早期融合(在特征层拼接不同模态数据)、晚期融合(对各模态模型的输出进行加权组合)或深度融合(利用注意力机制或门控网络动态调整各模态的贡献权重)。数据集中 Dataset_2.1.csv 与 HDF5 文件之间可能存在的样本对应关系(由文件名版本号暗示)为设计跨模态匹配实验提供了基础框架。此类研究成果可直接应用于智能制造系统中的状态评估与故障诊断模块,提升监测系统的整体准确率与鲁棒性。
## 结尾
本数据集集合了 15,066 条结构化工业监测与决策记录,以及约 52 MB 的高维数值数据,涵盖温度、压力、故障时间、状态检测、决策行动等多维度字段。数据质量优异——CSV 字段完整率达 98.98% – 100%,HDF5 文件采用标准压缩格式存储。数据类型丰富——连续型、分类型、截尾型数据并存——使其适用于生存分析、分类预测、异常检测、决策系统训练等多种研究场景。
在 HDF5 文件中存储的大规模压缩数据构成数据集的另一核心优势。每份约 26 MB 的数值数据不仅支持深度学习模型的训练需求,也为数据压缩算法、高维 I/O 性能优化等计算机科学方向的研究提供了真实的工业数据样本。结合 CSV 中的结构化标签信息,HDF5 数据可能在监督学习、半监督学习和自监督学习等多种范式下发挥作用。
多源数据的融合特征是本数据集最显著的创新点。环境传感器数据与智能决策数据的组合提供了模拟完整工业监测-决策闭环的可能,为研究端到端的工业智能系统提供了必要的数据基础。从教学实践到算法研究,从统计建模到深度学习,该数据集在多个层面具有应用潜力。建议研究人员在使用过程中注意分析各字段之间的统计关联,特别是 usage 状态与 event 时间的关系、以及状态检测字段与决策行动字段的复杂映射,这些关联中蕴含着数据背后的工业逻辑。
有需要可私信获取更多信息与使用建议。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






