数据描述
引言与背景
在当今数字化时代,高性能计算集群的稳定运行对于科学研究、数据分析和企业应用至关重要。集群资源的有效监控和管理直接影响系统性能、应用响应时间和整体用户体验。本数据集提供了一个高性能计算集群在25天运行周期内的全面监控数据,涵盖计算资源、存储使用、网络性能等多个维度。
本数据集由六个相互关联的CSV文件组成,包含从2024年6月24日至7月19日的连续监控数据。这些数据详细记录了集群中各节点的CPU使用率、内存占用、磁盘状态、网络延迟、数据包丢失率和网络吞吐量等关键指标。对于研究集群资源优化、性能瓶颈识别、异常检测算法开发以及预测性维护模型训练具有重要价值。
数据基本信息
数据字段说明
计算资源数据集 (compute_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| totalProvMemory | 整数 | 集群总提供内存 | 469804298240 | 100% |
| cluster AM | 整数 | 集群可用内存 | 347930808320 | 100% |
| cluster UM | 整数 | 集群已用内存 | 116252839936 | 100% |
| machine01 AM | 整数 | 机器01可用内存 | 48569794560 | 100% |
| machine01 CU | 浮点数 | 机器01 CPU使用率 | 2.383333333526496 | 100% |
| machine01 CF | 浮点数 | 机器01 CPU空闲率 | 97.61111111164577 | 100% |
| cluster Available disk space | 整数 | 集群可用磁盘空间 | 1039176802304 | 100% |
| machine01 DRT | 浮点数 | 机器01磁盘读取吞吐量 | 281429.3333333333 | 100% |
| machine01 DWT | 浮点数 | 机器01磁盘写入吞吐量 | 648.5333333333333 |
详细CPU核心数据集 (detailed_cpu_cores_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| free_cpu_acamas:cpu-0 | 浮点数 | 节点acamas的CPU核心0空闲率 | 99.9 | 99.9% |
| used_cpu_bellerophon:cpu-1 | 浮点数 | 节点bellerophon的CPU核心1使用率 | 2.3 |
磁盘数据集 (disk_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| machine01 FD | 整数 | 机器01总磁盘空间 | 1099511627776 | 100% |
| machine01 UD | 整数 | 机器01已用磁盘空间 | 596428826624 |
网络数据集 (network_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| maxrttWithGoogleDns | 浮点数 | 与Google DNS的最大往返时间 | 15.3 | 99.99% |
| minRttwithGoogleDns | 浮点数 | 与Google DNS的最小往返时间 | 12.1 | 99.99% |
| averageRttWithGoogleDns | 浮点数 | 与Google DNS的平均往返时间 | 13.5 | 99.99% |
| mdevrttWithGoogleDns | 浮点数 | 往返时间的标准差 | 0.8 | 99.99% |
| jitterWithGoogleDns | 浮点数 | 网络抖动值 | 0.5 |
数据包丢失数据集 (packet-loss-dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| err_packet_acamas:-network-device-bond0 | 浮点数 | 节点acamas的bond0接口错误包数 | 0.0 | 部分缺失 |
| drop_packet_bellerophon:-network-device-bond0 | 浮点数 | 节点bellerophon的bond0接口丢包数 | 0.0 |
吞吐量数据集 (throughputs_dataset.csv)
| 字段类型 | 字段含义 | 数据示例 | 完整性 | |
|---|---|---|---|---|
| timestamp | 时间戳 | 数据采集时间 | 2024-06-24 13:37:06 | 100% |
| transmitted_throughput_acamas:-network-device-bond0 | 浮点数 | 节点acamas的bond0接口发送吞吐量 | 1523.6 | 99.8% |
| received_throughput_bellerophon:-network-device-bond0 | 浮点数 | 节点bellerophon的bond0接口接收吞吐量 | 2345.8 |
数据分布情况
时间分布
| 记录数量 | 占比 | 累计占比 | |
|---|---|---|---|
| 2024-06-24 至 2024-06-30 | 9828 | 23.8% | 23.8% |
| 2024-07-01 至 2024-07-07 | 10080 | 24.4% | 48.2% |
| 2024-07-08 至 2024-07-14 | 10080 | 24.4% | 72.6% |
| 2024-07-15 至 2024-07-19 | 11374 | 27.4% |
数据采集频率分布
| 出现次数 | 占比 | |
|---|---|---|
| 50-55 | 39,293 | 95.0% |
| 55-60 | 1,842 | 4.5% |
| 其他 | 227 |
节点分布
| 覆盖数据集 | 监控指标数 | |
|---|---|---|
| acamas | 5个数据集 | 约180个指标 |
| bellerophon | 5个数据集 | 约200个指标 |
| dedale | 5个数据集 | 约180个指标 |
| demophon | 5个数据集 | 约180个指标 |
| pegase | 5个数据集 | 约180个指标 |
| perse | 5个数据集 | 约180个指标 |
| phaedra | 5个数据集 | 约180个指标 |
| machine01-machine07 | 3个数据集 |
数据规模与质量
-
总数据量:约248,166行数据记录
-
总字段数:约767个不同的监控指标
-
时间跨度:25天(602.83小时)
-
平均采样频率:52.47秒/次
-
数据完整性:
-
磁盘数据集:99.99%完整
-
网络数据集:99.99%完整
-
计算资源数据集:99.0%完整
-
吞吐量数据集:98.0%完整
-
详细CPU数据集:99.0%完整
-
数据包丢失数据集:51.0%完整(部分接口无数据)
-
数据优势
| 具体表现 | 应用价值 | |
|---|---|---|
| 多维度全面监控 | 覆盖计算、存储、网络三大核心资源维度 | 提供集群全栈性能视图,支持综合分析 |
| 高精度时间序列 | 52秒采样频率,持续25天,数据连贯性强 | 适合时序分析、趋势预测和异常检测 |
| 细粒度资源监控 | 包含单个CPU核心级别的使用详情 | 支持精确的性能瓶颈定位和资源优化 |
| 多节点协同数据 | 同时监控7个命名节点和7个编号机器节点 | 便于分析节点间协同工作效率和负载均衡 |
| 网络性能全面 | 包含延迟、抖动、吞吐量、丢包等多指标 | 支持网络性能评估和网络问题诊断 |
| 存储I/O监控 | 包含磁盘空间、读写吞吐量等指标 | 适合分析存储性能瓶颈和I/O优化 |
| 数据一致性高 | 各数据集时间戳同步,采样频率一致 |
数据样例
计算资源数据样例
timestamp,totalProvMemory,cluster AM,cluster UM,machine01 AM,machine01 CU,machine01 CF
2024-06-24 13:49:05.305354,469804298240,347930808320,116252839936,48569794560,2.383333333526496,97.61111111164577
2024-06-24 13:49:47.601375,469804298240,348031373312,116152315904,48546177024,1.6833333333919718,98.31666666660801
网络延迟数据样例
timestamp,maxrttWithGoogleDns,minRttwithGoogleDns,averageRttWithGoogleDns,mdevrttWithGoogleDns,jitterWithGoogleDns
2024-06-24 13:49:05.305354,18.3,12.1,15.2,1.2,0.8
2024-06-24 13:49:47.601375,17.8,11.9,14.8,1.0,0.6
磁盘使用数据样例
timestamp,machine01 FD,machine01 UD,machine02 FD,machine02 UD
2024-06-24 13:49:05.305354,1099511627776,596428826624,1099511627776,587201595392
2024-06-24 13:49:47.601375,1099511627776,596429826624,1099511627776,587202595392
网络吞吐量数据样例
timestamp,transmitted_throughput_acamas:-network-device-bond0,received_throughput_acamas:-network-device-bond0
2024-06-24 13:49:05.305354,1523.6,2345.8
2024-06-24 13:49:47.601375,1498.2,2389.1
应用场景
1. 集群性能优化与容量规划
基于本数据集提供的计算资源使用情况,可以进行深入的性能优化分析。通过分析CPU使用率、内存占用、磁盘I/O等指标的时间分布和峰值情况,识别系统瓶颈所在。例如,可以根据machine01 CU(CPU使用率)和machine01 AM(可用内存)等指标,判断是否存在资源争用或配置不合理的情况。这些分析结果可以指导管理员进行资源分配调整、硬件升级规划或工作负载调度优化,从而提高集群整体性能和资源利用率。
此外,通过对25天长期运行数据的趋势分析,可以预测未来资源需求增长,为容量规划提供数据支持。例如,观察cluster UM(集群已用内存)的增长趋势,可以合理预估内存扩容的时间点和规模,避免因资源不足导致的服务中断。
2. 异常检测与故障预警
利用本数据集的高精度时间序列特性,可以开发异常检测算法,实现系统故障的早期预警。通过构建正常运行模式的基线(如CPU使用率的正常范围、网络延迟的标准偏差等),当监控指标偏离预期模式时及时发出警报。
例如,分析jitterWithGoogleDns(网络抖动)和averageRttWithGoogleDns(平均往返时间)的异常波动,可以提前发现网络性能下降的迹象。对于err_packet_acamas:-network-device-bond0(错误包数)的突增,则可能预示着网络设备即将发生故障。通过这种预测性维护方法,可以将被动响应转变为主动预防,显著减少系统停机时间和维护成本。
3. 工作负载特征分析与调度策略优化
通过对集群中不同节点的资源使用模式分析,可以深入了解各类工作负载的特征和资源需求。例如,通过比较bellerophon和acamas等不同节点的CPU使用率曲线,可以识别出计算密集型、内存密集型或I/O密集型的工作负载分布。
这些分析结果可以用于优化作业调度策略,实现更智能的负载均衡。例如,将计算密集型任务调度到CPU性能更强的节点,将I/O密集型任务调度到存储性能更优的节点。此外,通过分析历史工作负载的时间分布规律,可以预测未来的负载高峰,提前进行资源预留或弹性扩展,确保关键任务的顺利执行。
4. 能源效率分析与绿色计算
在当今注重可持续发展的环境下,高性能计算集群的能源效率问题日益受到关注。本数据集提供了丰富的资源使用指标,可以结合节点能耗数据进行能源效率分析。
通过分析CPU使用率、内存占用与能耗之间的关系,可以识别能源使用效率低下的场景和节点。例如,当machine01 CU(CPU使用率)较低但系统仍在运行时,可能存在能源浪费情况。基于这些分析,可以开发动态资源调整策略,在保证服务质量的前提下降低能耗,实现绿色计算目标。
5. 机器学习模型训练与验证
本数据集的大规模、多维度特性使其成为训练和验证机器学习模型的理想选择,特别是在时间序列预测、异常检测和资源优化等领域。
研究人员可以利用这些数据训练预测模型,如使用LSTM或Transformer等深度学习模型预测未来的CPU使用率、内存需求或网络流量。这些预测模型可以集成到集群管理系统中,实现资源的动态调度和自动扩缩容。此外,无监督学习算法(如自编码器、孤立森林)可以应用于异常检测,识别潜在的系统故障或安全威胁。
结尾
本高性能计算集群监控数据集提供了一个全面、详细的系统资源使用情况记录,涵盖了计算、存储、网络等多个关键维度。数据的高精度采样、长时间跨度和多节点覆盖使其具有极高的研究价值和应用潜力。
通过对这些数据的深入分析,可以实现集群性能的显著提升、故障的早期预警、资源的优化配置以及能源效率的改善。无论是学术研究还是工业应用,本数据集都为高性能计算集群的智能化管理提供了坚实的数据基础。
看了又看
验证报告
以下为卖家选择提供的数据验证报告:






