GPU 服务器监控 [GPU Device Monitoring]

system arch

背景

由于目前机器学习和人工智能的大规模应用,GPU设备已经成为很多公司的计算主力,然而对于这部分设备的监控也成为了运维监控环节中的重要部分。

GPU 设备监控需求

当 GPU 集群高负载运行,甚至过载运行时,我们希望第一时间能接受到来自监控系统的报警信息,方便我们及时扩容或者进行下一步的操作,从而保证 GPU 集群的正常运行,业务稳定服务。 lodastack 提供了哪些用户关心的 GPU 指标呢(以 nvidia 显卡为例)?

# GPU 核心频率
PLUGIN.nvidia.clocks.cores_MHz

# GPU 内存频率
PLUGIN.nvidia.clocks.memory_MHz

# GPU 电源功率
PLUGIN.nvidia.power_W

# GPU 温度
PLUGIN.nvidia.temperature_C

# GPU 使用率
PLUGIN.nvidia.utilization.GPU

# GPU 编码器使用率
PLUGIN.nvidia.utilization.decoder

# GPU 解码率使用率
PLUGIN.nvidia.utilization.encoder

# GPU 内存使用率
PLUGIN.nvidia.utilization.memory

通过上面的指标我们可以很方便的知道每块显卡的资源使用率。

GPU 监控插件启用

在相应的节点下,比如 tf.test.loda 节点下,添加插件:

system arch

在页面上插件添加完毕后,这个节点下的服务器会自动获取插件并进行数据采集和上报,

system arch

总结

只有全方位了解集群状态,硬件信息,才能保证集群的稳定运行,进一步提高系统利用率,降低成本,未知才是恐惧。

使用企业版获得该功能。