GPU 服务器监控 [GPU Device Monitoring]
背景
由于目前机器学习和人工智能的大规模应用,GPU设备已经成为很多公司的计算主力,然而对于这部分设备的监控也成为了运维监控环节中的重要部分。
GPU 设备监控需求
当 GPU 集群高负载运行,甚至过载运行时,我们希望第一时间能接受到来自监控系统的报警信息,方便我们及时扩容或者进行下一步的操作,从而保证 GPU 集群的正常运行,业务稳定服务。 lodastack 提供了哪些用户关心的 GPU 指标呢(以 nvidia 显卡为例)?
# GPU 核心频率
PLUGIN.nvidia.clocks.cores_MHz
# GPU 内存频率
PLUGIN.nvidia.clocks.memory_MHz
# GPU 电源功率
PLUGIN.nvidia.power_W
# GPU 温度
PLUGIN.nvidia.temperature_C
# GPU 使用率
PLUGIN.nvidia.utilization.GPU
# GPU 编码器使用率
PLUGIN.nvidia.utilization.decoder
# GPU 解码率使用率
PLUGIN.nvidia.utilization.encoder
# GPU 内存使用率
PLUGIN.nvidia.utilization.memory
通过上面的指标我们可以很方便的知道每块显卡的资源使用率。
GPU 监控插件启用
在相应的节点下,比如 tf.test.loda
节点下,添加插件:
在页面上插件添加完毕后,这个节点下的服务器会自动获取插件并进行数据采集和上报,
总结
只有全方位了解集群状态,硬件信息,才能保证集群的稳定运行,进一步提高系统利用率,降低成本,未知才是恐惧。
使用企业版获得该功能。