940 字
5 分钟

用 Docker 一键部署 GPU 监控面板 GPU Hot

简洁、美观、轻量级的 GPU 实时监控方案,只需一条命令即可完成部署。

前言#

平时使用的时候,GPU 的使用情况往往是我们最关心的指标。 我之前一直是用 Grafana + Prometheus + Nvitop 做 GPU 监控,这套方案功能确实强大,但缺点也明显: 配置繁琐、占用资源多、启动慢,而且有时只是想临时查看几块卡的温度、显存使用,就不值得开一整套监控系统。

直到我在 GitHub 上偶然刷到这个项目 ——

psalias2006
/
gpu-hot
Waiting for api.github.com...
00K
0K
0K
Waiting...

部署简单到极致,UI 清爽现代,功能覆盖面刚好够用。 你甚至可以把它当成“GPU 版的 Glances”或“轻量 GPU Dashboard”。


预览界面#

以下是实际部署后的界面截图,可以看到每块 GPU 都有独立的动态图表展示, 不仅包括温度、功率、利用率,还有风扇转速与显存变化趋势。

gpu-hot-preview-1 gpu-hot-preview-2 gpu-hot-preview-3 gpu-hot-preview-4

界面风格非常“Grafana 感”,但轻量得多,数据刷新也十分流畅。


功能特性#

每块 GPU 显示 7 个图表:#

  • GPU 利用率
  • 温度(核心 / 显存)
  • 显存使用量
  • 功耗(Power Draw)
  • 风扇转速
  • 时钟频率(图形核心 / SM / 显存)
  • 功率效率

监控功能:#

  • ✅ 自动检测多 GPU

  • ✅ GPU 进程追踪(PID、显存占用)

  • ✅ 系统 CPU / 内存(RAM)使用情况

  • ✅ 阈值提示标记:

    • 温度:75°C / 85°C
    • 利用率:80%
    • 显存使用率:90%

采集的指标#

核心指标(Core Metrics):

  • GPU 与显存利用率(%)
  • GPU 核心 / 显存温度(°C)
  • 显存用量(已用 / 空闲 / 总量,MB)
  • 功率:当前功耗与上限(W)
  • 风扇转速(%)
  • 时钟频率:图形核心 / SM / 显存 / 视频解码频率(MHz)

高级指标(Advanced Metrics):

  • PCIe 代数与通道宽度(当前 / 最大)
  • 性能状态(P-State)
  • 计算模式(Compute Mode)
  • 编码 / 解码会话与统计信息
  • 驱动与 VBIOS 版本
  • 降频状态(Throttle Status)

部署方式(Docker 一键启动)#

环境要求#


启动命令#

只需要一行:

Terminal window
docker run -d --name gpu-hot --gpus all -p 1312:1312 ghcr.io/psalias2006/gpu-hot:latest

启动后访问浏览器:

http://localhost:1312

即可看到漂亮的 GPU 监控仪表盘。 无需额外配置、无需挂 Prometheus、无需配置数据库。


Docker Compose(可选)#

如果你习惯用 docker-compose 管理容器,也可以这样写:

version: '3'
services:
gpu-hot:
image: ghcr.io/psalias2006/gpu-hot:latest
container_name: gpu-hot
ports:
- "1312:1312"
deploy:
resources:
reservations:
devices:
- capabilities: [gpu]
restart: unless-stopped

然后执行:

Terminal window
docker compose up -d

对比分析#

对比项nvidia-smiPrometheus + GrafanaGPU Hot
部署难度★☆☆☆☆(命令行)★★★★★(复杂配置)★☆☆☆☆(一行启动)
历史数据❌ 无✅ 有✅ 内置短期曲线
实时刷新❌ 手动刷新✅ 自动刷新✅ 自动刷新
可视化界面✅ 高度可定制✅ 轻量简洁
GPU 进程详情
资源占用极低中高
适用场景临时查看企业监控 / 集群个人 / 小型工作站

从定位上看,GPU Hot 就是一个非常恰当的“中间层方案”:

不如 Grafana 那样庞大,但比 nvidia-smi 好看太多。 适合单机、多卡工作站或个人服务器日常监控。

实际体验与优缺点#

优点:

  • 一键部署,无需配置 exporter 或数据库
  • 自动识别多 GPU
  • UI 极度清爽,暗色主题观感出色
  • 实时图表流畅,延迟低
  • 支持 NVIDIA 官方容器运行

缺点:

  • 暂不支持数据持久化或历史查询
  • 仅支持 NVIDIA GPU
  • 没有 API 接口(目前版本)

总结#

如果你也厌倦了繁琐的 Grafana + Prometheus 监控体系, 或者只是想快速查看显卡负载与温度, GPU Hot 是一个非常值得尝试的小工具。

用 Docker 一键部署 GPU 监控面板 GPU Hot
https://catcat.blog/docker-install-gpuhot.html
作者
猫猫博客
发布于
2025-10-10
许可协议
CC BY-NC-SA 4.0