用 Docker 一键部署 GPU 监控面板 GPU Hot
简洁、美观、轻量级的 GPU 实时监控方案,只需一条命令即可完成部署。
前言
平时使用的时候,GPU 的使用情况往往是我们最关心的指标。 我之前一直是用 Grafana + Prometheus + Nvitop 做 GPU 监控,这套方案功能确实强大,但缺点也明显: 配置繁琐、占用资源多、启动慢,而且有时只是想临时查看几块卡的温度、显存使用,就不值得开一整套监控系统。
直到我在 GitHub 上偶然刷到这个项目 ——
部署简单到极致,UI 清爽现代,功能覆盖面刚好够用。 你甚至可以把它当成“GPU 版的 Glances”或“轻量 GPU Dashboard”。
预览界面
以下是实际部署后的界面截图,可以看到每块 GPU 都有独立的动态图表展示, 不仅包括温度、功率、利用率,还有风扇转速与显存变化趋势。
界面风格非常“Grafana 感”,但轻量得多,数据刷新也十分流畅。
功能特性
每块 GPU 显示 7 个图表:
- GPU 利用率
- 温度(核心 / 显存)
- 显存使用量
- 功耗(Power Draw)
- 风扇转速
- 时钟频率(图形核心 / SM / 显存)
- 功率效率
监控功能:
-
✅ 自动检测多 GPU
-
✅ GPU 进程追踪(PID、显存占用)
-
✅ 系统 CPU / 内存(RAM)使用情况
-
✅ 阈值提示标记:
- 温度:75°C / 85°C
- 利用率:80%
- 显存使用率:90%
采集的指标
核心指标(Core Metrics):
- GPU 与显存利用率(%)
- GPU 核心 / 显存温度(°C)
- 显存用量(已用 / 空闲 / 总量,MB)
- 功率:当前功耗与上限(W)
- 风扇转速(%)
- 时钟频率:图形核心 / SM / 显存 / 视频解码频率(MHz)
高级指标(Advanced Metrics):
- PCIe 代数与通道宽度(当前 / 最大)
- 性能状态(P-State)
- 计算模式(Compute Mode)
- 编码 / 解码会话与统计信息
- 驱动与 VBIOS 版本
- 降频状态(Throttle Status)
部署方式(Docker 一键启动)
环境要求
- ✅ Docker
- ✅ NVIDIA Container Toolkit 👉 官方安装指南
启动命令
只需要一行:
docker run -d --name gpu-hot --gpus all -p 1312:1312 ghcr.io/psalias2006/gpu-hot:latest
启动后访问浏览器:
即可看到漂亮的 GPU 监控仪表盘。 无需额外配置、无需挂 Prometheus、无需配置数据库。
Docker Compose(可选)
如果你习惯用 docker-compose
管理容器,也可以这样写:
version: '3'services: gpu-hot: image: ghcr.io/psalias2006/gpu-hot:latest container_name: gpu-hot ports: - "1312:1312" deploy: resources: reservations: devices: - capabilities: [gpu] restart: unless-stopped
然后执行:
docker compose up -d
对比分析
对比项 | nvidia-smi | Prometheus + Grafana | GPU Hot |
---|---|---|---|
部署难度 | ★☆☆☆☆(命令行) | ★★★★★(复杂配置) | ★☆☆☆☆(一行启动) |
历史数据 | ❌ 无 | ✅ 有 | ✅ 内置短期曲线 |
实时刷新 | ❌ 手动刷新 | ✅ 自动刷新 | ✅ 自动刷新 |
可视化界面 | ❌ | ✅ 高度可定制 | ✅ 轻量简洁 |
GPU 进程详情 | ✅ | ✅ | ✅ |
资源占用 | 极低 | 中高 | 低 |
适用场景 | 临时查看 | 企业监控 / 集群 | 个人 / 小型工作站 |
从定位上看,GPU Hot 就是一个非常恰当的“中间层方案”:
不如 Grafana 那样庞大,但比 nvidia-smi 好看太多。 适合单机、多卡工作站或个人服务器日常监控。
实际体验与优缺点
优点:
- 一键部署,无需配置 exporter 或数据库
- 自动识别多 GPU
- UI 极度清爽,暗色主题观感出色
- 实时图表流畅,延迟低
- 支持 NVIDIA 官方容器运行
缺点:
- 暂不支持数据持久化或历史查询
- 仅支持 NVIDIA GPU
- 没有 API 接口(目前版本)
总结
如果你也厌倦了繁琐的 Grafana + Prometheus 监控体系, 或者只是想快速查看显卡负载与温度, GPU Hot 是一个非常值得尝试的小工具。