您好,欢迎访问一九零五行业门户网

Linux常用nvidia-smi命令有哪些

简介nvidia-smi - nvidia system management interface program
nvidia smi(也称为nvsmi)为来自 fermi 和更高体系结构系列的 nvidia tesla、quadro、grid 和 geforce 设备提供监控和管理功能。geforce titan系列设备支持大多数功能,为geforce品牌的其余部分提供的信息非常有限。nvsmi是一种跨平台工具,支持所有标准nvidia驱动程序支持的linux发行版,以及从windows server 2008 r2开始的64位版本的windows。
✨nvidia-sminvidia 系統管理介面 (nvidia-smi) 是一個命令行工具,基於 nvidia management library (nvml) 之勝,旨在協助管理和監控 nvidia gpu 設備。
此实用程序允许管理员查询 gpu 设备状态,并允许管理员使用适当的权限修改 gpu 设备状态。它针对tesla, grid, quadro和 titan x 产品,但其他 nvidia gpu 也提供有限的支持。
nvidia-smi 在 linux 上附带 nvidia gpu 显示驱动程序,以及 64 位 windows server 2008 r2 和 windows 7。nvidia-smi 可以将查询信息报告为 xml 或人类可读的纯文本到标准输出或文件。
✨常用nvidia-smi命令显示gpu所有信息nvidia-smi
间隔1秒刷新gpu信息
nvidia-smi -l 1
列出当前所有gpu设备
nvidia-smi -l
查看当前的 gpu 时钟速度、默认时钟速度和最大可能的时钟速度
nvidia-smi -q -d clock
ps:nvidia-smi 命令
直接在命令行输入 nvidia-smi 命令应该是各位炼丹师再熟悉不过的命令了。
注意:建议使用 watch -n 0.5 nvidia-smi 来动态地观察 gpu 的状态。
通过 nvidia-smi 命令,我们会得到这样一个信息丰富的页面:
tue nov 9 13:47:51 2021
+-----------------------------------------------------------------------------+
| nvidia-smi 495.44 driver version: 495.44 cuda version: 11.5 |
|-------------------------------+----------------------+----------------------+
| gpu name persistence-m| bus-id disp.a | volatile uncorr. ecc |
| fan temp perf pwr:usage/cap| memory-usage | gpu-util compute m. |
| | | mig m. |
|===============================+======================+======================|
| 0 nvidia geforce ... off | 00000000:17:00.0 off | n/a |
| 62% 78c p2 155w / 170w | 10123mib / 12051mib | 100% default |
| | | n/a |
+-------------------------------+----------------------+----------------------+
| 1 nvidia geforce ... off | 00000000:65:00.0 off | n/a |
|100% 92c p2 136w / 170w | 10121mib / 12053mib | 99% default |
| | | n/a |
+-------------------------------+----------------------+----------------------+
| 2 nvidia geforce ... off | 00000000:b5:00.0 off | n/a |
| 32% 34c p8 12w / 170w | 5mib / 12053mib | 0% default |
| | | n/a |
+-------------------------------+----------------------+----------------------+
| 3 nvidia geforce ... off | 00000000:b6:00.0 off | n/a |
| 30% 37c p8 13w / 170w | 5mib / 12053mib | 0% default |
| | | n/a |
+-------------------------------+----------------------+----------------------+
+-----------------------------------------------------------------------------+
| processes: |
| gpu gi ci pid type process name gpu memory |
| id id usage |
|=============================================================================|
| 0 n/a n/a 1258 g /usr/lib/xorg/xorg 6mib |
| 0 n/a n/a 10426 c ...a3/envs/jj_env/bin/python 10111mib |
| 1 n/a n/a 1258 g /usr/lib/xorg/xorg 4mib |
| 1 n/a n/a 10427 c ...a3/envs/jj_env/bin/python 10111mib |
| 2 n/a n/a 1258 g /usr/lib/xorg/xorg 4mib |
| 3 n/a n/a 1258 g /usr/lib/xorg/xorg 4mib |
+-----------------------------------------------------------------------------+
其中显存占用和 gpu 利用率当然是我们最常来查看的参数,但是在一些情况下(比如要重点监控 gpu 的散热情况时)其他参数也很有用,笔者简单总结了一下该命令输出的各个参数的含义如下图:
可以看到其中各个位置的对应含义在输出本身中其实都已经指出了(蓝框),红框则指出了输出各个部分的含义,大部分输出的作用一目了然,这里笔者将其中几个不那么直观的参数简单整理一下:
fan:从0到100%之间变动,这个速度是计算机期望的风扇转速,实际情况下如果风扇堵转,可能打不到显示的转速。
perf:是性能状态,从p0到p12,p0表示最大性能,p12表示状态最小性能。
persistence-m:是持续模式的状态,持续模式虽然耗能大,但是在新的gpu应用启动时,花费的时间更少,这里显示的是off的状态。
disp.a:display active,表示gpu的显示是否初始化。
compute m:是计算模式。
volatile uncorr. ecc:是否开启 ecc 纠错。
type:进程类型。c 表示计算进程,g 表示图形进程,c+g 表示都有。
nvidia-smi 命令的其他参数除了直接运行 nvidia-smi 命令之外,还可以加一些参数,来查看一些本机 nvidia gpu 的其他一些状态。下面笔者简单介绍几个常用的参数,其他的有需要可以去手册中查找:man nvidia-smi。
-l-l 参数显示连接到系统的 gpu 列表。
nvidia-smi -l# 输出:gpu 0: nvidia geforce rtx 3060 (uuid: gpu-55275dff-****-****-****-6408855fced9)gpu 1: nvidia geforce rtx 3060 (uuid: gpu-0a1e7f37-****-****-****-df9a8bce6d6b)gpu 2: nvidia geforce rtx 3060 (uuid: gpu-38e2771e-****-****-****-d5cbb85c58d8)gpu 3: nvidia geforce rtx 3060 (uuid: gpu-8b45b004-****-****-****-46c05975a9f0)
gpu uuid:此值是gpu的全球唯一不可变字母数字标识符。它与主板上的物理标签无关。
-i-i 参数指定某个 gpu,多用于查看 gpu 信息时指定其中一个 gpu。
-q-q 参数查看 gpu 的全部信息。可通过 -i 参数指定查看某个 gpu 的参数。
如:
nvidia-smi -i 0 -q
输出太长了,笔者这里就不列了,大家可以自己试一下,是很完整的信息。
topotopo 展示多gpu系统的拓扑连接信息,通常配合 -m 参数即 nvidia-smi topo -m,其他参数可自行查阅。
输出如下,这里用代码块没法对齐,就直接贴图了:
以上就是linux常用nvidia-smi命令有哪些的详细内容。
其它类似信息

推荐信息