英伟达
直播中

李桂珍

7年用户 235经验值
私信 关注
[问答]

M10与ESXi 6.5-vGPU:不支持设备

大家好,
目前,我们正在为客户评估vGPU功能,以使3D-CAD-VDI-Environment正常运行。
但是现在我仍然坚持使用NVIDIA驱动程序的基本安装/配置。
我成功安装了最新版本(NVIDIA-VMware_ESXi_6.5_Host_Driver_384.73-1OEM.650.0.0.4598673.vib)。
'nvidia-smi'的输出看起来也很不错:
+ -------------------------------------------------
---------------------------- +
|
NVIDIA-SMI 384.73驱动程序版本:384.73 |
| ------------------------------- + -----------------
----- + ---------------------- +
|
GPU名称持久性-M |
Bus-Id Disp.A |
挥发性的Uncorr。
ECC |
|
Fan Temp Perf Pwr:用法/上限|
内存使用|
GPU-Util Compute M. |
| =============================== + =================
===== + ====================== |
|
0特斯拉M10开|
00000000:0A:00.0关闭|
N / A |
|
N / A 38C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
1特斯拉M10开|
00000000:0B:00.0关闭|
N / A |
|
N / A 40C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
2特斯拉M10开|
00000000:0C:00.0关闭|
N / A |
|
N / A 33C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
3特斯拉M10开|
00000000:0D:00.0关闭|
N / A |
|
N / A 35C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
+ -------------------------------------------------
---------------------------- +
|
进程:GPU内存|
|
GPU PID类型进程名称用法|
| =================================================
============================ |
|
0 68391 G Xorg 4MiB |
|
1 68412 G Xorg 4MiB |
|
2 68428 G Xorg 4MiB |
|
3 68446 G Xorg 4MiB |
+ -------------------------------------------------
---------------------------- +
但是当我尝试运行分配了vGPU的VM时,它将无法启动。
经过一些研究,似乎不支持M10:
[root @ HV04:〜] nvidia-smi vgpu
#0,不支持设备
#1,不支持设备
#2,不支持设备
#3,不支持设备
设备不支持
那我现在该怎么办?
有人可以帮忙或暗示一下吗?
干杯
本杰明

以上来自于谷歌翻译


以下为原文

Hello All,

at the moment we are evaluating the vGPU feature for a customer to get a 3D-CAD-VDI-Environment up an running.
But for now I'm stuck with the basic installtion/configuration of the NVIDIA-driver.

I installed the newest version (NVIDIA-VMware_ESXi_6.5_Host_Driver_384.73-1OEM.650.0.0.4598673.vib) sucessfully.
Also the output of 'nvidia-smi' looks quite good:

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.73                 Driver Version: 384.73                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M10           On   | 00000000:0A:00.0 Off |                  N/A |
| N/A   38C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla M10           On   | 00000000:0B:00.0 Off |                  N/A |
| N/A   40C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla M10           On   | 00000000:0C:00.0 Off |                  N/A |
| N/A   33C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla M10           On   | 00000000:0D:00.0 Off |                  N/A |
| N/A   35C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     68391      G   Xorg                                           4MiB |
|    1     68412      G   Xorg                                           4MiB |
|    2     68428      G   Xorg                                           4MiB |
|    3     68446      G   Xorg                                           4MiB |
+-----------------------------------------------------------------------------+



But when I try to run a VM with a vGPU assigned to, it won't start.
After some research it seems that the M10 is not supported:

[root@HV04:~] nvidia-smi vgpu
#0, Device not supported
#1, Device not supported
#2, Device not supported
#3, Device not supported
Not supported on the device(s)



So what can I do now? Can somebody please help or give a hint?

Cheers
Benjamin

回帖(7)

程玲

2018-9-10 17:37:33
你好
这是一款全新的M10吗?
如果是,您是否已将GPU从“计算模式”更改为“图形模式”?
问候

以上来自于谷歌翻译


以下为原文

Hi

Is it a brand new M10?

If yes, have you changed the GPU from "Compute Mode" to "Graphics Mode"?

Regards
举报

陈博朴

2018-9-10 17:56:33
嗨,
感谢您的回复。
是的,它是一个全新的M10。
我还没有检查GPU模式,因为每个文档都提到了M60和M6,而不是M10。
但是现在我已经尝试过了,没有成功:
-----------开始cli输出-----------
[root @ HV04:〜] gpumodeswitch --listgpumodes
NVIDIA GPU模式切换实用程序版本1.23.0
版权所有(C)2015,NVIDIA Corporation。
版权所有。
错误:使用基于字符设备读取卡信息失败。
[root @ HV04:〜] gpumodeswitch --gpumode graphics --auto
NVIDIA GPU模式切换实用程序版本1.23.0
版权所有(C)2015,NVIDIA Corporation。
版权所有。
错误:使用基于字符设备读取卡信息失败。
-----------结束cli输出-----------
但是,因为我必须删除Host_Driver包以使用gpuswitch工具,所以我之后重新安装它。
然后我在重启前测试了它:
-----------开始cli输出-----------
[root @ HV04:〜] nvidia-smi
2017年10月12日星期四09:43:54
+ -------------------------------------------------
---------------------------- +
|
NVIDIA-SMI 384.73驱动程序版本:384.73 |
| ------------------------------- + -----------------
----- + ---------------------- +
|
GPU名称持久性-M |
Bus-Id Disp.A |
挥发性的Uncorr。
ECC |
|
Fan Temp Perf Pwr:用法/上限|
内存使用|
GPU-Util Compute M. |
| =============================== + =================
===== + ====================== |
|
0特斯拉M10开|
00000000:0A:00.0关闭|
N / A |
|
N / A 37C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
1特斯拉M10开|
00000000:0B:00.0关闭|
N / A |
|
N / A 38C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
2特斯拉M10开|
00000000:0C:00.0关闭|
N / A |
|
N / A 33C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
3特斯拉M10关闭|
00000000:0D:00.0关闭|
N / A |
|
N / A 35C P8 10W / 53W |
18MiB / 8191MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
+ -------------------------------------------------
---------------------------- +
|
进程:GPU内存|
|
GPU PID类型进程名称用法|
| =================================================
============================ |
|
0 68925 G Xorg 4MiB |
|
1 68945 G Xorg 4MiB |
|
2 68965 G Xorg 4MiB |
+ -------------------------------------------------
---------------------------- +
[root @ HV04:〜] nvidia-smi vgpu
#0,不支持设备
#1,不支持设备
#2,不支持设备
2017年10月12日星期四09:44:00
+ -------------------------------------------------
---------------------------- +
|
NVIDIA-SMI 384.73驱动程序版本:384.73 |
| ------------------------------- + -----------------
--------------- + ------------ +
|
GPU名称|
Bus-Id |
GPU-Util |
|
vGPU ID名称|
VM ID VM名称|
vGPU-Util |
| =============================== + =================
=============== + ============ |
|
3特斯拉M10 |
00000000:0D:00.0 |
0%|
+ ------------------------------- + -----------------
--------------- + ------------ +
[root @ HV04:〜] nvidia-smi vgpu -s
#0,不支持设备
#1,不支持设备
#2,不支持设备
GPU 00000000:0D:00.0 
GRID M10-0B 
GRID M10-0Q 
GRID M10-1A 
GRID M10-1B 
GRID M10-1Q 
GRID M10-2A 
GRID M10-2Q 
GRID M10-4A 
GRID M10-4Q 
GRID M10-8A 
GRID M10-8Q
-----------结束cli输出-----------
现在看来,一个GPU-Core运行正常。
但重启后一切都恢复原状 - 所有的GPU都处于“不支持”状态。
我有这样的印象,它与Xorg-Process有关。
BR
本杰明

以上来自于谷歌翻译


以下为原文

Hi,

thanks for your reply.
Yes it is a brand new M10.

I haven't checked for the GPU-Mode, because every documentation just mentions this for M60 and M6, not for M10.
But now I've tried it, with no success:

-----------Begin cli output-----------
[root@HV04:~] gpumodeswitch --listgpumodes

NVIDIA GPU Mode Switch Utility Version 1.23.0
Copyright (C) 2015, NVIDIA Corporation. All Rights Reserved.


ERROR: Read card info failed by using character device based.

[root@HV04:~] gpumodeswitch --gpumode graphics --auto

NVIDIA GPU Mode Switch Utility Version 1.23.0
Copyright (C) 2015, NVIDIA Corporation. All Rights Reserved.


ERROR: Read card info failed by using character device based.
-----------End cli output-----------

But, because I had to remove the Host_Driver Package to use the gpuswitch-tool, I reinstalled it afterwards.
Then I tested it BEFORE a reboot:


-----------Begin cli output-----------

[root@HV04:~] nvidia-smi
Thu Oct 12 09:43:54 2017
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.73                 Driver Version: 384.73                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  Tesla M10           On   | 00000000:0A:00.0 Off |                  N/A |
| N/A   37C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  Tesla M10           On   | 00000000:0B:00.0 Off |                  N/A |
| N/A   38C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  Tesla M10           On   | 00000000:0C:00.0 Off |                  N/A |
| N/A   33C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  Tesla M10           Off  | 00000000:0D:00.0 Off |                  N/A |
| N/A   35C    P8    10W /  53W |     18MiB /  8191MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID   Type   Process name                             Usage      |
|=============================================================================|
|    0     68925      G   Xorg                                           4MiB |
|    1     68945      G   Xorg                                           4MiB |
|    2     68965      G   Xorg                                           4MiB |
+-----------------------------------------------------------------------------+
[root@HV04:~] nvidia-smi vgpu
#0, Device not supported
#1, Device not supported
#2, Device not supported
Thu Oct 12 09:44:00 2017
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 384.73                 Driver Version: 384.73                    |
|-------------------------------+--------------------------------+------------+
| GPU  Name                     | Bus-Id                         | GPU-Util   |
|      vGPU ID    Name          | VM ID    VM Name               | vGPU-Util  |
|===============================+================================+============|
|   3  Tesla M10                | 00000000:0D:00.0               |   0%       |
+-------------------------------+--------------------------------+------------+


[root@HV04:~] nvidia-smi vgpu -s
#0, Device not supported
#1, Device not supported
#2, Device not supported
GPU 00000000:0D:00.0
    GRID M10-0B
    GRID M10-0Q
    GRID M10-1A
    GRID M10-1B
    GRID M10-1Q
    GRID M10-2A
    GRID M10-2Q
    GRID M10-4A
    GRID M10-4Q
    GRID M10-8A
    GRID M10-8Q
-----------End cli output-----------

It seems that now one GPU-Core is running fine.
But after reboot everything is back as it was before - all of the GPUs are in "not supported"-state.
I have got the impression, that it has something to do with the Xorg-Process.

BR
Benjamin
举报

张婷

2018-9-10 18:09:17
只需使用.iso并从中启动服务器?
然后无需删除任何.vib。
那么其中一个GPU正在运行而另外三个不运行?
...尝试再次运行changemode实用程序,然后使用该实用程序验证所有4个GPU。
问候

以上来自于谷歌翻译


以下为原文

Just use the .iso and boot the server from that? No need to remove any .vibs then.

So 1 of the GPUs is now working and the other 3 aren't? ... Try running the changemode utility again and verify all 4 GPUs using the utility afterwards.

Regards
举报

高若琰

2018-9-10 18:18:25
嗨,
它似乎与cli-tool“gpumodeswitch”的GPU模式设置无关。
由于最后的步骤/结果,我改变了我的谷歌搜索,发现退出一个有用的帖子(由用户“jmain”):
https://gridforums.nvidia.com/default/topic/1030/nvidia-virtual-gpu-technology/nvidia-vmware-vsphere-6-5/post/3713/#3713
更改vCenter中的设置(flash-version!)后,一切都已启动并正在运行。
谢谢你的帮助!
BR
本杰明
PS @Nvidia
请更新您的文档(如近一年前所述)。

以上来自于谷歌翻译


以下为原文

Hi,

it seems not related to the GPU-mode-settings by the cli-tool "gpumodeswitch".

Because of the last steps/results I change my google-search and found quit a helpful Post (by User "jmain"):
https://gridforums.nvidia.com/default/topic/1030/nvidia-virtual-gpu-technology/nvidia-vmware-vsphere-6-5/post/3713/#3713

After changing the Setting in vCenter (flash-version!), everything is up and running now.

Thanks for your Help!

BR
Benjamin

PS @Nvidia
Please update your documentation (as told nearly a year ago).
举报

更多回帖

发帖
×
20
完善资料,
赚取积分