英伟达
直播中

宋玉红

7年用户 159经验值
私信 关注
[问答]

NVIDIA Vmware vSphere-6.5升级无法启动GPU

我们已经将esxi主机升级到6.5并将VIB升级到从Nvidia网站下载的受支持的NVIDIA-kepler-vSphere-6.5-367.64-369.71,但基本机器将无法启动GPU(PCI共享设备)启用抱怨GPU不够
记忆。
在主机上运行'nvidia-smi'时,会显示以下卡片:
NVIDIA-SMI
2016年11月24日星期四00:04:52
+ -------------------------------------------------
---------------------------- +
|
NVIDIA-SMI 367.64驱动程序版本:367.64 |
| ------------------------------- + -----------------
----- + ---------------------- +
|
GPU名称持久性-M |
Bus-Id Disp.A |
挥发性的Uncorr。
ECC |
|
Fan Temp Perf Pwr:用法/上限|
内存使用|
GPU-Util Compute M. |
| =============================== + =================
===== + ====================== |
|
0 GRID K2开|
0000:05:00.0关闭|
关|
|
N / A 25C P8 28W / 117W |
18MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
1 GRID K2开|
0000:06:00.0关闭|
关|
|
N / A 23C P8 27W / 117W |
18MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
2 GRID K2开|
0000:84:00.0关|
关|
|
N / A 26C P8 28W / 117W |
18MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
3 GRID K2开|
0000:85:00.0关闭|
关|
|
N / A 24C P8 27W / 117W |
18MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
+ -------------------------------------------------
---------------------------- +
|
进程:GPU内存|
|
GPU PID类型进程名称用法|
| =================================================
============================ |
|
0 68574 G Xorg 7MiB |
|
1 68600 G Xorg 7MiB |
|
2 68641 G Xorg 7MiB |
|
3 68660 G Xorg 7MiB |
+ -------------------------------------------------
---------------------------- +
[根@ K2-3:〜]
嗯,Xorg?
年长的esxi主持人没有表现出来。
'gpuvm'的输出
gpuvm
Xserver unix:0,PCI ID 0:5:0:0,vSGA模式,GPU最大内存4173824KB
GPU内存剩余4173824KB。
Xserver unix:1,PCI ID 0:6:0:0,vSGA模式,GPU最大内存4173824KB
GPU内存剩余4173824KB。
Xserver unix:2,PCI ID 0:132:0:0,vSGA模式,GPU最大内存4173824KB
GPU内存剩余4173824KB。
Xserver unix:3,PCI ID 0:133:0:0,vSGA模式,GPU最大内存4173824KB
GPU内存剩余4173824KB。
对我来说,有些东西意味着VIB不正确,但这是Nvidia网站上唯一可用的。
在esxi主机上降级到NVIDIA-GRID-vGPU-kepler-vSphere-6.0-367.64-369.71允许基本机器启用GPU启动,但View不会组成池,因为它无法识别旧GPU。
无论如何,有没有其他人将他们的Vsphere升级到6.5并遇到这个问题或者我们是否遗漏了一些简单的东西?
谢谢。

以上来自于谷歌翻译


以下为原文

We have upgraded a esxi host to 6.5 and the VIB to the supported NVIDIA-kepler-vSphere-6.5-367.64-369.71 downloaded from Nvidia's website but the base machine will not start with the GPU (PCI shared device) enabled complaining about not enough GPU memory. When running 'nvidia-smi' on the host, it shows the cards:

nvidia-smi
Thu Nov 24 00:04:52 2016
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.64                 Driver Version: 367.64                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GRID K2             On   | 0000:05:00.0     Off |                  Off |
| N/A   25C    P8    28W / 117W |     18MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GRID K2             On   | 0000:06:00.0     Off |                  Off |
| N/A   23C    P8    27W / 117W |     18MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   2  GRID K2             On   | 0000:84:00.0     Off |                  Off |
| N/A   26C    P8    28W / 117W |     18MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   3  GRID K2             On   | 0000:85:00.0     Off |                  Off |
| N/A   24C    P8    27W / 117W |     18MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0     68574    G   Xorg                                             7MiB |
|    1     68600    G   Xorg                                             7MiB |
|    2     68641    G   Xorg                                             7MiB |
|    3     68660    G   Xorg                                             7MiB |
+-----------------------------------------------------------------------------+
[root@k2-3:~]

Um, Xorg? The older esxi host down't show that. Output from 'gpuvm'

gpuvm
Xserver unix:0, PCI ID 0:5:0:0, vSGA mode, GPU maximum memory 4173824KB
        GPU memory left 4173824KB.
Xserver unix:1, PCI ID 0:6:0:0, vSGA mode, GPU maximum memory 4173824KB
        GPU memory left 4173824KB.
Xserver unix:2, PCI ID 0:132:0:0, vSGA mode, GPU maximum memory 4173824KB
        GPU memory left 4173824KB.
Xserver unix:3, PCI ID 0:133:0:0, vSGA mode, GPU maximum memory 4173824KB
        GPU memory left 4173824KB.

To me, something implies the VIB is not correct but that is the only 1 available via Nvidia's website. Downgrading to NVIDIA-GRID-vGPU-kepler-vSphere-6.0-367.64-369.71 on the esxi host allows the base machine to start with GPU enabled, but View won't compose a pool as it does not recognize the older GPU.

Anyway, has anyone else upgraded their Vsphere to 6.5 and run into this issue or are we missing something simple?

Thanks.

回帖(18)

盛珺

2018-9-20 11:50:23
没关系,每个esxi上已更新为6.5的主机图形设置已恢复为Shared而非Shared Direct。
一旦将主机设置为“共享直接”并重新启动xorg,一切都很好。

以上来自于谷歌翻译


以下为原文

Nevermind, the host graphics settings on each esxi that had been updated to 6.5 had reverted back to Shared and not Shared Direct. Once setting the host to "Shared Direct" and restarting xorg, all is well.
举报

陈伟

2018-9-20 11:58:13
这正是我遇到的问题,感谢分享解决方案。

以上来自于谷歌翻译


以下为原文

This this exactly the problem I was running into, thanks for sharing the solution.
举报

邹先莹

2018-9-20 12:15:09
vSphere 6.5和2016年11月GRID驱动程序(Kepler和Maxwell)需要通过vCenter将默认GPU模式从“共享”(vSGA)更改为“共享直接”(vGPU),以启用对VM的vGPU支持。
不更改此操作将导致分配了vGPU配置文件的VM无法以标准“图形资源不可用”错误启动。 
对于那些可能开始使用vSphere 6.5评估2016年11月GRID驱动程序的用户,需要执行配置GPU模式的附加步骤。 
程序:
- 在vCenter 6.5中选择ESXi 6.5主机,然后选择“配置”选项卡并向下滚动到“图形”。
- 突出显示要用于vGPU的每个GPU,然后选择编辑图标以修改图形设备设置。
- 为vGPU选择“Shared Direct”
- 需要重新启动主机才能使更改生效,之后您的vGPU VM现在应该正常启动。
这个新的要求和程序将很快添加到文档中,感谢您报告此问题。

以上来自于谷歌翻译


以下为原文

vSphere 6.5 and November 2016 GRID drivers (both Kepler and Maxwell) require changing the default GPU mode from “Shared” (vSGA) to “Shared Direct” (vGPU) via vCenter to enable vGPU support for VMs.

Not changing this will result in the VMs with a vGPU profile assigned to not start with the standard “graphics resources not available” error.

For those that may be starting to evaluate the November 2016 GRID drivers with vSphere 6.5, an additional step to configure the GPU mode is required.

Procedure:
-          Select the ESXi 6.5 host in vCenter 6.5, next select the “Configure” tab and scroll down to “Graphics”.
-          Highlight each GPUs that you want to use for vGPU and then select the edit icon to modify the Graphics device settings.
-          Select “Shared Direct” for vGPU
-          The host will need to be rebooted for the changes to take effect, after that your vGPU VMs should now start normally.

This new requirement and procedures will ba added to the documentation shortly, thank you for reporting this issue.
举报

贾飞小

2018-9-20 12:22:21
我找到了这个并以这种方式配置我的服务器。
它导致我的所有VM设置为使用vmware svga出现问题。
我根本不需要他们使用GPU。
我只想为某些人启用。
这是我们需要配置的新方式吗?
让所有虚拟机都使用GPU,无论是否需要?
这种情况发生在没有添加配置文件的共享PCI的虚拟机上。

以上来自于谷歌翻译


以下为原文

I found this and configured my server this way.  It caused all my VMs set to use vmware svga to have issues.  I don't need them to use the GPU at all.  I only wanted to enable for some.

Is this the new way we need to configure?  To have all the VMs use the GPU, regardless of if needed?

This happened to VMs that did not have the Shared PCI added with a profile.
举报

更多回帖

发帖
×
20
完善资料,
赚取积分