英伟达
直播中

杜永强

7年用户 123经验值
私信 关注
[问答]

关于Grid K2的工作温度

我正在使用VMWARE ESXi 6.5测试服务器Dell R720XD + Grid K2
遇到的问题是VMWARE会出现红屏。
根据制造商的建议,我使用戴尔版本的VMWARE升级了戴尔的最新BIOS;
我试图扩大内存容量和电源,以及所有无法解决的问题,仍然无法解决VMWARE崩溃问题。
当我没有安装K2驱动程序,或者没有在虚拟机中启用K2相关配置时,整个系统一切正常,一旦启用K2相关配置,无论哪种驱动模式,都会导致快速出现
VMWARE红屏情况
我判断可能与K2的散热有关,因为我觉得K2温度很高,而且我用命令查看设备情况,发现温度高达95摄氏度。
2017年3月8日星期三15:12:34
+ -------------------------------------------------
---------------------------- +
|
NVIDIA-SMI 367.64驱动程序版本:367.64 |
| ------------------------------- + -----------------
----- + ---------------------- +
|
GPU名称持久性-M |
Bus-Id Disp.A |
挥发性的Uncorr。
ECC |
|
Fan Temp Perf Pwr:用法/上限|
内存使用|
GPU-Util Compute M. |
| =============================== + =================
===== + ====================== |
|
0 GRID K2开|
0000:44:00.0关闭|
关|
|
N / A 98C P8 34W / 117W |
3837MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
|
1 GRID K2开|
0000:45:00.0关闭|
关|
|
N / A 81C P8 31W / 117W |
3837MiB / 4095MiB |
0%默认值|
+ ------------------------------- + -----------------
----- + ---------------------- +
+ -------------------------------------------------
---------------------------- +
|
进程:GPU内存|
|
GPU PID类型进程名称用法|
| =================================================
============================ |
|
0 68203 C + G WIN10 B 3824MiB |
|
1 68202 C + G WIN10 A 3824MiB |
+ -------------------------------------------------
---------------------------- +
这个温度K2可以正常运行吗?
因为K2是被动冷却模式,而我没有找到相关参数,无法确认温度的安全运行?
如果我必须改善热量问题,我该怎么办?

以上来自于谷歌翻译


以下为原文

I'm testing a server, Dell R720XD + Grid K2, using VMWARE ESXi 6.5
The problem encountered is VMWARE will appear red screen.
According to the manufacturer's advice, I upgraded Dell's latest BIOS, using the Dell version of VMWARE;
I tried to expand the memory capacity and power supply, and all the problems that can not be solved, still can not solve the VMWARE crash problem.
When I do not install K2 driver, or not in the virtual machine to enable K2-related configuration, the whole system everything is normal, once I enable K2-related configuration, no matter what kind of drive mode, will lead to the rapid emergence of VMWARE red screen situation The
I judge may be related to the heat dissipation of K2, because I feel K2 temperature is very high, and I use the command to view the equipment situation, the temperature was found as high as 95 degrees Celsius.


Wed Mar  8 15:12:34 2017      
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 367.64                 Driver Version: 367.64                    |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|===============================+======================+======================|
|   0  GRID K2             On   | 0000:44:00.0     Off |                  Off |
| N/A   98C    P8    34W / 117W |   3837MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
|   1  GRID K2             On   | 0000:45:00.0     Off |                  Off |
| N/A   81C    P8    31W / 117W |   3837MiB /  4095MiB |      0%      Default |
+-------------------------------+----------------------+----------------------+
                                                                              
+-----------------------------------------------------------------------------+
| Processes:                                                       GPU Memory |
|  GPU       PID  Type  Process name                               Usage      |
|=============================================================================|
|    0     68203  C+G   WIN10 B                                       3824MiB |
|    1     68202  C+G   WIN10 A                                       3824MiB |
+-----------------------------------------------------------------------------+


Will this temperature K2 can run properly? Because K2 is a passive cooling mode, and I did not find the relevant parameters, can not confirm the safe operation of the temperature?
What should I do if I have to improve the heat problem?

回帖(2)

廉雁捷

2018-9-4 15:28:03
期待您的任何建议

以上来自于谷歌翻译


以下为原文

Looking forward to any of your suggestions
举报

高澜栖

2018-9-4 15:45:20
你好
不要使用那些在该服务器中使用这些GPU。
由于冷却不充分,长期使用可能会严重损坏它们。
本指南的第22页:http://i.dell.com/sites/doccontent/shared-content/data-sheets/en/Documents/dell-poweredge-r720-r720xd-technical-guide.pdf
由于XD的设计,我猜测由于气流,但R720XD不支持使用GPU。
如果您可以访问普通的R720,那么将GPU与所需的“GPU Enablement Kit”(2个低调热同步(以改善气流)和电源线)一起安装在其中。
问候

以上来自于谷歌翻译


以下为原文

Hi

Do not use those use those GPUs in that server. Prolonged usage may seriously damage them due to insufficient cooling.

Page 22 of this guide: http://i.dell.com/sites/doccontent/shared-content/data-sheets/en/Documents/dell-poweredge-r720-r720xd-technical-guide.pdf

I'm guessing due to air-flow because of the design of the XD, but the R720XD does not support the use of GPUs.

If you have access to a normal R720, then install the GPUs in that in combination with the required "GPU Enablement Kit" (2 low profile heat-syncs (to improve air flow) and power cables).

Regards
举报

更多回帖

发帖
×
20
完善资料,
赚取积分