事件起因:老板投资的一个公司,想把这个公司的产品部署到本地,由于此产品涉及到AI算法,所以需要一台显存大的GPU显卡。
服务器准备情况:3台32GB内存的1Udell服务器,电源模块功率的500W
一.首先:购买了一个24GB显存的GPU显卡,显卡型号:NVIDIA Tesla P40(部署最低要求就是显存不能小于24GB,不然到时是有会导致内存爆满),此显卡需要独立供电且功率为300W。
出现的问题:由于这个GPU显卡需要独立供电,购买的时候没有了解清楚,卖家说是从电源直接供电,但是服务器电源无法直接给GPU显卡供电。(PS:此前从来没有接触过GPU显卡)
买回来后才了解到现有的1U服务器无法使用这个显卡,原因有四个原因:
1.这个显卡的尺寸太大,无法安装到1U服务器中。(PS:这种大显存的显卡尺寸都比较大,所以最次也要2U服务器)。
2.我的三台1U服务器的电源模块的功率都是500W,500W的电源只够满载的CPU、内存使用,如果外接供电的显卡,那么500W的功率显然就不够用了,更何况我买的NVIDIA Tesla P40需要300W的功率才能带得起来,500W(服务器主板、内存、cpu使用)+300W(一张独显)=800W,所以要想使用这个显卡,电源的功率必须大于800W,但是服务器厂商都会建议使用更大功率的电源,比如:1200W、1400W的电源。
3.1U服务器自带的PCIE的扩展卡不能提供供电。
4.这个显卡带的供电线是单8pin转双8pin,单8pin是连接到GPU显卡上的,而双8pin是接到主板上的(了解到一个8pin引脚的供电功率为150W),而这个1U服务器的主板和显卡扩展坞上没有均没有供电的引脚。
下图为显卡自带的单8pin转双8pin线。
二.然后我在公司找了一圈,最后找到了一台服务器,型号:HP DL388 GEN9(2016年的服务器),是一个2U服务器,庆幸的是这个服务器上自带了PCIE扩展卡,更庆幸的是这个扩展卡上有给显卡供电的接口(10pin引脚)。通过查看服务器指南书,了解到这个扩展卡就是给=预留给外接的GPU显卡的。这个10pin引脚的接口就是给显卡供电的。
三.然后我联系HP的厂家购买大功率的电源。因为HP和H3C之前是一家,所以打了一圈电话,找到了H3C的代理商,被代理商告知800W的电源可能带不起来,所以最后选择了1400W的电源,含税1100元。
四.然后又在淘宝上买了一根HP DL388服务器使用的10pin转双8pin的供电线
其实10pin引脚只接了7根线。
五.最后,将买回来的1400W的电源安装到服务器上,使用单独买的10pin转双8pin的线接显卡自带的8pin转双8pin的线。从扩展卡的10pin引脚给GPU显卡供电。
安装完之后,在没有安装显卡驱动的情况下,在系统命令行界面输出命令查看显卡信息。(PS:我的系统是centos系统,不是windows系统。)
命令行输出:lspci |grep -i nvidia 查看nvidia显卡信息显示如下:
0b:00.0 NIVIDIA compatible controller: Matrox Electronics Systems Ltd. G200eR2
然后在命令行执行:lspci -v -s 0b:00.0 显示显卡大致信息,说明系统已经识别显卡。
最后的最后。由于这个产品是在ubuntu系统下部署的,所以需要重新安装ubuntu系统,然后下载、安装GPU显卡驱动。
标签:供电,引脚,Tesla,8pin,GPU,服务器,显卡 From: https://www.cnblogs.com/wutao-007/p/16784792.html