首页 > 其他分享 >如何科学的搭建一台深度学习服务器?

如何科学的搭建一台深度学习服务器?

时间:2023-06-08 18:05:04浏览次数:38  
标签:显存 主频 显卡 深度 一台 GPU 服务器 CPU 搭建


在如今的时代,人工智能的技术已经开始使用在各行各业,例如人脸识别等计算机视觉技术已经开始广泛的使用在人们的日常生活中去 ,如果我们要自己去训练模型,首先我们需要的是寻找到数据集,因为深度学习的技术是需要有非常多的数据,其次最为重要的也就是“算力”,深度学习模型的训练需要基于强大算力平台。也就是GPU,深度学习的模型训练的过程中大量张量会在GPU上完成求导等计算梯度的运算,但是单单有GPU是不行的,还需要有CPU进行配合,甚至SSD固态硬盘,内存等多个问题组成,那么如何选择一台“性价比”最高的深度学习服务器呢?请看下面的解释:

GPU:GPU(图像处理单元)也就是我们常说的显卡,GPU是整个深度学习服务器中最为重要的东西,一般的笔记本的显卡配置的都是GTX1060显卡,显存6G,可以用来执行一些简单的数据集,但是coco等大型数据集就不适合了,现在一般的深度学习服务器中主流选择的GTX1080ti,显存11G,RTX2080ti,显存11G,两个的显存很大,且性价比最高,同时为了提高训练的速度,个人推荐四块GTX1080ti,或者四块RTX2080TI最为合适。当然也有特殊情况,比如使用的数据集数据过大,造成GPU的显存溢出,可以选择更大显存的显卡,接下来是重点Tesla v100 16G/32G,或者RTX8000,48G显存。他们二者的区别在于具体的用途,Tesla v100 支持双精度训练,RTX8000仅仅支持单精度训练,双精度训练一般用于医学图像上的目标检查或者分割,也就是要求极其严格的领域,除此之外均不需要双精度。另外根据BP反向传播算法的原理,Batch size越大,测到的梯度越是准确,因此大显存使用推荐RTX8000显卡,另外比较一下显卡的散热方式,显卡在运行时会出现对大量的热,散热方式尤其重要,Tesla v100为被动散热的风扇散热,噪音较大,且风扇散热效果不好,造成显卡温度超过86℃,会使得GPU的主频下降,利用率减低,RTX8000为主动的涡轮散热,散热效果更好,噪音更小。

CPU: CPU用于深度学习模型训练过程中的数据预处理与多卡训练的均值LOSS损失函数计算,因此CPU很有可能成为深度学习模型训练的瓶颈,因此需要使用较高的主频,考虑得到性价比,目标选择为金牌6149与银牌4125,二者参数分别为8核 16进程3.2GHZ ,16核 32进程 3.1GHZ,虽然主频降低0.1GHZ,但是核心数增大了一倍,因此金牌6149更加具有性价比,除此之外,CPU分为正显版与正式版,一般来说,正显版指的是在CPU正式售出前的测试版,但是均是通过测试的,所以正显没有问题,CPU的铂金系列售价最为昂贵,不建议使用,CPU由于需要处理大量的运算,因此核心与主频不会都高,一般来说核心越多的,主频会降低,可以并行运算多线程,主频高的执行单个进程速度最快,根据目的选择。

内存:根据CPU的读写通道数,内存在为6的倍数时间读写更快,因此选择616GB,或者632GB,现在一些数据集比如imagnet数据集已经超过了100GB,因此选择192GB的内存比较合适,甚至一些主机已经超过了200GB,不过已经够用了,选择R4版本内存条效果最好。

磁盘存储:磁盘分为固态硬盘与机械硬盘两个部分的存储,固态硬盘的价格比较便宜,为了加快地读取的速度,可以使用磁盘阵列做成阵列卡,加快读取速度,举个例子一张12GB的硬盘速度不如3张4TB的机械硬盘,同时阵列卡更加安全,其中一张卡损坏,数据仍然可以读出来。

最后说一下服务器的机架,分为塔式与机架式,塔式的占地面积小,更加省地方,一般均选择塔式。

以上就是所有深度学习服务器的选择指南,包涵了很多的计算机硬件的基础知识,只有充分了解这些技术的知识吗,才能根据不同的用途选择最为合适的服务器,做到物尽其用!加油加油!

作者微信公众号: AI学习经历分享
简书社区:https://www.jianshu.com/p/bdf412f1ef5b


标签:显存,主频,显卡,深度,一台,GPU,服务器,CPU,搭建
From: https://blog.51cto.com/u_13638291/6442041

相关文章

  • 如何防止服务器被入侵?
    如何防止服务器被入侵?1、定期更换服务器账号、密码和端口,密码应该包含大小写字母、数字和特殊符号。2、服务器定期杀毒、查毒。比如安装电脑管家、360安全卫士等软件防护,更新毒库为最新版本;3、定期备份服务器文件数据。建议将数据备份到云盘或是网盘上,如果你只是备份到服务器某个......
  • 服务器怎么关闭系统更新?
    有时候服务器会出现自动重启的情况,那么是什么原因导致服务器自动重启呢?针对这一情况,下面列举几种服务器会自动重启的原因,以及其解决方法。1、出现服务器自动重启的情况,可以先检查下服务器安全性,检查是不是被设置植入了自动重启系统,从而导致的自动重启,这种情况的话,找出删除加固服务......
  • Golang环境搭建
    1、go环境下载地址:https://studygolang.com/dl2、查看go安装状态:goversion3、学习指南https://tour.go-zh.org/welcome/14、环境变量和相关配置4.1 Windows环境下安装#1、配置Go环境变量-GOROOTGo的安装路径#2、新建文件夹third_go,配置GOPATH环境变量#2.1新建......
  • Windows服务器如何查看服务器端口是否开放?
    在工作中处理服务器故障问题的时候,经常需要检测一下Windows的服务器业务端口是否开放,是否能正常与外面通讯。今天我与大家分享一下如何在windows环境下检测服务器端口是否开放,方法很简单。1、以Windows2008系统为例,先检查是否有安装telnet功能,有的服务器默认没有telnet功能,运行-cm......
  • zabbix监控华为服务器硬件状态
    简介zabbix监控华为服务器的硬件是通过iBMC,iBMC系统默认支持V3版本的SNMP服务,SNMPV1和SNMPV2C由于自身机制存在安全隐患,默认是不开启的。如果使用SNMPV1和SNMPV2C需要配置团体名,而用V3只需知道用户名密码及加密算法即可。我们可以现在zabbixserver上安装snmpwalk,然后进行如......
  • 在 macOS Catalina 10.15 搭建 PHP 开发环境包括PHP的redis扩展
    2019年10月8日,苹果公司正式发布了新一代macOS,版本为Catalina(11.15)。macOSCatalina预装了Ruby(2.6.3)、PHP(7.3.9)、Perl(5.18.4)、Python(2.7.16)等常用的脚本语言,以及Apache(2.4.41)Web服务器。需要注意的是,在新版本中,zsh已取代bash成为新版操作系统中的......
  • hncloud:常见的美国服务器操作系统
    常见的美国服务器操作系统包括:WindowsServer:WindowsServer是微软公司提供的服务器操作系统,适用于各种企业级应用和服务,如网站托管、数据库管理、应用程序部署等。Linux发行版:Linux是一种开源操作系统,有许多不同的发行版可供选择,包括但不限于以下几种常见的发行版:Ubuntu:一种基于De......
  • 部署springboot项目到linux服务器,端口访问不了
    部署springboot项目到服务器,端口访问不了看一看之前有没有端口已经占用了ps-ef|grepjava 例如,8000,有项目已经在后台了(例如nohup设置springboot项目系统后台不挂断地运行命令)如果你的新项目的端口是8020或者8030也是不能使用的(这里是我遇到的问题)这时候关......
  • docker搭建hadoop和hive集群
    一、安装docker并生成相关的镜像(1)安装docker安装docker教程https://www.runoob.com/docker/centos-docker-install.html只要在终端输入:sudodockerrunhello-world后出现如下图的内容就证明安装docker成功了(2)拉取CentOS镜像(Ubuntu镜像也行)在终端输入:sudodockerpullcent......
  • Redis Cluster集群搭建
    rediscluster架构一个RedisCluster由多个Redis节点构成,不同节点组服务的数据没有交集,也就是每个一节点组对应数据sharding的一个分片.节点组内部分为主备两类节点,对应master和slave节点.两者数据实时一致,通过异步化的主备复制机制来保证.一个节点组有且只有一个......