深度学习(Deep Learning)可以完成需要高度抽象特征的人工智能任务,如机器视觉和图像识别、自然语言处理、语音识别和机器翻译等。深度学习采用的模型为深层神经网络(Deep Neural Networks,DNN)模型,即包含多个隐藏层(Hidden Layer,也称隐含层)的神经网络(Neural Networks,NN)。深度学习利用模型中的隐藏层,通过特征组合的方式,逐层将原始输入转化为浅层特征,中层特征,高层特征直至最终的任务目标。
深层模型参数多,计算量大,训练数据的规模也更大,需要消耗很多计算资源。利用GPU来训练深度神经网络,可以充分发挥其数以千计计算核心的高效并行计算能力,在使用海量训练数据的场景下,所耗费的时间大幅缩短,占用的服务器也更少。如果对深度神经网络进行合理优化,一块GPU卡可相当于数十甚至上百台CPU服务器的计算能力,因此GPU已经成为业界在深度学习模型训练方面的首选解决方案。
一般来说,GPU卡数量越多越能提升深度学习模型训练的速度,深度学习模型训练还需要存储海量的训练数据,训练过程中会有大量的小文件频繁读写,对于方案的存储容量和硬盘读写速度均有较高要求。
软件方面,深度学习训练服务器出厂可预装TensorFlow,Pytorch等常用或者客户指定的深度学习框架,集成CUDA开发环境,cuBlas,cuFFT,cuSparse,CUDNN等多种函数库,安装Ubuntu,CentOS等多种操作系统,部署机器管理系统和作业调度系统软件。
深度学习训练服务器分为静音塔式服务器和机架式服务器两种,适应客户办公室和机房不同的使用场景。
机器硬件方面,深度学习训练服务器既有基于Intel Xeon CPU平台方案,又有基于AMD EPYC CPU平台方案,具有支持2GPU卡、4GPU卡、8GPU卡、10GPU卡等多种机型,以及以这些机型为基础构建的GPU集群方案,可以满足科研人员多层次需求、深度学习训陈服务器支持高达2个2260、2280、22110 M.2 SSD硬盘位,高达4个2.5英寸热插拔U.2 SSD硬盘位,支持高达12块3.5英寸热插拔SATA/SAS硬盘位,可以满足用户对硬盘读写速度的要求,和存储容量的要求。
标签:训练,深度,学习,GPU,服务器,硬盘 From: https://blog.csdn.net/HPC_factory/article/details/137256504