深度学习主机配置，可支持多个GPU卡的GPU工作站或服务器？_服务器

推荐品牌： LINKZOL(联众集群)，可咨询：1381O114665
推荐配置一：
计算平台采用：LZ743GR-2G/Q
系统：Ubuntu 14043 x64
CPU:Intel Xeon十核E5-2630v4(22GHz,80 GT/s)
内存：原厂64GB内存 (16GB×4) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：INTEL 25寸240G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:希捷35寸4T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：2块NVIDIA TATAN-X GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大2个GPU卡）
电源：1200W High efficiency (96%)金牌电源
推荐配置二：
计算平台采用：LZ-748GT
系统：Ubuntu 14043 x64
CPU:Intel Xeon十二核E5-2650v4(22GHz,96 GT/s)
内存：原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：2块INTEL 25寸480G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:3块希捷35寸4T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：4块TESLA TITANX GPU计算卡或者4块tesla P4O GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大4个GPU卡）
电源：2000W High efficiency (94%)冗余钛金电源
推荐配置三：
计算平台采用：LZ428GR-8G/Q
系统：Ubuntu 14043 x64
CPU:Intel Xeon十四核E5-2690v4(26GHz,96GT/s)
内存：原厂256GB内存 (16GB×16) DDR4 2133MHZ ECC-REG（带内存校错技术，最大支持2T）
系统硬盘：2块INTEL 25寸480G 企业级SSD固态硬盘（最大支持8块硬盘，类型：SATA,SSD）
系统硬盘:3块希捷25寸2T 7200RPM 企业级硬盘（最大支持8块硬盘，类型：SATA,SSD;）
GPU卡：8块TESLA P40 GPU计算卡或者8块NVIDIA TATAN-X GPU卡（CUDA核心数3584个核心，12G DDR5 显存，最大8个GPU卡）
电源：1600W（2+2） High efficiency (96%)钛金电源

先说结论：部署的方式取决于需求

需求一：简单的demo演示，只要看看效果的，像是学校里面的demo展示这种

caffe、tf、pytorch等框架随便选一个，切到test模式，拿python跑一跑就好，顺手写个简单的GUI展示结果

高级一点，可以用CPython包一层接口，然后用C++工程去调用

需求二：要放到服务器上去跑，但一不要求吞吐二不要求时延的那种，说白了还是有点玩玩的意思

caffe、tf、pytorch等框架随便选一个，按照官方的部署教程，老老实实用C++部署，例如pytorch模型用工具导到libtorch下跑（官方有教程，很简单）

这种还是没有脱离框架，有很多为训练方便保留的特性没有去除，性能并不是最优的；

另外，这些框架要么CPU，要么NVIDIA GPU，对硬件平台有要求，不灵活；还有，框架是真心大，占内存（tf还占显存），占磁盘

需求三：放到服务器上跑，要求吞吐和时延（重点是吞吐）

这种应用在互联网企业居多，一般是互联网产品的后端AI计算，例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署，这时不仅仅要考虑吞吐和时延，还要考虑功耗和成本。所以除了软件外，硬件也会下功夫，比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低，单位能耗下计算效率更高，且硬件结构更适合高吞吐量的情况软件上，一般都不会直接上深度学习框架。对于NVIDIA的产品，一般都会使用TensorRT来加速（我记得NVIDIA好像还有TensorRT inference server什么的，名字记不清了，反正是不仅可以加速前传，还顺手帮忙调度了）。TensorRT用了CUDA、CUDNN，而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了

需求四：放在NVIDIA嵌入式平台上跑，注重时延

比如PX2、TX2、Xavier等，参考上面（用全家桶就对了），也就是贵一点嘛

需求五：放在其他嵌入式平台上跑，注重时延

硬件方面，要根据模型计算量和时延要求，结合成本和功耗要求，选合适的嵌入式平台。比如模型计算量大的，可能就要选择带GPU的SoC，用opencl/opengl/vulkan编程；也可以试试NPU，不过现在NPU支持的算子不多，一些自定义Op多的网络可能部署不上去对于小模型，或者帧率要求不高的，可能用CPU就够了，不过一般需要做点优化（剪枝、量化、SIMD、汇编、Winograd等）顺带一提，在手机上部署深度学习模型也可以归在此列，只不过硬件没得选，用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作，在一些移动端开源框架都有人做掉了，一般拿来改改就可以用了，性能都不错。

需求六：上述部署方案不满足我的需求

比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架，性能应该都比开源框架好。只不过自己写一套比较费时费力，且如果没有经验的话，很有可能费半天劲写不好

搞AI，谁又能没有“GPU之惑”？下面列出了一些适合进行深度学习模型训练的GPU，并将它们进行了横向比较，一起来看看吧！

CPU与GPU对比

CPU是一个有多种功能的优秀领导者。它的优点在于调度、管理、协调能力强，计算能力则位于其次。而GPU相当于一个接受CPU调度的“拥有大量计算能力”的员工。

下图是处理器内部结构图：

DRAM即动态随机存取存储器，是常见的系统内存。

Cache存储器：电脑中作为高速缓冲存储器，是位于CPU和主存储器DRAM之间，规模较小，但速度很高的存储器。

算术逻辑单元ALU是能实现多组算术运算和逻辑运算的组合逻辑电路。

当需要对大数据bigdata做同样的事情时，GPU更合适，当需要对同一数据做很多事情时，CPU正好合适。

GPU能做什么？关于图形方面的以及大型矩阵运算，如机器学习算法等方面，GPU就能大显身手。

简而言之，CPU擅长统领全局等复杂 *** 作，GPU擅长对大数据进行简单重复 *** 作。CPU是从事复杂脑力劳动的教授，而GPU是进行大量并行计算的体力劳动者。

深度学习是模拟人脑神经系统而建立的数学网络模型，这个模型的最大特点是，需要大数据来训练。因此，对电脑处理器的要求，就是需要大量的并行的重复计算，GPU正好有这个专长，时势造英雄，因此，GPU就出山担当重任了。

太长不看版
截至2020年2月，以下GPU可以训练所有当今语言和图像模型：

RTX 8000：48GB VRAM，约5500美元RTX 6000：24GB VRAM，约4000美元Titan RTX：24GB VRAM，约2500美元
以下GPU可以训练大多数（但不是全部）模型：RTX 2080 Ti：11GB VRAM，约1150美元GTX 1080 Ti：11GB VRAM，返厂翻新机约800美元RTX 2080：8GB VRAM，约720美元RTX 2070：8GB VRAM，约500美元
以下GPU不适合用于训练现在模型：RTX 2060：6GB VRAM，约359美元。
在这个GPU上进行训练需要相对较小的batch size，模型的分布近似会受到影响，从而模型精度可能会较低。
GPU购买建议
RTX 2060（6 GB）：你想在业余时间探索深度学习。RTX 2070或2080（8 GB）：你在认真研究深度学习，但GPU预算只有600-800美元。8 GB的VRAM适用于大多数模型。RTX 2080 Ti（11 GB）：你在认真研究深度学习并且您的GPU预算约为1,200美元。RTX 2080 Ti比RTX 2080快大约40％。Titan RTX和Quadro RTX 6000（24 GB）：你正在广泛使用现代模型，但却没有足够买下RTX 8000的预算。Quadro RTX 8000（48 GB）：你要么是想投资未来，要么是在研究2020年最新最酷炫的模型。NV TESLA V100 （32GB）：如果你需要在NVIDIA数据中心使用CUDA，那么TESLA就是必选品了。图像模型
内存不足之前的最大批处理大小：表示GPU没有足够的内存来运行模型。
性能（以每秒处理的图像为单位）：表示GPU没有足够的内存来运行模型。
语言模型
内存不足之前的最大批处理大小：表示GPU没有足够的内存来运行模型。
性能： GPU没有足够的内存来运行模型。
使用Quadro RTX 8000结果进行标准化后的表现
图像模型
语言模型

结论
语言模型比图像模型受益于更大的GPU内存。注意右图的曲线比左图更陡。这表明语言模型受内存大小限制更大，而图像模型受计算力限制更大。具有较大VRAM的GPU具有更好的性能，因为使用较大的批处理大小有助于使CUDA内核饱和。具有更高VRAM的GPU可按比例实现更大的批处理大小。只懂小学数学的人都知道这很合理：拥有24 GB VRAM的GPU可以比具有8 GB VRAM的GPU容纳3倍大的批次。比起其他模型来说，长序列语言模型不成比例地占用大量的内存，因为注意力（attention）是序列长度的二次项。
附注：测试模型
图像模型：
语言模型：

云轩Cloudhin专注Deep learning和高性能计算服务器定制，针对主要深度学习框架（如TensorFlow、Caffe 2、Theano或Torch）进行了优化和设置，在桌面上即可提供强大的深度学习功能。

CPU和主板支持什么内存就插哪种。主要参数就是类型，ddr4，ddr3这种的表示。频率要看主板支持多大，在主板BIOS设置中要设置才会倍频，要不白买高频率的了。

内存大小，当然越大越好！还是那句话看主板支持多大的内存。一般16g一个人用足够，多个人怎么也得32g吧。毕竟matlab有时还是会用到的,内存别太小。

一般就是看威刚，金士顿，芝奇，海盗船这几个牌子，芝奇，海盗船用的晶元据说好一些，金士顿也有骇客神条，还是看预算吧，一般不会差太多钱。

支持深度学习服务器定制，欢迎了解更多解决方案：网页链接

没必要，如果咱们要求服务器的安全性高，不能断电，可以配置双电增加安全性。如果咱们服务器用的时候开机，不用的时候关机，安全性要求低的时候可以不要。不过还是加个电源还是好点的߅也差不了多少钱。
配置深度学习服务器建议考虑蓝海大脑，感觉他们做事情很职业很负责，沟通也比较顺畅。是异构计算的高性能超算平台公司，专注为企业数据中心、云计算、人工智能、边缘计算、生命科学等领域的高性能服务商。毕竟是个大件，还是要找专业的公司靠谱一些。

不一定，深度学习可以在本地计算机上运行，也可以在服务器上运行。但是，通常情况下，深度学习需要处理大量的数据和复杂的计算，因此需要比普通计算机更高效的硬件和更大的存储空间。因此，一些公司和组织通常会使用高性能计算机（HPC）或云计算平台来运行深度学习任务。
在本地运行深度学习任务的主要优点是可以对计算机进行更好的控制，可以使用自己的硬件和软件。此外，本地计算机可以更好地保护数据的隐私和安全性。但是，本地计算机的计算能力和存储空间通常受限，因此可能无法满足大规模深度学习任务的需求。
使用服务器或云计算平台运行深度学习任务的主要优点是可以获得更高的计算能力和更大的存储空间。此外，使用云计算平台可以根据需要调整计算资源的规模，从而更好地应对不同规模的深度学习任务。但是，使用云计算平台需要支付相应的费用，并且需要注意数据隐私和安全性的保护。

欢迎分享，转载请注明来源：内存溢出

原文地址:https://54852.com/zz/10420484.html

深度学习主机配置，可支持多个GPU卡的GPU工作站或服务器？

发表评论

评论列表（0条）