Other

深度学习训练服务器采购

之前在朋友圈跟朋友们分享过深度学习服务器采购的一些经验和我踩过的很多坑。例如当时买了8卡曙光的机器,虽然销售人员号称支持GTX系列显卡,但是买回来之后就故障不断,也一直没修的太好用。后来几经周折,找到了2家京东上性价比比较好的机器,这些年陆续的买了4卡的服务器和2卡的工作站60多台,用着非常顺利。主要是两家高度定制化的机器提供商,都支持机架式和塔式的自由选配,非常稳定。跟大家分享一下链接:https://item.jd.com/43840330828.htmlhttps://item.jd.com/10054863355542.html

小品牌给报价单时,跟管理部门打交道太少,很容易踩坑。我单独写了一个避坑指南

训练服务器目前的各种配置中,最推荐大家买4卡的RTX 2080Ti (单卡11GB显存)和 RTX Titan (单卡24GB显存)两种型号。如果机柜空间比较紧张,4卡2080Ti的话,可以考虑2U的服务器。要是4卡RTX Titan的话,还是乖乖考虑4U的吧,毕竟散热在哪摆着。2080ti型号较多,建议买根公版一样大小的,最好是涡轮风扇,从后面排风散热的,比较适合服务器。

买深度学习服务器最重要的是想好显存大小,毕竟同样的模型,大显存意味着更大的batchsize,通常结果也会更好一些。如果偶尔有一点显存用超,可以考虑清华的Jittor即时编译深度学习框架,可以无感知的进行显存和内存的切换(当然切换肯定比不用切换显存能放得下慢一些)。

我一般直接联系对接高校采购的人员,他们对采购流程比较熟悉,征得他们本人同意,微信号是(云轩:wuyongming110,宽科:yuchen1002)。

如果进行大规模实验室建设,单机模式在管理上存在困难。我们采用集群管理模式。这方面我们建了一个很不错的计算集群,详见:https://mmcheng.net/servers/

(Visited 9,560 times, 3 visits today)
Subscribe
Notify of
guest

2 Comments
Inline Feedbacks
View all comments
Tianyi

老师您好,https://item.jd.com/60460294094.html这一家是不做了嘛,点击链接跳转到京东首页了