数码科技

NVIDIA GTC 2018:Quadro GV100, NVSwitch, DGX-2 和RTX

本文地址:http://www.moepc.net/?post=4668

很早就在说GTC不会发新一代游戏卡,不知为何有那么多国内(外)媒体起哄。


NVIDIA在GTC 2018上发布了不少东西,但基本都是向着金主专业市场去的。主角当然是当前在高性能计算市场闪耀着的idol – GV100 GPU。


Quadro GV100


img005.jpg

随着Quadro GV100的发布,NVIDIA也算把Volta带进了自家的3大产品线:Quadro、Tesla和Titan。


对比一下规格会发现,Quadro GV100的GPU规格和Titan V、Tesla V100相同,只是Titan V阉割了一组HBM2 IMC和ROP,导致带宽和像素填充能力更弱。


Quadro GV100配了32GB的HBM2(ECC),和GTC 2018之后的Tesla V100显存容量一样,此前Tesla V100只有16GB显存。


QQ截图20180409234604.png


作为专业图形市场品牌,Quadro GV100保留了完整的各项功能,1/2双精度,ECC显存。Tensor Core也没阉割,因为NVIDIA发布了新的RTX光线追踪技术,支持的首款显卡正是Quadro GV100,要用Tensor Core,结合AI来达成实时的光线追踪。


img006.jpg


Quadro GV100售价8999美元,比上代Quadro P100的4999翻了将近一番。


NVSwitch


为了解决PCIe 3.0在带宽等各项性能上的不足,NVIDIA开发了自家用的NVLink。每个GPU搭配4-6条NVLink,这些NVLink可以组合在一起,为2个GPU之间的通信提供更高带宽;也可以给更多的GPU提供直接互联,这样的话每个GPU分到的带宽就会更少。


img003.jpg


实际情况中,单个NVLink 集群最多只能到8个GPU,称之为Hybrid Mesh Cube configuration,相当于一个NUMA配置(类似EPYC)。规模再往上就只能换用不同互联,使用多套系统了,同时也会失去NVLink带来的延迟、内存共享等好处。在GPU里放下更多的NVLink也不实际。


所以NVIDIA采取了下一步:生产一颗NVLink Switch 交换芯片,称之为“NVSwitch”。


img009.jpg


NVSwitch可以拓展出更大规模的GPU集群(目前的目标是翻倍到16个GPU),1个NVSwitch就有18个全带宽端口,完全连接的crossbar,这相当于GV100的3倍,双向带宽达到900GB/s。


再进一步地说,NVIDIA想移除NVLink的通道数所带来的限制,通过配置多颗NVSwitch交换芯片,打造任何形式的GPU拓扑结构。


img008.jpg


NVSwitch是NV“不惜一切代价”来打造的,这颗芯片本身就已经有20亿左右的晶体管,比入门级GP108 GPU还要多,作为一颗交换芯片可以说非常惊人。


不过NVIDIA虽然谈到了带宽数字,但没有提延迟。不用说,加了NVSwitch肯定会增加延迟,但不知道到底影响有多大。NVSwitch的功耗和价格也没公布。


DGX-2:Tesla V100 + NVSwitch


有了NVSwitch,就能做出规模更大的系统,NVIDIA在GTC 2018上也顺势推出了DGX-1的升级版:DGX-2,内置16块Tesla V100计算卡,搭配双路Intel Xeon Platinum。


img007.jpg


在整套系统里,NVIDIA放进了12块NVSwitch,为每个GPU提供最大带宽,GPU间互联带宽达到300GB/s,为PCIe的12倍。


img004.jpg

这样连接之后,16个GPU可以视作一个统一的内存空间(当然GPU之间通信有延迟和带宽的降低),再加上Tesla V100翻倍的显存【16x 32=512GB的HBM2!】,就能运行原来8个GPU集群无法直接用显存运行的负载:比如FAIRSeq,在DGX-2上只需要2天,较DGX-1快10倍。


本身16块V100的性能就很可观,FP32性能达到240TFLOPS,FP64为一半的120TFLOPS,Tensor Core则可达成1.92PFLOPS的深度学习性能。


作为平台的则是Intel的双路Xeon Platinum,型号未知,内存最大1.5TB【单路768GB=非M型号】,存储为30TB NVMe SSD,可升级至60TB。


互联方面,DGX-2支持8条Infiniband EDR或者100GbE。DGX-2的系统功耗为10KW,DGX-1为3.5KW。


img011.jpg

相较DGX-1的14.9万美元定价,售价39.9万美元的DGX-2虽然定位更高,却可以说更划算。CPU性能更强,翻倍的GPU数量,4倍HBM2显存,3倍DDR4内存容量,更不用说默认配置的NVMe SSD总容量翻了15倍…..


Tesla V100显存翻倍


GTC 2018上,NVIDIA还宣布将Tesla V100系列(包括SMX2版本和PCIe版本)的显存从16GB翻倍至32GB,原本Tesla V100就是4块4层堆叠的HBM2(4x 4-Hi stack),现在翻倍说明换用了8-Hi的HBM2,单颗容量达到8GB,这应该是HBM2厂商产能和良率不断提升的结果。【望向…VegaFE】




只有容量翻倍,显存频率和带宽都没有变化。




本文地址:http://www.moepc.net/?post=4668

部分NVSwitch/DGX-2信息来自于:https://www.anandtech.com/show/12581/nvidia-develops-nvlink-switch-nvswitch-18-ports-for-dgx2-more

MOEPC.NET编辑/编译,转载请保留出处。

剧毒术士马文

留学中 Comp.Arch|RISCV|HPC|FPGA 最近沉迷明日方舟日服 联系方式请 discord 或者 weibo 私信。目前不在其他平台活动。 邮箱已更新为[email protected]。 看板娘:ほし先生♥

相关报告

18 评论

  1. https://www.cnbeta.com/articles/tech/712495.htm
    amd新卡,好像不得了

    1. @游客:请问您是4月1日吗?
      以往传播谣言的行为已经很可笑了。
      Wtf的愚人节玩笑都当真的话,只能祝贺国内这群“媒体”再创新低?

  2. 老黄真阴险呢
    拿农企趟hbm的雷
    自己捡现成的(笑)

  3. 不服不行,英天堂switch提早实现了显存统一使用,其实就是给未来mcm铺路,这么多营收不是白来的。amd现在先得追上性能再谈别的

    1. @在amd看大门:显存统一使用第一个不是ps4么?

      1. @wangbaisen1990:ps4是显存内存一体化,这个是不同核心显存统一调用,

        1. @在amd看大门:哦
          这个amd不也有类似技术嘛
          在p47上的

    1. @道桜:根据inteli7-8809g的使用情况来看,vega在小核心范畴(流处理器数目不超过2560)能耗比还不错,往大了发展能耗比惨不忍睹(vega56/64的德行),还是赶快开发新架构吧~

      1. @111:n卡也有类似现象吧
        估计都需要大改才行

      2. @111:vega10大核心配置根本不均衡
        与图形性能相关的后端如rops等一直与流处理器的数量不匹配
        导致空有12.5T的浮点结果只能和1080对打
        8809g的那个vega还好些

        1. @xing0999:就VEGA 10核心来说,我个人认为Vega的重要市场是计算卡(MI-25)专业卡(PRO SSG,WX9100)方向
          游戏卡做到1080水平我觉得已经是可以接受的了

          1. @桜道月:这是咸鱼的想法,amd现在是以ttx规模的晶体管来打1080,而1080现在已经可以塞笔记本里了。游戏卡依然是amd主市场,而且历来amd自己的计算卡市场就没多少。现在能耗比即使算上算力也不是很好看,以后无论是游戏还是计算卡差距也只会越来越远。而且最关键现在amd自己的悲剧表现+矿卡潮基本上已经完全断送了国内的渠道,变成国内都没人爱卖a卡了一下。

        2. @xing0999:这个问题不是从阿三接手一来都有嘛,
          起码290x和7970还是问题不大的

      3. @111:另外这次的hbm2提供的带宽也限制了性能发挥
        hbm2超频到950性能有很大提升

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注

返回顶部按钮
error: