NVIDIA GTC 2018:Quadro GV100, NVSwitch, DGX-2 和RTX
本文地址:http://www.moepc.net/?post=4668
很早就在说GTC不会发新一代游戏卡,不知为何有那么多国内(外)媒体起哄。
NVIDIA在GTC 2018上发布了不少东西,但基本都是向着金主专业市场去的。主角当然是当前在高性能计算市场闪耀着的idol – GV100 GPU。
Quadro GV100
随着Quadro GV100的发布,NVIDIA也算把Volta带进了自家的3大产品线:Quadro、Tesla和Titan。
对比一下规格会发现,Quadro GV100的GPU规格和Titan V、Tesla V100相同,只是Titan V阉割了一组HBM2 IMC和ROP,导致带宽和像素填充能力更弱。
Quadro GV100配了32GB的HBM2(ECC),和GTC 2018之后的Tesla V100显存容量一样,此前Tesla V100只有16GB显存。
作为专业图形市场品牌,Quadro GV100保留了完整的各项功能,1/2双精度,ECC显存。Tensor Core也没阉割,因为NVIDIA发布了新的RTX光线追踪技术,支持的首款显卡正是Quadro GV100,要用Tensor Core,结合AI来达成实时的光线追踪。
Quadro GV100售价8999美元,比上代Quadro P100的4999翻了将近一番。
NVSwitch
为了解决PCIe 3.0在带宽等各项性能上的不足,NVIDIA开发了自家用的NVLink。每个GPU搭配4-6条NVLink,这些NVLink可以组合在一起,为2个GPU之间的通信提供更高带宽;也可以给更多的GPU提供直接互联,这样的话每个GPU分到的带宽就会更少。
实际情况中,单个NVLink 集群最多只能到8个GPU,称之为Hybrid Mesh Cube configuration,相当于一个NUMA配置(类似EPYC)。规模再往上就只能换用不同互联,使用多套系统了,同时也会失去NVLink带来的延迟、内存共享等好处。在GPU里放下更多的NVLink也不实际。
所以NVIDIA采取了下一步:生产一颗NVLink Switch 交换芯片,称之为“NVSwitch”。
NVSwitch可以拓展出更大规模的GPU集群(目前的目标是翻倍到16个GPU),1个NVSwitch就有18个全带宽端口,完全连接的crossbar,这相当于GV100的3倍,双向带宽达到900GB/s。
再进一步地说,NVIDIA想移除NVLink的通道数所带来的限制,通过配置多颗NVSwitch交换芯片,打造任何形式的GPU拓扑结构。
NVSwitch是NV“不惜一切代价”来打造的,这颗芯片本身就已经有20亿左右的晶体管,比入门级GP108 GPU还要多,作为一颗交换芯片可以说非常惊人。
不过NVIDIA虽然谈到了带宽数字,但没有提延迟。不用说,加了NVSwitch肯定会增加延迟,但不知道到底影响有多大。NVSwitch的功耗和价格也没公布。
DGX-2:Tesla V100 + NVSwitch
有了NVSwitch,就能做出规模更大的系统,NVIDIA在GTC 2018上也顺势推出了DGX-1的升级版:DGX-2,内置16块Tesla V100计算卡,搭配双路Intel Xeon Platinum。
在整套系统里,NVIDIA放进了12块NVSwitch,为每个GPU提供最大带宽,GPU间互联带宽达到300GB/s,为PCIe的12倍。
这样连接之后,16个GPU可以视作一个统一的内存空间(当然GPU之间通信有延迟和带宽的降低),再加上Tesla V100翻倍的显存【16x 32=512GB的HBM2!】,就能运行原来8个GPU集群无法直接用显存运行的负载:比如FAIRSeq,在DGX-2上只需要2天,较DGX-1快10倍。
本身16块V100的性能就很可观,FP32性能达到240TFLOPS,FP64为一半的120TFLOPS,Tensor Core则可达成1.92PFLOPS的深度学习性能。
作为平台的则是Intel的双路Xeon Platinum,型号未知,内存最大1.5TB【单路768GB=非M型号】,存储为30TB NVMe SSD,可升级至60TB。
互联方面,DGX-2支持8条Infiniband EDR或者100GbE。DGX-2的系统功耗为10KW,DGX-1为3.5KW。
相较DGX-1的14.9万美元定价,售价39.9万美元的DGX-2虽然定位更高,却可以说更划算。CPU性能更强,翻倍的GPU数量,4倍HBM2显存,3倍DDR4内存容量,更不用说默认配置的NVMe SSD总容量翻了15倍…..
Tesla V100显存翻倍
GTC 2018上,NVIDIA还宣布将Tesla V100系列(包括SMX2版本和PCIe版本)的显存从16GB翻倍至32GB,原本Tesla V100就是4块4层堆叠的HBM2(4x 4-Hi stack),现在翻倍说明换用了8-Hi的HBM2,单颗容量达到8GB,这应该是HBM2厂商产能和良率不断提升的结果。【望向…VegaFE】
只有容量翻倍,显存频率和带宽都没有变化。
本文地址:http://www.moepc.net/?post=4668
部分NVSwitch/DGX-2信息来自于:https://www.anandtech.com/show/12581/nvidia-develops-nvlink-switch-nvswitch-18-ports-for-dgx2-more
MOEPC.NET编辑/编译,转载请保留出处。
https://www.cnbeta.com/articles/tech/712495.htm
amd新卡,好像不得了
@游客:请问您是4月1日吗?
以往传播谣言的行为已经很可笑了。
Wtf的愚人节玩笑都当真的话,只能祝贺国内这群“媒体”再创新低?
@剧毒术士马文:4月1日啦,别那么认真呗
老黄真阴险呢
拿农企趟hbm的雷
自己捡现成的(笑)
不服不行,英天堂switch提早实现了显存统一使用,其实就是给未来mcm铺路,这么多营收不是白来的。amd现在先得追上性能再谈别的
@在amd看大门:显存统一使用第一个不是ps4么?
@wangbaisen1990:ps4是显存内存一体化,这个是不同核心显存统一调用,
@在amd看大门:哦
这个amd不也有类似技术嘛
在p47上的
我记得显卡的rtx最早是a卡演示的吧
project 47 要凉
按摩店不是还有个Vega Cube在吗……
@道桜:根据inteli7-8809g的使用情况来看,vega在小核心范畴(流处理器数目不超过2560)能耗比还不错,往大了发展能耗比惨不忍睹(vega56/64的德行),还是赶快开发新架构吧~
@111:n卡也有类似现象吧
估计都需要大改才行
@111:vega10大核心配置根本不均衡
与图形性能相关的后端如rops等一直与流处理器的数量不匹配
导致空有12.5T的浮点结果只能和1080对打
8809g的那个vega还好些
@xing0999:就VEGA 10核心来说,我个人认为Vega的重要市场是计算卡(MI-25)专业卡(PRO SSG,WX9100)方向
游戏卡做到1080水平我觉得已经是可以接受的了
@桜道月:这是咸鱼的想法,amd现在是以ttx规模的晶体管来打1080,而1080现在已经可以塞笔记本里了。游戏卡依然是amd主市场,而且历来amd自己的计算卡市场就没多少。现在能耗比即使算上算力也不是很好看,以后无论是游戏还是计算卡差距也只会越来越远。而且最关键现在amd自己的悲剧表现+矿卡潮基本上已经完全断送了国内的渠道,变成国内都没人爱卖a卡了一下。
@xing0999:这个问题不是从阿三接手一来都有嘛,
起码290x和7970还是问题不大的
@111:另外这次的hbm2提供的带宽也限制了性能发挥
hbm2超频到950性能有很大提升