NVIDIA GTC 2018：Quadro GV100, NVSwitch, DGX-2 和RTX

剧毒术士马文2018-03-29最后更新: 2018-03-29

本文地址：http://www.moepc.net/?post=4668

~~很早就在说GTC不会发新一代游戏卡，不知为何有那么多国内（外）媒体起哄。~~

NVIDIA在GTC 2018上发布了不少东西，但基本都是向着金主专业市场去的。主角当然是当前在高性能计算市场闪耀着的~~idol~~ – GV100 GPU。

Quadro GV100

随着Quadro GV100的发布，NVIDIA也算把Volta带进了自家的3大产品线：Quadro、Tesla和Titan。

对比一下规格会发现，Quadro GV100的GPU规格和Titan V、Tesla V100相同，只是Titan V阉割了一组HBM2 IMC和ROP，导致带宽和像素填充能力更弱。

Quadro GV100配了32GB的HBM2（ECC），和GTC 2018之后的Tesla V100显存容量一样，此前Tesla V100只有16GB显存。

作为专业图形市场品牌，Quadro GV100保留了完整的各项功能，1/2双精度，ECC显存。Tensor Core也没阉割，因为NVIDIA发布了新的RTX光线追踪技术，支持的首款显卡正是Quadro GV100，要用Tensor Core，结合AI来达成实时的光线追踪。

Quadro GV100售价8999美元，比上代Quadro P100的4999翻了将近一番。

NVSwitch

为了解决PCIe 3.0在带宽等各项性能上的不足，NVIDIA开发了自家用的NVLink。每个GPU搭配4-6条NVLink，这些NVLink可以组合在一起，为2个GPU之间的通信提供更高带宽；也可以给更多的GPU提供直接互联，这样的话每个GPU分到的带宽就会更少。

实际情况中，单个NVLink 集群最多只能到8个GPU，称之为Hybrid Mesh Cube configuration，相当于一个NUMA配置（类似EPYC）。规模再往上就只能换用不同互联，使用多套系统了，同时也会失去NVLink带来的延迟、内存共享等好处。在GPU里放下更多的NVLink也不实际。

所以NVIDIA采取了下一步：生产一颗NVLink Switch 交换芯片，称之为“NVSwitch”。

NVSwitch可以拓展出更大规模的GPU集群（目前的目标是翻倍到16个GPU），1个NVSwitch就有18个全带宽端口，完全连接的crossbar，这相当于GV100的3倍，双向带宽达到900GB/s。

再进一步地说，NVIDIA想移除NVLink的通道数所带来的限制，通过配置多颗NVSwitch交换芯片，打造任何形式的GPU拓扑结构。

NVSwitch是NV“不惜一切代价”来打造的，这颗芯片本身就已经有20亿左右的晶体管，比入门级GP108 GPU还要多，作为一颗交换芯片可以说非常惊人。

不过NVIDIA虽然谈到了带宽数字，但没有提延迟。不用说，加了NVSwitch肯定会增加延迟，但不知道到底影响有多大。NVSwitch的功耗和价格也没公布。

DGX-2：Tesla V100 + NVSwitch

有了NVSwitch，就能做出规模更大的系统，NVIDIA在GTC 2018上也顺势推出了DGX-1的升级版：DGX-2，内置16块Tesla V100计算卡，搭配双路Intel Xeon Platinum。

在整套系统里，NVIDIA放进了12块NVSwitch，为每个GPU提供最大带宽，GPU间互联带宽达到300GB/s，为PCIe的12倍。

这样连接之后，16个GPU可以视作一个统一的内存空间（当然GPU之间通信有延迟和带宽的降低），再加上Tesla V100翻倍的显存【16x 32=512GB的HBM2！】，就能运行原来8个GPU集群无法直接用显存运行的负载：比如FAIRSeq，在DGX-2上只需要2天，较DGX-1快10倍。

本身16块V100的性能就很可观，FP32性能达到240TFLOPS，FP64为一半的120TFLOPS，Tensor Core则可达成1.92PFLOPS的深度学习性能。

作为平台的则是Intel的双路Xeon Platinum，型号未知，内存最大1.5TB【单路768GB=非M型号】，存储为30TB NVMe SSD，可升级至60TB。

互联方面，DGX-2支持8条Infiniband EDR或者100GbE。DGX-2的系统功耗为10KW，DGX-1为3.5KW。

相较DGX-1的14.9万美元定价，售价39.9万美元的DGX-2虽然定位更高，却可以说更划算。CPU性能更强，翻倍的GPU数量，4倍HBM2显存，3倍DDR4内存容量，更不用说默认配置的NVMe SSD总容量翻了15倍…..

Tesla V100显存翻倍

GTC 2018上，NVIDIA还宣布将Tesla V100系列（包括SMX2版本和PCIe版本）的显存从16GB翻倍至32GB，原本Tesla V100就是4块4层堆叠的HBM2（4x 4-Hi stack），现在翻倍说明换用了8-Hi的HBM2，单颗容量达到8GB，这应该是HBM2厂商产能和良率不断提升的结果。【望向…VegaFE】

只有容量翻倍，显存频率和带宽都没有变化。

本文地址：http://www.moepc.net/?post=4668

部分NVSwitch/DGX-2信息来自于：https://www.anandtech.com/show/12581/nvidia-develops-nvlink-switch-nvswitch-18-ports-for-dgx2-more

MOEPC.NET编辑/编译，转载请保留出处。

标签

剧毒术士马文2018-03-29最后更新: 2018-03-29

18 评论

游客说道：

2018-04-01 15:08

https://www.cnbeta.com/articles/tech/712495.htm
amd新卡，好像不得了

回复
1. 剧毒术士马文说道：
  
  2018-04-01 16:56
  
  @游客：请问您是4月1日吗？
  以往传播谣言的行为已经很可笑了。
  Wtf的愚人节玩笑都当真的话，只能祝贺国内这群“媒体”再创新低？
  
  回复
  1. 道桜说道：
    
    2018-04-01 17:56
    
    @剧毒术士马文：4月1日啦，别那么认真呗
    
    回复
xing0999说道：

2018-03-30 10:51

老黄真阴险呢
拿农企趟hbm的雷
自己捡现成的（笑）

回复
在amd看大门说道：

2018-03-30 08:42

不服不行，英天堂switch提早实现了显存统一使用，其实就是给未来mcm铺路，这么多营收不是白来的。amd现在先得追上性能再谈别的

回复
1. wangbaisen1990说道：
  
  2018-03-30 09:30
  
  @在amd看大门：显存统一使用第一个不是ps4么？
  
  回复
  1. 在amd看大门说道：
    
    2018-03-30 10:14
    
    @wangbaisen1990：ps4是显存内存一体化，这个是不同核心显存统一调用，
    
    回复
    1. wangbaisen1990说道：
      
      2018-03-30 10:21
      
      @在amd看大门：哦
      这个amd不也有类似技术嘛
      在p47上的
      
      回复
wangbaisen1990说道：

2018-03-30 06:48

我记得显卡的rtx最早是a卡演示的吧

回复
niceming说道：

2018-03-30 06:47

project 47 要凉

回复
道桜说道：

2018-03-30 01:54

按摩店不是还有个Vega Cube在吗……

回复
1. 111说道：
  
  2018-03-30 10:19
  
  @道桜：根据inteli7-8809g的使用情况来看，vega在小核心范畴（流处理器数目不超过2560）能耗比还不错，往大了发展能耗比惨不忍睹（vega56/64的德行），还是赶快开发新架构吧~
  
  回复
  1. wangbaisen1990说道：
    
    2018-03-30 11:01
    
    @111：n卡也有类似现象吧
    估计都需要大改才行
    
    回复
  2. xing0999说道：
    
    2018-03-30 11:04
    
    @111：vega10大核心配置根本不均衡
    与图形性能相关的后端如rops等一直与流处理器的数量不匹配
    导致空有12.5T的浮点结果只能和1080对打
    8809g的那个vega还好些
    
    回复
    1. 桜道月说道：
      
      2018-03-30 11:55
      
      @xing0999：就VEGA 10核心来说，我个人认为Vega的重要市场是计算卡（MI-25）专业卡（PRO SSG,WX9100）方向
      游戏卡做到1080水平我觉得已经是可以接受的了
      
      回复
      1. appleache说道：
        
        2018-03-31 10:00
        
        @桜道月：这是咸鱼的想法，amd现在是以ttx规模的晶体管来打1080，而1080现在已经可以塞笔记本里了。游戏卡依然是amd主市场，而且历来amd自己的计算卡市场就没多少。现在能耗比即使算上算力也不是很好看，以后无论是游戏还是计算卡差距也只会越来越远。而且最关键现在amd自己的悲剧表现+矿卡潮基本上已经完全断送了国内的渠道，变成国内都没人爱卖a卡了一下。
    2. wangbaisen1990说道：
      
      2018-03-30 12:35
      
      @xing0999：这个问题不是从阿三接手一来都有嘛，
      起码290x和7970还是问题不大的
      
      回复
  3. xing0999说道：
    
    2018-03-30 11:08
    
    @111：另外这次的hbm2提供的带宽也限制了性能发挥
    hbm2超频到950性能有很大提升
    
    回复

NVIDIA GTC 2018：Quadro GV100, NVSwitch, DGX-2 和RTX

剧毒术士马文

18 评论

发表回复取消回复

Playlist

Intel 22Q3 财报新信息

Intel 2021-2025展望 Part0：制程及封装

代号”Chagall”，AMD Threadripper 5000系列预计于8月份发布

Intel下代至强Sapphire Rapids 确认延期至2022Q2，性能定位相关

剧毒术士马文

Uber 已与自驾车事故家属和解

【?これ】２０１８年２月战果奖励

相关文章

Intel 2021-2025展望 Part0：制程及封装

代号”Chagall”，AMD Threadripper 5000系列预计于8月份发布

SiFive发布P550/P270 RISC-V架构核，Intel 7nm制程平台2022年登场

Samsung Exynos Mobile Smartphone SoC SKU list

18 评论

发表回复 取消回复

发表回复取消回复