关于Vega架构的更多信息，以及Radeon Pro Vega 64/56

剧毒术士马文2017-06-06最后更新: 2020-11-19

首先是昨天WWDC大会上发布的iMac Pro将搭载的Radeon Pro Vega，下面是Vega架构的新信息

产品页介绍有两款

1款是Radeon Pro Vega 56，搭配8GB HBM2

更高端的为Radeon Pro Vega 64，搭配16GB HBM2

看到这里就多少有些明白了…这次是用CU数量来命名，不错的方法，简单易记

那么Radeon Pro Vega 56就会有3584SP

Radeon Pro Vega 64则采用完整Vega10，4096SP。

关于性能数字，苹果提到了：11TFLOPS单精度，22TFLOPS半精度，显存带宽400GB/s，性能为目前iMac最强GPU的三倍

不清楚这里是按照哪款算的

1.如果是按照Vega 56计算

那么频率为1535MHz左右，这和Vega FE、Radeon Instinct MI25的频率都很接近

2.按照Vega64计算

频率就会有明显降低，为1342MHz左右

同时按照400GB/s计算，HBM2显存频率为1.56Gbps。

前代iMac最强GPU是Radeon R9 M395X，Tonga架构，2048SP，频率909MHz，搭配256bit [email protected]

单精度3.72TFLOPS，三倍差不多就11TFLOPS

有人可能会说3倍TFLOPS不等于3倍性能

还会说AMD的TFLOPS不等于NV的TFLOPS

这就要和下面的内容有关了

Vega上，AMD的TFLOPS和实际性能会比以往接近得多。

ShaderEngine是在第二代GCN被引入的。

包含了几何引擎、光栅/ROP和L1缓存

Tonga的架构图，可以看到4个SE以及具体组成

GCN CU架构图源：PCWATCH

在AMD前几代GCN架构中，高端一直都维持着4个ShaderEngine

即便到后来Fiji上4096SP之多，依然还是4个SE

这是有原因的

在GCN设计之初，AMD就认为未来的游戏将会更偏向于计算，而不是几何

所以GCN更偏向于计算，而且对于HPC/GPGPU应用来说，增加SE会大幅增加额外面积和功耗

Hawaii（R9 290X）上4SE还算比较平衡，每个SE内有11CU

但到了Fiji，SP数量猛增至4096个，SE依然维持在4个 – 每个SE下就有16CU

这样的设计可以说不太平衡，甚至有些“畸形”。【个人看法】

Fiji依然是4SE

Fiji die shot

计算方面倒还好，8.6TFLOPS的数字很好看，OpenCL等计算应用也能比较有效的利用

普通用户比较关心的游戏方面，4个ShaderEngine，也就是只有4个几何引擎的瓶颈就十分明显了

前端只有1个几何引擎+光栅引擎，导致瓶颈

FuryX很多时候空有TFLOPS（理论性能），而实际性能不如低得多的NVIDIA GPU，大量的计算资源没有用上，SP处于闲置状态。

这也是目前GCN的普遍情况，TFLOPS比同等级的NVIDIA GPU高得多，实际性能却没什么差距【DX12有所改善】

理论数据上Fiji并不差

但….

在Vega上，这样的情况将会有所改变。

Vega将从偏向计算转回到兼顾计算和几何的平衡架构

下面是Vega 10的“die shot”，AMD市场部管理 Scott Wasson说不是真正的die shot，而是Marketing

这种图在之前Polaris的官方白皮书中也出现过，和真正的die shot有些区别

但也给了我们很多信息。

可以对照一下Polaris10，die shot来自reddit

看此图建议将手机/屏幕/脖子旋转90度

可以看到这次Vega架构的改变，最明显的地方就是分成了8块，而不是以前的4块

可能Shader Engine从~~祖传的~~4个变成了8个，也就是每个SE内有8个NCU【只是推测】，这样的话每个SE内的NCU减半，大幅降低前端的瓶颈，几何引擎也会增加到8个。

也可能依然保持4个SE，但管线会缩短，依然是为了更充分利用计算性能

Vega将会是一个更平衡的架构，以往GCN前端的瓶颈会大幅减少，理论性能【TFLOPS】能够得到更完全的释放

图中NCU之间的那道黑色的不知道是什么

如果是如图分为8个SE的话，几何性能有点太强

相比Fiji，Vega10要平衡的多得多

改进的负载平衡

这些前端在原来基础上也有了很大改进

Vega新的几何管线通过引擎间更好的负载平衡和新的Primitive Shaders，带来了更高的每时钟输出（IPC），而开发者不需要对程序做任何改动。

AMD官方的数据是：Fury X上4个几何引擎每周期最多生成4个多边形，而Vega上的4个几何引擎能够生成11个，2.6倍的提升。

Primitive Shaders不需要开发者改动代码，工作应该就在AMD的驱动这边了

Vega翻倍的几何引擎带来的性能已经很强，如果还需要更多的性能，估计可以对游戏针对性优化

因为Vega设计需要考虑到的一点就是NVIDIA的Gameworks等游戏：这些游戏的很多功能/特效在A卡上会带来大量性能损失，造成瓶颈，这是NV的策略之一

而Vega就需要克服这些不利因素，所以有了大幅加强的几何引擎和性能，基于曲面细分的那些特效在Vega上性能会很好。

总而言之，有了以上的各项改进，可以期待Vega能在游戏中带来与NVIDIA同等理论性能【TFLOPS】GPU相近的性能。

来源：Anandtech/PCWatch/Youtube@NerdTechGasm/AMD/Reddit/HardOCP

本站整理内容，转载请注明出处。

~~如果有错误请批评指正~~

标签

剧毒术士马文2017-06-06最后更新: 2020-11-19

17 评论

wangbaisen1990说道：

2017-06-07 02:01

imacpro上的vega理论上是不是可以用于笔记本

回复
1. 剧毒术士马文说道：
  
  2017-06-07 15:15
  
  @wangbaisen1990：iMac用的500系的话官网写的就是Radeon Pro Mobile
  但是Vega就不清楚了，Vega10可能太大，275W的TDP
  Vega11还是有可能的
  
  回复
  1. wangbaisen1990说道：
    
    2017-06-07 21:13
    
    @剧毒术士马文：如果大幅度降频的话会不会能塞进去
    
    回复
    1. 剧毒术士马文说道：
      
      2017-06-07 21:24
      
      @wangbaisen1990：那为什么不用Polaris/Pascal/Vega11呢
      FuryX系列就没上笔记本的
      
      回复
      1. 在amd看大门说道：
        
        2017-06-08 22:18
        
        @剧毒术士马文：这和友商的Max-Q设计差不多，先降核心电压再降频，芯片是纯电阻电路，按W=V平方除以R，七成功耗获得九成性能。580M才65w，也有八成桌面版性能
      2. 剧毒术士马文说道：
        
        2017-06-08 23:29
        
        @在amd看大门：HBM2散热，如果是G5还好说
        而且Vega10的die size和GP102都差不多了
        Vega11上笔记本会很容易
        友商 gg（NV≠友商
Mikiya说道：

2017-06-07 01:54

这么说VEGA不愁性能了？那为啥还遮遮掩掩的啊…

回复
1. 轮子妈说道：
  
  2017-06-07 15:53
  
  @Mikiya：产能。
  另外Linux驱动没准备好。
  Polaris那时候Linux用户也是开箱即用的，开源驱动已经就绪了。
  
  回复
青之淘说道：

2017-06-07 00:54

有苹果这手笔
vega回本不愁

回复
在amd看大门说道：

2017-06-06 23:30

按照anandtech讨论的结果，290X是这几年前后端搭配最合理的芯片，肥鸡纯粹是看不过980ti而强行给Hawaii加长了一截，又赶上amd首次做600mm大芯片结果太过臃肿。Vega现在倒是抱住了果子这条腿，出货量至少没肥鸡失败

回复
1. theLastWish说道：
  
  2017-06-07 02:41
  
  @在amd看大门：前后端搭配最合理的没算上Pitcairn
  SP效率秒掉老大哥Tahiti啊同样都是最早的gcn
  
  回复
  1. 轮子妈说道：
    
    2017-06-07 15:02
    
    @theLastWish：7850是一代神卡。
    Gtkperf这种纯2D测试7850拉着AMD全家老小一起A。
    
    回复
以Porsche之名说道：

2017-06-06 22:54

Vega目前不支援GDDR5/GDDR5X是最大失策，不然估計可以更早出貨跟NV的TITAN Xp競爭。當然想到Zen微架構也跳到今年才出貨，本身可用的開發資金就比較緊張也是挺無奈…

回复
1. 剧毒术士马文说道：
  
  2017-06-06 23:23
  
  @以Porsche之名：Vega的HBCC也是很重要的一項特性，如果要支持G5/G5X就要新的IMC了
  本身AMD的產品很好，但執行力……
  
  回复
  1. 以Porsche之名说道：
    
    2017-06-06 23:39
    
    @剧毒术士马文：最主要還不是缺錢…另外與技術無關的是，AMD的行銷能力確實要提升一下
    
    回复
gnattu说道：

2017-06-06 18:45

AMD在过去的架构上过于注重运算性能了，相比几何和光栅，填充了数目惊人的流处理器。四个Shader的Fiji的每个管线都过长，使得运算任务很难充分填充每个Shader中的流处理器，而前端数目稀少（每个shader仅有一个）的几何和光栅则更加限制了它在游戏中的发挥。因此相较于NV，AMD需要更高的理论运算性能（TFlops）才能达到和NV同样水准的游戏帧数。而现在的八shader让每始终的几何运算能力直接翻了一倍，游戏中能更加接近他们理论的TFlops水准。这对于游戏玩家而言是个绝大好消息，因为至少不用担心delay半天就是个超频Fiji了。（祖传4Shader的原因应该是几何和光栅在HPC和GPGPU中都没有作用所以觉得可以不要）

回复
1. 剧毒术士马文说道：
  
  2017-06-06 20:52
  
  @gnattu：已经补全内容
  
  回复

关于Vega架构的更多信息，以及Radeon Pro Vega 64/56

剧毒术士马文

17 评论

发表回复取消回复

Playlist

Intel 22Q3 财报新信息

Intel 2021-2025展望 Part0：制程及封装

代号”Chagall”，AMD Threadripper 5000系列预计于8月份发布

Intel下代至强Sapphire Rapids 确认延期至2022Q2，性能定位相关

剧毒术士马文

“Intel工程师”专访视频：Skylake-X

AMD发布Radeon Pro 500系列专业卡

相关文章

Intel 2021-2025展望 Part0：制程及封装

代号”Chagall”，AMD Threadripper 5000系列预计于8月份发布

SiFive发布P550/P270 RISC-V架构核，Intel 7nm制程平台2022年登场

Samsung Exynos Mobile Smartphone SoC SKU list

17 评论

发表回复 取消回复

发表回复取消回复