不要再无脑黑农企！带你深入了解AMD推土机架构【Part3 打桩机评测】

剧毒术士马文2016-06-23最后更新: 2016-06-23

原创，总结及翻译，转载请注明出处

在本人发于14年初的原帖基础上稍作修改，主要来源为Anandtech。

本文为打桩机评测，结合了Trinity的特性介绍和打桩机FX的评测。

目录：

【打桩机：推土机的改进版】

(~~站在已经成为炮灰的推土机的肩膀上~~)，打桩机捡起了推土机的担子。打桩机很大程度上是推土机的延续，而不是全方面的调整。它的基础架构完全没有改变，把所有都进行了整理，把握住可以轻易实现的目标（the low hanging fruit），提升能耗比。如果你期待打桩机能推倒重来，你会很失望。因为从打桩机架构图可以看出，农企依然致力于改进推土机。

关于推土机的架构，在前文的【推土机评测】中有详细介绍这里就不翻译了

打桩机的底层架构最显著的改进是整个设计中触发器类型的转变。触发器是存储某种形式的数据或状态的简单逻辑存储。在微处理器中它们可以在许多地方，包括一个流水线级的起始和末尾中找到。工作优先于触发器完成，并在触发器或者触发器阵列中被提交。这些触发器的输出变为下一个逻辑阵列的输入。通常的触发器是硬边缘触发器–数据被锁存在时钟的上升沿。

然而在超高频设计中，时钟可能会有相当大的变化或抖动。你不得不花大量时间确保你的设计可以解决这种抖动，或者整合能容忍抖动的逻辑单元。前者需要更多的精力投入在设计上，后者更费电。推土机选择了后者。

经历太多次跳票后，为了把推土机尽快推向市场，农企在设计中频繁使用了软边缘触发器。软边缘触发器与上面的硬边缘触发器相反，它们被设计为允许时钟信号溢出时钟边沿，同时仍能正常工作。

另一方面，打桩机是在设计时间有余的情况下，系统性的转换为硬边缘触发器的结果。其结果是明显降低功耗。
全线相比推土机降低10％动态功耗，有些负载下，甚至能减少20%。鉴于打桩机的角色，作为一个以APU（Trinity）为中心的产品中，降低功耗是非常值得的努力。

在前端，农企付出了额外努力来提高IPC。调度器在释放token方面更激进。与硬边缘触发器 vs软边缘触发器的争论一样，当从队列中退回指令时，越保守越简单。它简化了验证，以至于你不需要担心一不小心会过早的覆写一个指令。

肩负着革新架构的主要任务，打桩机的工程师专注于更加细化调度器。这些结构体积没有增大，农企只是更好的利用了他们。

打桩机的执行单元也稍有改善，但不是很多。农企声称打桩机在浮点，整数除法，调用和返回方面有显著提升。对于用户负载有最少1%的改善。

打桩机的预读取和分支预测单元也有明显提升。推土机是简单的顺序预取，而打桩机可以预取可变长度的数据，还可以跨页面预取L1（对于服务器有好处）。

在推土机上，如果不使用预读取的数据（不正确地预读取），它就会阻塞缓存，因为它会被作为最近访问过的数据被存入。然而如果预读取的数据不立即被使用，它可能永远就不会被使用。

现在打桩机会立即为未使用的预读取数据标上“最少使用”的标签，允许缓存控制器快速驱逐它（如果预取是不正确的）。

另一个改变是，打桩机内有一个感知分支预测器为推土机中的主分支预测器做补充。感知预测器的算法基于历史，更适合预测某些特定分支。它和老的分支预测器并行工作，简单地标记易于预测的分支。如果老的预测器和感知预测器在标记分支上不一致，将采取感知预测器的路径。改进分支预测精度是一个挑战，但这对于长流水线的设计来说是必要的。【分支预测精度低+长流水导致的长周期错误惩罚=咳咳＞_＜】。这些次要的各种数据是必须的，因为对于分支预测来说，没有一个统一的评价标准。

最后，打桩机还增加了新的指令，来和Haswell拼指令集：FMA3和F16C。

【桌面级FX打桩机：Vishera评测】
Vishera与Zambezi使用了相同的GF 32nm SOI工艺，这意味着无法在不使芯片面积膨胀的情况下增加架构复杂度，更不可能大幅降低功耗。
作为一个无晶圆半导体制造商，农企在升级工艺时任由GF摆布。打桩机是推土机的小改版，因此核心面积和缓存都没有明显变化。这些芯片比Intel 22nm Ivy Bridge大很多，因为Intel有明显的制程优势。

打桩机比推土机功耗更低，因此同功耗下打桩机频率更高。以下是首发阵容

这次农企的定价更明智。8150首发245刀，8350首发199刀，比3570K少了40刀。

农企的目标和上次一样：i5及其以下。所有FX处理器都不锁倍频，保留了完整的AES加速指令。现在大多数的AM3+主板只需要升级BIOS便可支持新处理器。实际上今天的评测用的就是去年的C5F。

【一般应用性能】
我们用7-Zip来作为开始。7-Zip有充足的整数多线程工作量，并且压缩/解压与IO子系统关系不大

对于Vishera来说，7-Zip是完美的重度多线程场景。在这里FX8350能够超越3770k。实际上，所有Vishera打桩机都能够超越同价位的Ivy Bridge。得益于HT，i7 920在这里表现也不错。

接下来是Mozilla的海妖JavaScript基准测试。该测试包括一些前瞻性的js代码，旨在展示基于今天的软件和硬件，前景良好的Web应用程序的性能。我们运行IE10下的测试：

如果7-zip的基准是为AMD准备的最好的情况，那么Mozilla的海妖测试则是最差的。由于单线程性能在很大程度上占主导，FX-8350比酷睿i3 3220慢了很多。只有英特尔的老酷睿i7 920是在这里比较慢，这是08年发布的一代i7。

虽然对于整个系统的性能来说，它并不是最好的测试标准，但SYSmark 2012套件确实给我们一个比以往更好的轻量工作测试。

总体成绩上，Vishera在缩短与Ivy Bridge的差距，至少FX8350是这样。Vishera可以和去年的2500k打平，达到3570k 90%的性能。这不是任何意义上的胜利，但农企在缩小差距。

【Par2文件恢复性能】
Par2是用于重建下载的档案应用程序。它可以从一个给定的归档生成奇偶校验数据，并在以后使用它来恢复存档

Chuchusoft使用了par2cmdline 0.4的源代码，并采用了英特尔线程构建模块2.1把它并行化。做出了版本par2cmdline，可以用多个线程来修复PAR2档案。在此测试中，我们采取了708MB存档，损坏它的近60MB，并使用多线程par2cmdline来恢复它。报告的分数是修复和恢复时间（秒）。

农企又一次表现不错。FX8350超越了3570k，FX4300只比i3 3220慢一点。

【Excel数学性能】

【视频转码性能】
【X264 HD 5.0.1测试】
我们转用新版本的X264，它采用了新版本的X264，加重了工作负载。在这里重要的是质量而不是速度，所以我们采用二次编码，记录平均帧率。

新版本的X264在Vishera上表现极佳，除FX6300外，农企在所有价位大获全胜。8350又一次超越了3770k

【Visual Studio2012多线程编译性能】
我们的编译测试又回来了，而且比以前更好。我们有了一个更大，更快的SSD（固态硬盘三星830 512GB），我们能够获得运行更加一致的编译时间。我们现在使用Visual Studio 2012编译Mozilla的Firefox项目。编译是多线程的，但是在某些操作时，性能受单核的高速串行性能限制。最终的结果同时强调单线程和多线程性能。

单线程和多线程混合负载在农企平台上表现不那么好。8350能追上SNB，但其他更有竞争力的IVB产品更加领先。如果有农企单线程性能不佳的原因，这个测试就算一个。

【Photoshop性能】
【Photoshop CS4】
为了测量PS CS4的性能，我们采用 Retouch Artists’ Speed Test。测试包括基本的照片编辑，有一些色彩空间转换，很多层创作，色彩曲线调整，图像和画布大小调整，锐化掩模，最后对整个图像进行高斯模糊。

整个过程是定时的，使用了Intel的X25-M固态硬盘作为硬盘。

时间以秒为单位，较低的数字意味着更好的性能。该测试是多线程的。

PS测试中又有了相似的结果，Vishera落后了一点，因为测试没有足够的线程来体现农企平台的优势。

【3D渲染性能】
POV-Ray的测试采用了最新测试版的二进制（3.7RC6），是流行的单线程/多线程的光线追踪测试。

最新的POV-Ray的测试给了我们一个很好看的单线程性能。在这里，AMD的FX8350领先FX8150 11%，但英特尔的酷睿i5 3570K仍然能保持20％的性能领先。

运行相同的基准，但多线程使AMD站在顶峰。除FX6300，所有的AMD都击败了同价位的Intel。

【Cinebench R11.5】
一个流行的3D 单线程/多线程渲染测试

Cinebench描绘出了关于AMD单线程性能的可怕的画面–Intel拥有40%的优势。

然而多线程性能依然不错

【游戏性能】
我们最新的独立显卡游戏测试使用GeForce GTX 680，而老的测试使用Radeon HD 5870。我们在这里专注于CPU之间的差异，使你看到的大多数数字是CPU的限制，而不是把GPU发挥到极致。由于大多数游戏是最好的单线程和多线程轻量负载的混合物，AMD的FX平台在这里做得不好。如果你想打造一个高端游戏机，并希望使用最称职的CPU，Vishera不是你的菜。

【功耗】
对于Vishera，AMD处于两难境地：要提高性能，而又不能突破125W TDP。打桩机做到了这一点，所以Vishera受益。
农企转换了触发器类型，增加了设计/时间的复杂度，减少了负载功耗。实际上，农企在没有采用新架构或者新工艺的情况下做出了一颗更省电的芯片。

在台式机上，农企用降低的功耗来提升频率，同时保持功耗不变。尽管峰值功耗没有改变，但是打桩机的效率更高。

X264 1pass时打桩机明显更省电，2pass则没什么区别。

如果把Ivy Bridge混进去就不那么好看了。Intel的77W酷睿i5 3570K是AMD FX-8350的天然竞争对手。 8350的售价较低，在这项测试中优于3570k，但它明显更费电：

SNB明显比IVB更费电，然而农企依然功耗巨大。
对于未来，功耗和单线程性能同样重要。对于小尺寸机型，IVB依然是最好的选择。

【预期性能：AMD能追上Intel么？】
我不断回放这个PPT ，因为它展现了惊人的相关性。它是农企未来性能发展的唯一迹象。

农企承诺高端产品每年有10-15%提升，精明的人可以看出，按照这个速度，农企永远无法赶上Intel。Vishera的改进证明了提升可以超过15%。如果农企能重复这些小改进，明年就可能缩短与Intel的差距，特别是单线程性能。我们已经知道Haswell相对IVB有5-15%的提升。假如Haswell提供了15%提升，压路机也同样的话，我们会得到有趣的结果。我做出了AMD和Intel平台的性能曲线，每一代都使用的是同价位同水平的产品。（11年的8150vs2500k，12年的8350vs3570k，13年均为估计的15%增长）

我们从农企最痛苦的Cinebench单线程开始，眼光放长。

Vishera的涨幅不大，没有缩小差距的希望

多线程依然是农企的优势，预期性能也是一样。

Mozilla的海妖基准是农企单线程性能的另一个例子。

Vishera的确缩小了差距。如果农企继续增长，可能会赶上Intel。坏消息是，至少2013年赶不上。

POV- RAY为我们提供了另一种观点。农企的单线程没有Cinebench里那么渣。

不幸的是，差距依然明显

当我们增加线程数，农企拉大了差距。

SYSMark是有说服力的轻量测试，擅长模拟各种情况下的负载。

这里显示农企正在缓慢接近Intel。但我怀疑这是最理想的情况。对于它来说接近Intel并不必要，它想要在价格和其他部分（比如APU的GPU）做出更大的改变。

Visual Studio2012是单线程和多线程结合的测试。

在Vishera上农企做了很多来缩小与Intel的差距。农企应该不会超越Intel，但距离很近。

最后的这个测试说明了另一面。如果这两家继续目前的路线，在农企擅长的领域未来会发生什么？

在农企擅长的领域，Haswell在同价位需要提升15%以上才能赶上农企。

并不是所有结果都如此惊艳。农企这样继续下去，与Intel的局面不会有戏剧性的变化。Vishera做的刚好，但2013及以后需要做出更多冲击性的改善。压路机主要提升IPC，然而不提升工艺就无法像Vishera一样大幅提升频率。我觉得农企真正的转机会在20nm新制程采用后的Excavator挖掘机上。

【超频】
农企FX专为高主频。在打桩机上我们看到了很大超频空间。所有芯片都能很容易地接近5G（取决于你的RP和散热）。FX4300轻易达到5.0G，而8350也突破了4.8（我可以上5.0，但不是在所有测试中都能稳定）。这些超频都是在加压不超过10%和简单的超倍频的情况达成的（全线不锁倍频板载！），性能提升显著。

然而在功耗方面的增加是很恐怖的。你必须为这种加压超频付出代价。

5G的FX4300被推上了8300的领土，同时4.8G的8350“仅仅”300W的系统功耗创下了纪录

【结语】
Vishera是农企迈出的正确一步，不增加功耗的情况下提升性能。

相比同价位IU，AMD成功获得了一些非常具体的胜利。在x264最新基准，高度线程化的POV-Ray和Cinebench测试中，清晰显示出AMD的多线程性能优势。Vishera在其他高度线程化的整数负载也做的相当不错。除了这些农企占优势的测试之外，Intel都有明显的领先。Intel是轻度多线程和单线程/多线程混合负载程序的赢家。这个故事还没有真正在这方面的改变。如果AMD要有竞争力，它需要显著改变底层架构。即使如此，英特尔的进度也没有显示减慢的迹象。

功耗也是一大缺点。同IVB，SNB相比功耗高了很多。

我们只在低串行化，高度线程化的领域推荐Vishera。由于我们的编译器基准测试表明，一个程序中单/多线程负载很好的平衡可以显著改变AMD和英特尔的排名。你必须非常了解你的工作量，才能知道Vishera是否是合适你的平台。即使你的选择是正确的，你必须同时确认相对于Intel平台增加的功耗。

以上【打桩机评测】完毕

以下为【打桩机服务器测试】
具体文章不翻译了，只列举成绩