【Intel 奔腾4 E:Prescott详细测试】Intel’s Pentium 4 E: Prescott Arrives with Luggage
source:http://www.anandtech.com/show/1230
http://arch.pconline.com.cn/diy/front/evalue/cpu/0402/311717.html
【这篇测试详细对比了Northwood与Prescott的不同之处,作为考古队长觉得有价值把它存个档】
深入幕后:最完整的Prescott评测报告
Pentium 4从2000年秋的青涩登场以来,如今已经获得了市场的充分认可。在CPU竞争日益激烈的今天,Intel力图进一步深化Pentium 4产品线,以确保桌面市场的领先优势。Intel手上的下一张王牌便是我们今天的主角:Prescott处理器。
Prescott出现在Intel产品版图中曾经引起我们足够的好奇,我们猜测Intel会故伎重施:将处理器过渡90nm制造工艺,加倍缓存数量,提升核心频率,同时体积进一步缩小。在Intel由Pentium III向第一代Pentium 4过渡时,他们也是这样做的。因此大众对Prescott期望还是相当高的。
Intel的确转向了90nm处理器,但是散热问题无法及时解决。Intel也的确加倍了缓存数量,但读取延迟也增加了,在Northwood上并没有这个负面效应。同时Intel也将进一步提升了Prescott的运行频率,但是在实际发布的产品中,频率并没有增加,它还是快不过最新的Northwood 3.2GHz。Intel还增加了流水线管道长度,Prescott的整数流水线现在达到了31级,而Northwood中只有20级长。Prescott的内核的确发生了很多的改变,它引入了最新的指令集,吸收了一些Pentium M处理器技术,同时算法的优化让它的运行更加高效。
如果你原以为Prescott会更小,更快,更好,那么我们要告诉你,你想错了。但是你要是走上另一个极端:Prescott的体积会更大,运算更慢,一切都更糟糕。事实也并非如此。Intel在Prescott上给我们上了一盆大杂烩,下面就让我们来揭开Prescott身上的层层面纱。
流水线长度:3GHz P4=2GHz Athlon?
如今Intel每次发布新处理器产品的时候,我们都有必要对处理器流水线的问题加以说明,以解释为什么3GHz的P4会在性能上和2GHz的Athlon差不多。Prescott的流水线管长度比Northwood长了近55%,这让我们老调重弹。
处理器的流水线好比汽车生产车间里的装配线。但CPU的流水线并不是物理意义上的,数据也并不是从一端进入,另一端输出。实际上它是一个指令处理的步骤集合,每一条指令必须经过相同的步骤,我们把它们称为级数。流水线的级数给指令指明方向,告诉它们下面是进行加操作,还是存储数据,并且给出地址。
最基本的CPU流水线分成5级,如果将每一步细化便可以扩展到10级。流水线必须实现相同的目标:引入指令,输出结果,但级数的不同会让效率发生变化。5级流水线每一步花费的工作量要比十级流水线更大。如果其他保持不变,那么我会选择5级流水线,因为实现5级数据处理更加容易,如果每一级不能保持全速运算,那CPU的效率会大大下降。
选择更多流水线的理由是,如果每一级的处理过程更简单,那处理的速度会加快。最复杂的那一级会是整个运算中最慢的一环,它将决定整体的运行速度。
如果我们假设5级流水线的每一级都要花费1ns来完成,每一级运算的周期为一个时钟频率,那么我们得到了1GHz的处理速度。当我们增加线管级数时,这时很难保证每一级都全速运行,我们必须通过缩短每一级运算的周期来进行弥补。庆幸的是,由于每个时钟频率的工作量减少了,我们能有效缩短周期,在后者的设计中,时钟周期可以缩短到0.5ns。
十级流水线实现了2GHz的运行频率,它是前者运行频率的两倍。如果我们假定每一级流水线都全速工作,那么它的性能也将是前者的两倍。但现实是,流水线不可能每刻都处于满负荷状态,因此市场上的2GHz CPU不可能有1GHz CPU两倍的性能。
31级:它意味着什么?
几年前,1.4和1.5GHz Pentium 4处理器将流水线有PIII的10级提高到了20级,令人难堪的是,1.5GHz Pentium 4在性能上不能完胜1 GHz Pentium III,有些应用中甚至不如后者。直到今天,你依然不能简单的认为Pentium 4 2.4C的性能会超出PentiumIII 1GHz两倍之多,我们前面的论述已经给出的一定的解释。
0.13微米制程的Northwood核心的最高频率是3.6 – 3.8GHz。当转入90nm制造工艺后,Prescott的功耗将降低,同时核心频率也会更高,但这一切只是Intel的一厢情愿。当Intel转向90nm制程时,他们将Prescott的微架构也进行了改动,将它的整数流水线增加到了31级。考虑到最初的流水线解码级数,这样整个流水线管长度甚至会超出31级。
增加流水线线管的直接好处是:提升运行频率。在一年前的IDF论坛上,Intel曾指出Prescott的频率可以上到4GHz-5GHz,如今Prescott越来越长流水线管正给出了最好的注解。
线管长度的增加向Intel提出了挑战,Prescott在每个时钟频率上的运行效率肯定会比Northwood慢。要指出的是,一直到Pentium 4的频率提升至2.4GHz,Intel才在性能上赶上了流水线管更短的Athlon XP。现在Intel又一次面对压力,如果3.4GHz Prescott性能赶不上2.4GHz Northwood,Pentium 4的招牌会再一次黯然失色。
下面介绍的几项技术改进让Prescott在性能上至少不输于同频Northwood,如果不是这样,Prescott恐怕会提前为Pentium 4划上句号。
增加Prescott的流水线长度并不是一个容易下的决定,但是Intel的工程师觉得值得这么做。GPU的设计目前主要用硬件编译语言完成,而CPU几乎要靠手工设计。这解释了为什么区区几十级线管的P4能运行在GHz级别,而Radeon 9800 Pro只能运行在几百MHZ。如果花六个月周期象设计GPU那样来设计CPU,这几乎是不可能完成的任务。
象Prescott这样的CPU产品,Intel早在一两年就开始了研发。如果算上投产,整个周期会在三年左右。在最后时刻决定延长流水线管长度几乎是不可能的,因为线管的数目决定不了频率,保证最慢级数的速度提升同样重要,这是一个长期设计的过程。CPU设计和GPU设计上是有很大不同的。因此Prescott并不是什么匆忙上阵的救兵,它是Intel蓄谋以久的产品。
现在就让我们来看看,Intel能否在增加流水线长度的同时,让它们开足马力,全速工作。
Prescott的新王牌:分支预测改良技术
如果要保证CPU的性能,在加长流水线管长度或是增加执行单元的同时,你需要一款强悍的分支预测器,它将决定CPU单元执行操作的数目。Intel将通常的整数流水线延长了11级,他们必须相应提高Prescott的分支预测能力。
Intel承认Prescott中大部分分支预测单元并没有改动,但是其中有些平衡性能的关键改进。
在处理器中,分支预测器用来预测将执行的代码路径。Prescott中的分支预测的原则很简单:如果分支在过去曾被执行,那将来它将采用同样的操作。因此分支预测器的功能记录被执行代码的路径,和特殊操作出现的几率。计数器内储存的数据越多,预测器成功的几率就越大。
为了提高分支预测的准确性,增加记录路径的存储空间是有效的方法。AMD通过此方法优化了Opteron的分支预测能力,而Intel在Prescott中并没有这样做。Prescott中的记录缓存仍保持在4K,同时计数器的大小也没有改变。Intel通过减少空间消耗来提高分支预测的效率。
在循环操作中会产生向后分支,并不是所有的向后分支都需要被执行。只要结果不产生错误,预测就不必执行。
Prescott引入了一套新的算法,以判断分支目标和实际分支指令之间的差距,以决定是否要实现分支操作。这提高了静态分支预测能力,使在相同的情形下都执行同样的分支预测。Prescott同样还对动态分支预测进行了改进。
典型的分支包括下面两种选项之一:要么执行分支,要么去到目标指令,执行操作代码。
这里还有第三种分支形式,称为间接分支。它将告诉CPU去寻找内存中的地址以存放CPU应该执行的分支指令。这种形式的分支首先在Pentium M中出现,如今也引入了Prescott。
间接分支就好像不再是告诉你应该干什么,而是指定你到最常见的具体工作地点。从Pentium M设计小组借鉴来的理念给Prescott赋予了新的亮点。
这里还有第三种分支形式,称为间接分支。它将告诉CPU去寻找内存中的地址以存放CPU应该执行的分支指令。这种形式的分支首先在Pentium M中出现,如今也引入了Prescott。
间接分支就好像不再是告诉你应该干什么,而是指定你到最常见的具体工作地点。从Pentium M设计小组借鉴来的理念给Prescott赋予了新的亮点。
据测试,Prescott的间接分支预测器让错误预测概率下降了55%。从整体上,Prescott对分支预测进行的改进让错误预测减少了13%。下面是Prescott错误预测减少的比重和Northwood相对比的结果,分数越高越好。
结果看上去还是让人满意的,毕竟我们要考虑到Prescott的流水线管长度增加了55%。
Prescott改进的分支预测单元让现在的软件就可以直接得益,不用再增加新的补丁或是编译器。这点会从我们后面的测试部分反映出来。尽管Prescott搭载几项全新引进的技术,但是有一些技术亮点在最新版的Northwood核心上已经可以看到,配备第一代超线程技术的Northwood上的技术优势,在Prescott身上得到了继承。
不耐心的Prescott:调度程序的改进
Prescott无需比Northwood执行更多的指令,但因为流水线管更长,它必须让他们更高效的运转。
我们上面已经讨论了分支预测器对流水线管深度的重要性,另一个关键因素便是CPU的调度窗口。
例如下面这个包括三个操作的程序:
1. D = B + 1
2. A = 3 + D
3. C = A + B
注意到第二个操作只有在第一个操作完成后才能执行,它依赖D值的产生。第三个操作同样如此,它依赖A值。如果CPU拥有三个ALU单元,理论上它能同时执行三个加操作,但如果我们在一个线管内执行上面的程序,它只有1/3的效率。如果CPU只有一个ALU单元,效率虽然提高了,但这已经是上个世纪的处理器了。
幸运的是,没有一个程序会只有3个操作,我们的三个ALU单元会忙个不停。让ALU单元最高效的工作是现代处理器设计的原则。
调度程序可以看成一系列发向CPU的指令,它们可以找出尽可能多可以平行处理的操作,以提高执行效率。它们将即将被执行的操作存入缓存或是调度窗口。窗口的大小决定了可释放的平行操作的数量。
由于Prescott增加了流水线管长度,调度窗口必须同时增长。不幸的是,现代的微处理架构不允许在高运行频率的同时,实现更大的调度窗口。因此这方面的提升不会太大。
Intel增加了调度窗口的大小,以缓冲流水线管增加引起的操作数冲突。如果两步操作是互相关联的,但调度程序没有没有认识到这一点,仍然把它们当成平行操作来处理,那么它们在实际运算中不会同时运行,这样一来,调度程序就做了无用功。流水线的增加会使这样的情况增加,Prescott中,Intel加入一个小型的预测器,它可以一定程度上减少这样的情况发生。这点改进对于Prescott极为重要。
处理核心的改进
Intel并没有在CPU中引入新的处理单元,因此尽管Prescott可以处理更多数据,但速度却不会有提高。
90nm制造工艺的引入还是让Prescott在核心上有所改变。Pentium 4拥有三个ALU单元,以负责整数运算,其中的两个每个频率能执行两次操作,Intel将它们称之为”double pumped”,意在将CPU的频率加倍了。那些简单的指令都能够通过双倍ALU单元执行,这也让Pentium 4实现了很高的运行频率。
更加复杂的指令则通过运行在核心频率的独立ALU来完成,因此尽管这些指令会减慢CPU整体的运算速度,但Pentium 4还能够保持较高的运行频率。
在Prescott以前,位移/旋转是只能在慢速ALU单元上执行的一种操作,现在它们能导入快速ALU来执行完成。
另一项改进来自整数乘法。以前的处理器整数乘法都要在浮点运算单元内完成,然后在送入ALU单元,现在Intel在Prescott中加入了整数乘法器,这要归功于90nm工艺给出了足够的空间。
更大,更慢的缓存
表面上看来,Prescott就像是配备了两倍缓存的90nm Pentium 4。我们希望事实上并非如此,Intel改进了分支预测,调度算法,同时还引进一项保持流水线全速运行的手段:增加缓存数量。
在Prescott上,Intel实现了前所未有的缓存密度,虽然缓存空间变小了,但Intel还是能够放入更多的缓存。
以往Intel在提升二级缓存的同时,一级缓存的容量不会发生变化。现在Prescott的一级和二级缓存同时得到了提升。
L1 cache被增加到了16KB,Intel声称它的存取延迟保持在Northwood的水平,但命中几率大大上升了,这不仅因为容量的增加,也归功于关联性的加强。
Intel并没有公布L1 cache的延迟值,因此我们只能采用测试工具来找到答案,下面是Cachemem和ScienceMark给出的结果。
尽管Cachemem和ScienceMark给出的答案并非完全一致,但它们共同认为,Prescott一级缓存的延迟显著增加了。我们等待Intel对此给出解释。
尽管Prescott的Trace Cache容量没有变化,但90nm工艺的引入让它也同样受益。由于Trace Cache的成本很高,Prescott只搭载了12Kμops。AMD在这方面这优势很大,从Athlon开始64KB就是标准的指令缓存配置。但是随着对P4编译器的不断优化,很少的Trace Cache同样能实现不输Athlon的性能。
最后我们来看看Prescott的二级缓存,它的容量已经上升到了1MB,这赶上了Athlon 64 FX的步伐。不幸的是大容量缓存同样会导致延迟的增加,下面同样是我们就二级缓存的测试结果:
Cachemem和ScienceMark都认为Prescott的二级缓存延迟比起Northwood有近44%的增加。减少这一负面效应的方法是尽量让Prescott运行在更高的频率。
如果我们的延迟测试结果是正确的,那么4GHz的Prescott二级缓存会和2.8GHz Northwood一样快,和5GHz Prescott会赶上3.4GHz Northwood。当应用程序变得更大时,大容量二级缓存会发挥作用,我们估计在4GHz以上,Prescott会发挥出大缓存的优势。
Intel并没有改进二级缓存协作的算法,这给Prescott的性能表现留下了阴影。在今天的测试中,大缓存带来的好处丝毫没有体现出来,这主要归咎于增加的延迟效应。从长远来看,缓存越大,应用程序运行越快。但是目前为止,Northwood更快的二级缓存还是略占上风。
十三条新指令:SSE3
在IDF论坛上,我们得知Prescott会增加十三条新的指令,它们便是颇具市场号召力的SSE3。
新的指令包括:
FISTTP, ADDSUBPS, ADDSUBPD, MOVSLDUP, MOVSHDUP, MOVDDUP, LDDQU, HADDPS, HSUBPS, HADDPD, HSUBPD, MONITOR, MWAIT
于其他今天提到的技术改进不同,SSE3需要软件的支持才能发挥威力。应用程序要么重新编译,要么打上相应的补丁。下面我们来看看这些指令到底带来了什么。
FISTTP指令有利于x87浮点转换成整数。ADDSUBPS, ADDSUBPD, MOVSLDUP, MOVSHDUP,MOVDDUP属于复杂的算法指令,它们用来减少运算中的延迟。
LDDQU用来加速视频编码,支持DivX 5.1.1 codec。haddps, hsubps, haddpd, hsubpd为3D程序设计,它们有助于提高游戏的运行性能。
最后是两个线性同步指令monitor和mwait,它们用来提高超线程性能。但它们仍然没有得到操作系统的支持。
Intel并不肯定微软会用升级包的形式提供对新指令的支持。我们觉得如果微软能在下一版的service pack中加入对Prescott的支持,那对Intel是个好消息,不然我们只能等到下一代的Windows发布了。
技术小结
在结束我们对Prescott微处理架构的讨论之前,让我们在这里总结一下:
?Prescott 31级的流水线管长度让它比Northwood的运行效率更低
?Prescott的二级缓存尽管更大,但延迟更长,这影响到了它的性能
?尽管分支预测,调度算法,整数单元都得到了改进,但这无非是给更长的流水线来“救火”
?更大的二级缓存有利于保持流水线高效运行
?SSE3在将来会有用,但目前的软件几乎毫无反应
?将流水线管增加到31级让Prescott可以运行在4-5GHz,则让它成为频率上的王者
下面就让我们近距离接触一下这款新处理器。
Intel引以自豪的……
Intel标榜他们将90nm制造工艺首次引入了桌面领域,应变矽晶(Strained Silicon)的应用是很大的革新。应变矽晶能在晶体管的通道之间有效的拉伸硅晶体。Intel的工程师不用坐在那里拉伸硅的两端,他们只需将硅放在一种原子疏松结构物质上面,硅就自然延展。在物质上方的硅原子会自动匹配下面的物质。
硅原子的排列越好,电子在通道间受到的阻力就越小。因此通道间的电流就越大,这在晶体管通道间增加了10 – 20%的驱动电流。
Intel声称应变矽晶技术比起2%的成本增加,益处多多。Intel的90nm制程加上应变矽晶技术,让他们的90nm晶体管表现出色。
Intel的90nm处理器没有使用绝缘层上覆矽技术(Silicon-on-Insulator;SOI),从规划图上看他们将来也不打算这样做。也许在2005年的65nm产品中,Intel会考虑SOI。
Prescott是Intel第一款采用七层金属底板制造的处理器
Prescott是Intel第一款采用七层金属底板制造的处理器,而AMD的Athlon64要少两层。它增加了制造的难度并增加了成本,但出于设计的考虑,这无法避免。事实上Intel在这方面已经相当出色,AMD为了让Thoroughbred-B Athlon XP运行在高频率,当时甚至动用了九层底板。
Intel在今天一口气在今天抛出了一打新产品,我们对它们架构已经有了一定的了解,下面是看看它们的市场定位的时候了。
Intel希望尽快将Pentium 4产品线转向Prescott核心,要知道核心面积112 mm^2的Prescott比起131 mm^2 Northwood成本更低。因此Prescott登场时的时钟频率和Northwood相等。
在Intel的命名规则里,如果相同频率的产品采用的是不同的核心,那么Intel会用一个字母来区分它们。因此Prescott被富于了字母E。以后所有“E”字母的处理器都会基于Prescott核心。
下面这次发布的Prescott处理器型号:
Pentium 4 3.40E
Pentium 4 3.20E
Pentium 4 3.00E
Pentium 4 2.80E
Pentium 4 3.40E并不会马上上市,它是3.40GHz Northwood的接替者,后者在市场上已经可以买到了,但是不久它会被3.40E替代。
有趣的是,Northwood和Prescott不仅频率一样,价格也相近。Intel希望人们在同样的价位可以更多的选择Prescott,而不是Northwood,为什么不呢?毕竟我们可以得到大出一倍的免费缓存!当然商家为了尽快出尽Northwood的库存,它的价格也会更有诱惑力。
在升级BIOS后,“E”处理器可以工作在目前的875/865平台上。但是兼容性问题还要视具体的主板型号而定。这次Intel还发布了最新的3.4GHz Pentium 4 EE处理器。它仍然基于0.13微米工艺,在不久相信会有90nm的EE处理器问世。
产量、供货和超频
Intel的90nm生产线会尽可能快的生产Prescott,但是产量总是起步阶段存在的问题。我们听到谣传称预定的个人用户要到3月1号才可以拿到产品,而OEM客户会最快时间内作出反应。我们还就Prescott处理器进行了超频测试,我们将CPU的电压设置在1.385V。
Prescott可以稳定超频运行在3.72GHz,尽管我们通过加电压实现了4GHz的运行频率,但我们更看重不加电压的超频结果。Intel的确能将Prescott飙上很高的频率,但目前他们只想让主流市场的CPU频率保持在2.8GHz。
Prescott的2004年蓝图
下面是Intel Prescott的2004年产品规划:
测试部分
测试平台:
测试结果:
Business Winstone 2004
尽管Prescott的流水线管较长,缓存延迟更长,但在商业应用的测试中,它和Northwood的性能不分伯仲。
这个环节也许不是硬件爱好者关心的,但是对于intel却非常重要,它可以赢得商业用户的信心,在这个领域AMD已经被越来越多公司抛弃,在这场并不看重性能的较量中,Intel更占优势。
Content Creation Winstone 2004
在这里Prescott略微落后于Northwood,流水线过长拖了它的后腿。
SYSmark 2004
P4EE在这里领跑,Prescott紧跟其后。AMD虽然表现也不错,但Sysmark似乎更青睐Intel的架构。
DirectX 9游戏性能测试
Aquamark
结果和以前高端CPU的测试相比没有发生变化,Intel的处理器平均要比AMD逊色一些,Prescott落后于Northwood。
Halo
这里GPU成为了瓶颈。
GunMetal
Northwood仍然稍稍领先于Prescott。
DirectX 8游戏性能测试
Unreal Tournament
Athlon依然在高端领跑,Prescott的成绩有所提高。
Warcraft 3
Prescott第一次战胜了Northwood。
OpenGL游戏性能:
Quake III Arena
P4EE的大缓存发挥了很大作用,它夺得第一。Prescott和Northwood的性能差不多。
Jedi Knight: Jedi Academy
Prescott落后于Northwood。
Wolfenstein: Enemy Territory
Prescott依然表现不佳。
DIVX 5.1.1解码:
大缓存对视频应用作用明显,P4EE再次居于第一,而Prescott也追上了Northwood的步伐。
3D渲染性能:
3dsmax R5
Lightwave 7.5
编程性能:
Intel纵然加大了缓存,改进了分支预测,但P4还是没法撼动Athlon的领先地位。
Prescott的小秘密
Intel为什么要发布Prescott?除了想在频率上继续甩开对手,我们还发现了一些隐藏在表象下的东西。
在我们进行超频实验时,我们希望性能随着频率的提升会有线性的增加。当Northwood的频率增加时,它的性能也同步增加。Prescott当然也是如此,但是性能和频率增幅的比例关系是值得我们注意的。
Prescott的性能增长比频率提升来得更快。不仅Prescott的频率超过了Northwood,随着频率的同步增长,它的性能也超过了Northwood。
在我们有限的三种频率测试中,大部分时间2.8GHz Northwood胜出2.8GHz Prescott,但随着频率的增加,Northwood的领先优势减少,频率超至3.2GHz时,双方打成平手。
总结
如果只是想得到我们的购买建议,那我要告诉你,如果你不是超频爱好者,不要购买任何频率和Northwood相同的Prescott处理器。2.80E, 3.00E, 3.20E都是如此,它们不比同频的Northwood更快,甚至更慢。如果你现在想购买一款P4处理器,那么清仓出货的Northwood是你的最佳选择。超频玩家也许想让Prescott运行在4GHz,这的确是Prescott的优势。
我们的测试中还包括了AMD的Athlon 64,我们的看法仍然没有改变:如果你经常使用Microsoft Office,同时还是一个游戏玩家,那么选择Athlon 64吧。P4在内容创造,视频编码,3D渲染上仍具有优势,如果看重这些方面,你应该在Prescott和Northwood间作出选择.3.4GHz的P4 EE提供了非常出色的性能,但是它的价格高达1100美元,这很难推荐给普通消费者。
下面让我们纯粹从技术角度来分析Prescott处理器:
在引入90nm制造工艺后,Prescott的初次登场就能轻松跨越4GHz大关。看来明年Prescott运行在5GHz已经不是梦想。从架构的角度出发,Prescott虽然流水线管长了55%,但性能仍然咬住了Northwood,这让人印象深刻。我们一直没有提到基于Prescott的Celeron处理器,31级线管长度,1/4的缓存大小,Intel看来仍然不想大幅提升Celeron的性能。在低端市场,如果AMD没有大动作的话,Intel仍然不会兴师动众。
今天Prescott的表现并不值得大书特书,但过长流水线带来的性能损失之小还是令人惊讶。Prescott的表现寄期望于未来,要知道Willamette甚至Northwood的处子秀也并不出彩。90nm制程给超频玩家提供了很多想象的空间。Prescott需要用更高频率来兑现大众对它的期望。在3.6GHz以上的Prescott会更加引人注目,这时它将完全摆脱Northwood的纠缠。