数码科技

图拉丁发展史,英特尔酷睿架构谈

img001.jpg


图拉丁,英文名Tualatin,是美国一条河流的名字。这是英特尔最后一款奔腾III处理器的核心研发代号,图拉丁奔腾3的历史极为短暂,但又有着特殊的地位。不要忘记,桌面版奔腾III有三种核心:最古老的Katmai奔腾III(其实就是奔腾II的核心加上SSE指令集,0.25微米工艺,512KB半速二级缓存,Slot 1接口)、最流行的Coppermine奔腾III(0.18微米工艺,256KB全速二级缓存,Socket 370与Slot 1两种接口),以及本文的主角Tualatin奔腾III(0.13微米工艺,256KB全速二级缓存,Socket 370接口)。在这三种奔腾III中,只有图拉丁被单独罗列出来,以示与另外两种奔腾III的本质区别:图拉丁奔腾III集古老的P6架构优点于一身,具有高性能、低功耗、低发热量的优势,是奔腾III的极致,也是奔腾M和酷睿(这两种处理器依旧是继承了P6架构)出现以前的P6微处理器架构的极致。时至今日,就连不懂CPU技术的二手笔记本商家都懂得以“图拉丁”的名字来标榜自己奔腾III二手笔记本的与众不同,由此可见图拉丁在用户心目中的神圣地位。  

上面所说的都是桌面版本处理器的情况。其实图拉丁除了具有桌面版以外,还有移动版和服务器版,桌面版也有奔腾III和赛扬的分别,下面就来具体介绍一下它们的区别。  

先说桌面版图拉丁奔腾III。这款处理器和133MHz FSB铜矿(Coppermine)奔腾III有很多共同的地方:同为133MHz FSB,同样具有256KB全速二级缓存,不同的地方在于:图拉丁奔腾III不支持双路处理器并行工作模式而铜矿奔腾III支持;图拉丁奔腾III的二级缓存延迟时间为1而铜矿奔腾III为0;图拉丁奔腾III支持自奔腾4开始采用的数据预读取技术而铜矿奔腾III不支持。因此在性能方面,同主频的图拉丁奔腾III并不比铜矿奔腾III快(数据预读取技术可以弥补二级缓存延迟时间长而带来的性能损失)。图拉丁奔腾III有如下几款:1A GHz/1.13A GHz/1.2 GHz/1.33GHz。  

再来谈谈桌面版图拉丁赛扬。很多人认为图拉丁赛扬就是采用100MHz FSB的图拉丁奔腾III,这是不正确的。图拉丁赛扬的性能比同主频的图拉丁奔腾III要低,除了FSB低以外,还因为图拉丁赛扬仅支持精简的数据预读取技术(还有一种说法是根本不支持,笔者手中资料有限,所以不做论证),此外二级缓存的位宽也低,所以不能和图拉丁奔腾III相比。根据我的测试,图拉丁赛扬1.4 GHz的性能略低于图拉丁奔腾III 1.13A GHz,但是高于1GHz的铜矿/图拉丁奔腾III。图拉丁赛扬有如下几款:900A GHz/1A GHz/1.1A GHz/1.2 GHz/1.3GHz/1.4 GHz。很多人都否认图拉丁赛扬有1.4GHz的版本,其实IBM NetVista A22就有采用赛扬1.4 GHz的机型,笔者就买了一款。  


第三谈谈服务器版的图拉丁奔腾III-S。这款处理器是图拉丁家族的性能王者,价格也是出奇地昂贵(笔者收藏过两款:1.26GHz和1.4GHz)。图拉丁奔腾III-S面向双路服务器市场,采用133MHz FSB,具有512KB全速二级缓存,二级缓存延迟时间为0,支持增强型数据预读取技术,性能极为强悍。当时国外很多英文硬件评测网站都有图拉丁奔腾III-S与奔腾4/Athlon XP的对比评测,以Tom’s Hardware Guide网站的评测为例,在采用815平台、PC133 SDRAM内存的情况下,图拉丁奔腾III-S 1.26GHz战胜了850平台、PC800 Rambus内存的奔腾4 1.8GHz。图拉丁奔腾III-S有如下几款:1.13 GHz/1.26 GHz/1.4 GHz,此外还有极少量的1.53 GHz工程样品散落于世界各地的著名硬件评测室。  

最后来谈谈移动版的图拉丁奔腾III-M。这款处理器的技术特征基本等同于桌面版图拉丁奔腾III,但是二级缓存增大到了512KB,同主频下的性能显然强过桌面版图拉丁奔腾III而直追图拉丁奔腾III-S。图拉丁奔腾III-M显然比桌面版图拉丁奔腾III的地位高,因为移动版奔腾4处理器发热大功耗高,很难应用在轻薄笔记本上,相比之下发热低功耗低的图拉丁奔腾III-M就有了用武之地,得到了长足发展,直到奔腾M出现以前,图拉丁奔腾III-M都是轻薄笔记本的当然之选。而桌面版奔腾III因为性能太强会威胁到奔腾4,所以英特尔人为打压它:阉割二级缓存、保持高售价和低产量、鼓励品牌机厂商采用奔腾4等等不公正的市场举措。图拉丁奔腾III-M的型号很多很复杂,以正常电压版为例,主要有866 MHz/933 MHz/1 GHz/1.13 GHz/1.2 GHz/1.33 GHz等几款。  

第二部分 英特尔为何要推出图拉丁  

奔腾III及以前的微处理器时代,是一个处理器性能与主频紧密结合的时代。那个时候无论是英特尔还是AMD,他们的处理器产品在主频提升的同时,同样也会带来相应的性能提升。以Katmai奔腾III为例,在FSB相同的情况下,主频每提升50MHz,性能相应提升7%左右(参考《PC Shopper-电子测试》)。当时英特尔与AMD的处理器竞争和现在一样,说到底就是性能之争。但是当时处理器的性能高低与主频高低是合二为一的事物,因此性能之争也就是主频之争。从4004微处理器推出以来,英特尔一直就是微处理器性能(也就是主频)领先者,而Cyrix和AMD等则是追随者,这种局面一直持续到奔腾III时代,直到AMD Athlon推出时为止。还记得当时AMD提前宣布将要发布全新架构的Athlon处理器,主频为600MHz的时候,英特尔着慌了。那时候奔腾III还停留在0.25微米工艺时代,最高主频仅有550MHz,如果让AMD超越,微处理器老大的颜面何在?于是英特尔匆匆忙忙给奔腾III加了0.05v电压,抢先推出了奔腾III 600MHz处理器以保持颜面。谁成想AMD在如期发布Athlon 600MHz处理器的时候,还同时发布了此前根本没有对外宣布的Athlon 650MHz处理器!这是一个伟大的时刻,英特尔在微处理器发展史上第一次被自己的竞争对手超越!  

挨了一记当头闷棍的英特尔开始昏招迭出,先是将Katmai核心奔腾III的外频提升至133MHz,推出了奔腾III 533B和奔腾III 600B(有人将这两款处理器说成是新核心,代号Confidential,真是天大笑话,各位自己去查查Confidential是什么含义,英特尔任何一款没有正式发布的工程样品处理器都有Confidential的标记),但是性能无法抗衡同主频的Athlon,于是采用0.18微米工艺的Coppermine奔腾III匆匆登场,主频从500E MHz直到700MHz,接口从Slot 1到Socket 370,FSB有100MHz有133MHz,型号十数款,让人眼花缭乱。Coppermine奔腾III的二级缓存是256KB全速,延迟时间为0,位宽也高于512KB半速二级缓存的Katmai奔腾III,因此性能有了明显提升,和同主频Athlon相比互有胜负,基本持平。这时候英特尔与AMD的竞争已经到了白热化的程度,主频之争的激烈程度前所未有。主频高就意味着性能高,冲击1GHz大关也因为变得分外引人注目,当时英特尔拼命寻找加工最好的硅晶元,希望能抢先制造出1GHz的处理器,这也使933MHz高主频的奔腾III产量极少进而断货(因为最好的硅晶元都用来生产测试1GHz奔腾III了)……  

最先达到1GHz主频的是AMD的Athlon,仅仅领先奔腾III 1GHz不到一个月,但这足以让AMD自豪了。美中不足的是,1GHz的Athlon性能不敌1GHz奔腾III,这是因为AMD找不到能在500MHz下稳定运行的Athlon二级缓存芯片(最早的Athlon二级缓存也是外置在CPU PCB板上的芯片,以处理器主频一半的速度运行),因此不得不让二级缓存的运行速度降低到CPU主频的三分之一也就是333.3MHz,而奔腾III 1GHz处理器的二级缓存虽然容量较小,但是运行速度高达1GHz,依靠强大的二级缓存,1GHz的奔腾III在性能上战胜了1GHz的Athlon,多少为英特尔挽回了一些颜面。 AMD已经意识到了外置半速缓存的缺陷,决意开发二级缓存On Die的Athlon XP。这是最让英特尔害怕的,于是英特尔想抢先推出1.13GHz的奔腾III,先在性能上领先,然后再去建设0.13微米工艺的生产线,用图拉丁来对抗Athlon XP,备用方案就是奔腾4 Willamette,这是因为英特尔可以用0.18微米工艺来生产奔腾4,但是因为奔腾4高频低能,非要到主频提高到一定程度下(例如2GHZ以上)才能发挥威力,并且奔腾4的NetBurst为架构是需要超线程、高FSB来配合的,所以英特尔并不希望奔腾4过早登场,而是寄希望于图拉丁。当时英特尔给媒体的内部文当中规划的图拉丁桌面处理器,技术参数基本等同于实际生产的图拉丁奔腾III-S,只是FSB提升到了166MHz/200MHz,规划中的830芯片组也是准备支持DDR内存的,令人颇为期待。可惜人算不如天算,当时的0.18微米工艺应用不到一年,生产1.13GHz的奔腾III实在是勉为其难。英特尔霸王硬上弓的后果,就是全面回收几乎不能正常运行的奔腾III 1.13GHz处理器。而这时候呢,AMD正在春光满面地向媒体介绍他们刚刚推出的1.1GHz Athlon XP处理器呢……  

英特尔颜面尽失,于是开始筹划转移视线,把处理器的主频-性能之争转变为纯粹的主频之争,以转移公众视线。于是,奔腾4 1.4 GHz/1.5 GHz发布了,一下子吸引了全世界的目光,人们根本想象不到,刚刚回收了1.13GHz处理器的英特尔居然能马上拿出这么牛x的处理器,1.5 GHz呐!这时候天真的人们还在用主频即性能的固定套路来看待奔腾4,这就中了英特尔的奸计。  


可是总有清醒者,那就是公正的硬件评测媒体。  

奔腾4 1.4 GHz/1.5 GHz发布前夕,就有评测媒体质疑:为何奔腾4的主频这么高,但是实际测试项目很多都不如1GHz的奔腾III呢?对此英特尔的回答是:奔腾4是一种全新的架构,它的性能不能用传统的观点去评判,用1GHz奔腾III去对比1.5GHz的奔腾4没有实际意义。可是奔腾相对于486也是一个全新的架构,为什么那时候英特尔大肆宣传奔腾比同主频的486快两倍并且拿出了官方测试数据呢?此后奔腾MMx/奔腾II/奔腾III的发布,英特尔同时也都会拿出他们与前一代处理器的性能对比评测数据,为什么奔腾4发布,英特尔却交了白卷没有官方评测数据呢?事实上,英特尔直到2GHz的奔腾4问世,才羞答答地拿出了一个2GHz奔腾4与1GHz奔腾III的性能对比官方测试数据。当然,2GHz的奔腾4自然是完胜1GHz的奔腾III了,但是,这又有什么意义吗?486DX4-100MHz处理器也照样完胜奔腾 60MHz处理器,人家的主频高啊。 奔腾4的发布,开了一个恶劣的先例:从来没有下一代处理器在同主频的情况下性能低于上一代处理器,奔腾4做到了;英特尔处理器发展史中处理器的更新换代从没出现过主频断档,奔腾4也做到了。奔腾4的起始工作主频是1.4GHz(1.3GHz的奔腾4是过了很久才发布的,仅限量供应品牌机厂商),奔腾III的截止工作主频是1GHz,400MHz的频率断档靠谁来填补?这个受累不讨好的任务,就交给几乎已经胎死腹中的图拉丁来完成了。这几乎是图拉丁奔腾III桌面版问世的唯一原因。图拉丁奔腾III就像一个受虐待的童养媳,小心翼翼地出世了,为了尽量压低它对低主频奔腾4的巨大性能优势,英特尔先是阉割了它一半的二级缓存;一看性能还是太牛x,再把FSB降低到133MHz;一看性能还是太牛x,于是再把二级缓存延迟时间增大为1;一看还是太牛,于是还要阉割,打住吧,再阉割不就成了赛扬了吗?图拉丁的开发工程师不干了,于是英特尔又在配套芯片组上打主意,取消了830主板的发布,而是推出了整合i752显卡的815GM芯片组来搭配图拉丁奔腾III……即便这样,图拉丁奔腾III 1.13A GHz还是打得奔腾4 1.5GHz满地找JJ,于是英特尔又出损招,严格限制图拉丁奔腾III的出货量,将其售价人为提升到很高的位置,鼓励品牌机厂商采用奔腾4处理器。这样一来,图拉丁奔腾III在市场中芳踪罕觅,其稀缺程度甚至超过了服务器版的奔腾III-S……从1GHz攀升到1.33GHz,图拉丁奔腾III终于完成了填补两代处理器主频空白的任务黯然退场了(图拉丁奔腾III 1.33GHz最惨,才发布就停产)。  

图拉丁赛扬的命运比同门大哥好得多。这是因为英特尔需要它来抗衡AMD的钻龙(毒龙),继承了图拉丁的优良性能,256KB缓存(图拉丁赛扬的256KB缓存可比赛杨D的256KB缓存实在多了),100MHz FSB,加上精简数据预读取技术,图拉丁赛扬确实出色完成了任务。可是图拉丁就是双刃剑,英特尔又开始担忧它和Willamette赛扬的工作交接了,如果图拉丁赛扬像图拉丁奔腾III痛扁低主频奔腾4那样痛扁Willamette赛扬怎么办?如果他也把Willamette赛扬打得满地找JJ怎么办?哦忘记了,赛扬本来就是太监,没有JJ,不过图拉丁赛扬显然是韦小宝,假太监真男子汉。英特尔想不出妙策,于是就给两款赛扬留下了300MHz的主频空白,外行一看,我考,怎么赛扬1.4GHz完了就是赛扬1.7GHz呢?1.5/1.6GHz的产品呢?具有讽刺意味的是,图拉丁赛扬1.4GHz照样轻轻松松把Willamette赛扬1.7GHz打得满地找假JJ……  

服务器版的图拉丁奔腾III-S问世有英特尔自己的苦衷。奔腾4至强的性能不济(照样被图拉丁奔腾III打得满地找JJ,更不要说跟奔腾III-S叫板了),配套主板平台昂贵(1GB Rambus内存,价格您自己算去吧),用户不理睬,于是拿出奔腾III-S来,兼容现有815平台,性能强大发热低,做1U服务器和低端双路服务器最理想,得,就它吧。于是奔腾III-S高价问世了。这里透露一下,图拉丁奔腾III-S很多都是不锁频的哟……  

相比之下,移动版的图拉丁奔腾III命最好。如前所述,奔腾4具有高发热量高功耗的特点,用来做笔记本CPU实在是赶鸭子上架赶猪爬树,勉为其难。图拉丁奔腾III呢,具有发热低功耗低的优点(其实图拉丁用好的散热片,机箱通风良好情况下根本不用风扇),同时还具有很高的性能(图拉丁奔腾III-M一样能把主频比自己高几百MHz的移动版奔腾4打得满地找JJ,不过移动版处理器太小巧,找JJ要用放大镜),是最适合笔记本的处理器。所以英特尔高调宣传图拉丁奔腾III-M,还给它设计了一个和移动版奔腾4风格类似的logo,希望能用图拉丁奔腾III-M占居主流移动处理器市场的大部分份额。但是图拉丁再好也是奔腾III,英特尔不是用铺天盖地的宣传说4比3好吗?为什么买笔记本不买奔腾4的却买奔腾III的呢?英特尔有苦说不出,笔记本厂商也跟着倒霉,不得不用移动版奔腾4来制作主流笔记本,轻薄笔记本实在容不下移动版奔腾4这位大爷,才采用图拉丁奔腾III。结果呢,用户纷纷抱怨,买了主流笔记本的责问厂商,你的最新款笔记本怎么电池使用时间比老奔三笔记本短这么多?买了轻薄笔记本的用户也责问厂商,都说轻薄笔记本采用的才是笔记本厂商最先进的技术,你为啥卖给我一个已经淘汰的奔腾III笔记本啊?厂商的不满用户的抱怨,促使英特尔另辟蹊径,开始设计奔腾M。这个奔腾M迅驰平台,其实就是换了新汤(名字)加了调料(SSE2)搭配了两碟点心(无线网卡和855芯片组)的图拉丁奔腾III而已。 


图拉丁与奔腾4,性能孰优孰略  

说这个问题前,我们先打个比方。你认为要完成扣篮动作,需要什么条件?答案是身高和弹跳力。身材很高的人轻轻一跳就能扣篮,但不是说矮个子就不能扣篮,我们国家那些一米六左右的举重运动员,不用助跑就可以原地跳起轻松来个倒扣,靠的就是机器发达的腿部肌肉和惊人的弹跳力。同样道理,决定处理器性能高低的因素也不是一个,主要有两个,一个是主频,一个是单位主频下的执行效率。  

奔腾4能够在同样的0.18微米工艺下轻松达到2GHz的主频,奔腾III刚刚达到1.13GHz就已经到了极限,这是为什么?这是因为奔腾4的运算流水管线多达20级甚至31级,而奔腾III只有11级。运算流水管线越长,就越容易在同样制造工艺下达到更高的工作主频。Athlon在同样制造工艺下可以达到奔腾III难以达到的高主频,就是因为Athlon的运算流水管线比奔腾III略长。但是运算流水管线过长也会带来负面影响,管线越长,单位主频下的处理器执行效率就越低,性能的发挥就会受到影响。众所周知,奔腾4正是在流水管线上的加长设计,才能够达到如此之高的主频,并在主频争霸战中战胜AMD,逼得Athlon XP“不敢以真面目示人”(指Athlon XP不用真实主频标注,而用“相当于奔腾4多少”的主频标注)。但是流水管线的加长会导致数据在管线逗留的时间增长,导致数据出错的可能增加,一旦一个数据出错,其结果就在于整个运算步骤都将重新来过,这样就会造成处理器处理性能的降低。依靠高效的分支预测体系和Cache机制可以改善这一点,但仅仅是“改善”而不是“弥补”。要想弥补高频低能的缺点就要靠更高的主频来抵消,比如同样制造工艺下,2GHz的奔腾4性能总会高过1GHz奔腾III,这就是在不改变制造工艺的前提下带来的性能提升,只是英特尔不厚道,故意把人们误导到“高主频=高性能”这个自奔腾4问世后已经不再是真理的误区中来。而AMD呢,即便是Athlon 64,流水管线也很短,所以执行效率非常高。Athlon 64的整数流水线达到12级,浮点流水线达到17级,相比Athlon XP仅仅提高两个工位,但是大力改善了分支预测机制,所以同主频下性能提升明显。从中我们可以看到英特尔设计奔腾4与AMD设计Athlon的两个根本不同思路:英特尔是追求主频优先,靠极高的主频来提升性能;AMD则是追求效率优先,靠高效的执行机制实现在相同主频下达到更高的性能。AMD这种做法,其实师承于英特尔的P6架构设计思路(奔腾III、奔腾M以至酷睿,承袭的就是这种设计思路)。明白了两种设计原理,再考虑到奔腾4单位主频下的执行效率只有奔腾III 70%-75%左右的事实,我们就能很容易得出如下结论:同主频下,奔腾III的性能显然要高于奔腾4。但是,奔腾4在相同制造工艺下可以达到奔腾III所不能达到的高主频,这个高主频完全可以弥补低性能还显得绰绰有余。  

如果不考虑处理器的功耗和发热量,我们可以认为,这两种处理器设计思路都是可行的。但是处理器不能只停留在纸面上,必须要生产制造出实物来才能实现价值,而实际的处理器在工作时必然要耗费电量发出热量,这时候就要看哪种设计思路更实际更合理的问题了。  

流水线运算管线不是像输精管输卵管那样细微的生物细胞管子,而是由一个个的晶体管组成的。显而易见,流水线运算管线越长,晶体管数量就越多;晶体管数量越多,耗电量就越大;耗电量越大,发热量就越高。这就是奔腾4处理器的命门所在,谁愿意养一个电老虎在家里供着?自从奔腾4问世以来,先后经历了三代核心。笔者给这三代产品的评价是“从失败走向成功,然后从成功走向新的失败”。  

奔腾4第一代核心就是Willamette,于2000年11月发布。它采用0.18微米工艺制造,拥有256KB全速二级缓存,400MHz FSB。在整数处理速度和浮点性能这两个重要指标上,Willamette奔腾4相比P6架构的奔腾III没有有任何提升,它仅仅是对抗雷鸟Athlon的权宜之计,因为当时英特尔根本没有准备好0.13微米工艺生产线用来生产Northwoood奔腾4和图拉丁奔腾III。好在当主频提升到1.7GHz以后,奔腾4在性能上已经完全超越了铜矿奔腾III,多少给英特尔带来一些心理安慰。但是Willamette奔腾4的最致命问题不是性能低下,而是它的功耗和发热量实在大得惊人。曾有个内部消息指出,英特尔某些工程师建议给Willamette搭配512MB缓存甚至三级缓存(后来在Gallatin至强和北木奔腾4至尊版实现了),以求提升Willamette的性能,至少要让它的性能不输给自家的上代产品奔腾III。但是这个建议很不现实,反驳的人士指出,如果真得这么做了,恐怕Willamette奔腾4就会做得像一块板砖一样庞大。这或许是笑话,但也从一个侧面反映了Willamette奔腾4是仓促推出的事实。但是英特尔的宣传能力是在强大,很多新装机的朋友都花了数千元的高价去买Willamette奔腾4+850主板+Rambus内存的套装,却根本想不到自己成了英特尔死要面子举动无辜的替罪羊。  

第二代核心Northwood由于有充裕的准备时间,加之采用了0.13微米工艺制造,较好地解决了发热与功耗的问题,所以迅速取代了Willamette成为市场主流。此后随着800MHz FSB、超线程等新技术的引入,NetBurst架构的威力的以充分发挥,所以从性能上来讲,图拉丁奔腾III已经没法和Northwood奔腾4叫板了。笔者自己实际使用,无论是玩游戏(Q3A)还是看高清晰影片,奔腾4 2.8C GHz都远远超过奔腾III-S 1.4GHz。就算是AMD,也开始认真审视起奔腾4这个一向被它看成是成人玩具的处理器来了。  

Northwood奔腾4确实可以成为一代经典,因为他很好地再现了Netburst开发团队的本意。Netburst架构采用超常流水线运算管线,这么长的运算管线天生就是为超线程技术准备的,要知道像奔腾III/奔腾M/酷睿那样P6架构短流水线的处理器是没办法实现超线程技术的!有关超线程的技术文章有很多,我在这里不再赘述。  

Northwood奔腾4的继任者Prescott则是一个新的失败作品。这个败笔使得英特尔最终下决心放弃了Netburst架构。我很奇怪Netburst的开发团队是怎么想的,搞出这样一个怪物来消耗地球上有限的能源:它继承并发扬了Willamette奔腾4的一切缺点,流水线更是加长到31级!虽说Prescott奔腾4也有优点(例如SSE3、更大的二级缓存和更高效的超线程技术),但是玉不掩瑕,它的晶体管太多了,以至于它每个时钟周期比Northwood多产生大约60%的热量,同时功率消耗也增加大约10%!Prescott处理器很容易过热,过热的结果就是降频运行。Prescott最终败给了温度,英特尔必需要考虑到风冷散热能不能满足Prescott的需要,如果一定要采用水冷散热的话……那还是让Netburst去死好了。最后的结果大家也都知道,英特尔不得不全部放弃Prescott架构,并且开发4GHz部分的努力也被认为是浪费内部资源而被放弃了。止步3.8GHz,英特尔终于承认自己错了。不要忘记当初英特尔发布奔腾4时吹嘘说奔腾4是为10GHz的运算速度设计的,这肯定是英特尔历史上最重要的或许也是最广为人知的工程失败事件。  

移动版奔腾4脱胎于桌面版奔腾4,它的致命缺陷当然也是功耗和热量。专门网的网友几乎都有笔记本,想必大家都希望自己的本本温度低低,电池续航能力长些长些再长些吧?移动版的奔腾4显然不符合朋友们的要求。说起移动版奔腾4,主要有两类。一类是在2002年4月23日发布的移动奔腾4-M处理器(Mobile Pentium 4 M),具备SpeedStep和深度休眠技术,但是不支持超线程技术,功耗约35W。另一类则是移动奔腾4处理器(Mobile Pentium 4),它的发布原因是因为进一步提升移动奔腾4-M主频的同时保持较低功耗的努力已经被证实为不可能,移动奔腾4就是为了给笔记本提供一个高主频的处理器,当然它的功耗也比台式机奔腾4低一些,“仅仅”有70W,是不是很爽?  

移动奔腾4-M无法进一步提升主频,功耗的控制也差强人意。移动奔腾4的主频提上去了,功耗和发热量又大得吓人……这就是摆在英特尔和笔记本厂商面前的难题。图拉丁这时候派上了用场,它具有移动处理器所需要具备的一切优点:低功耗、低热量以及高性能。如果光从技术设计的角度讲,几乎所有的笔记本厂商都喜欢图拉丁奔腾III-M,但是从市场的角度来讲,在英特尔铺天盖地广告的宣传下,主推图拉丁笔记本就是自寻死路。在尝试了主推图拉丁奔腾III-M受冷落的苦果以后,几乎所有笔记本厂商都不约而同地做出了这样的选择:以移动奔腾4来设计制造一般的笔记本,将图拉丁专门用于轻薄便携笔记本产品的开发。只要你认真观察就会发现,采用移动奔腾4处理器的笔记本,不论品牌如何都是又大又厚又重,设计得好的厂商可以解决这类笔记本机身过热的问题,但是电池续航能力就无法保证了,总不能为又大又厚又重的笔记本再配一块又大又厚又重的电池吧?相比之下,图拉丁奔腾III-M就好得多,采用这类处理器的笔记本,轻巧便携,电池续航能力超长,同时性能也很强大。我不知道英特尔设计与桌面处理器完全不同的奔腾M的灵感到底源自哪里,但是图拉丁奔腾III-M就是奔腾M的原型,这一点是无可置疑的。  

奔腾4止步3.8GHz,英特尔迷途知返  

2004年10月15日,英特尔决定不再推出4GHz的奔腾4处理器,并表示将不再以时钟速度作为评价芯片性能的主要标准。在宣布这一决定的时候,时年64岁的英特尔总裁克雷格?贝瑞特面对着6500人说道:“请原谅我们”。或者这个性情幽默的可爱老头是在开玩笑,可是现在的他却是右膝着地、双手合十、神情庄重。  

英特尔总裁的这一惊人举动也许含有开玩笑的成分,但决非做秀,而是真心地对公司的失误表示忏悔。为了打赢主频争霸战,英特尔以往在处理器研发道路上走入了“惟主频论”的误区,现在已经深陷于其中而无法自拔:“主频高=性能高”的错误观念已经深入人心,这当然有效地压制住了竞争对手AMD的Athlon系列处理器??尽管后者的性能出色,但是工作主频始终远远被英特尔的奔腾4甩在后面;但是“惟主频论”也是一把双刃剑,它使英特尔在对外芟除异己的战争中无往不胜,同时也使英特尔自家出类拔萃但是主频不高的图拉丁奔腾III-M受到重创,此外高主频带来的高功耗也使得英特尔的忠实支持者要为奔腾的芯付出更多的电费,同时更要忍受高性能处理器风扇所带来的巨大噪音……  

纵观英特尔处理器的发展史,我们不难发现,伴随着制造工艺的改进,新型处理器的功耗更低,发热量更小,同时性能更高。这个铁一样的定律,直到Northwood奔腾4时代依然有效。可是,采用0.09微米工艺的Prescott却不是这样,除了最低主频的几款型号之外,它的设计功耗都在100W以上,远远高于几款最高主频的Northwood,发热量更是大得吓人,性能却不比同主频的Northwood高。有人也许会为Prescott辩解,说是Prescott的设计就是为了在更高频率下工作的,在4GHz以上的时候,Prescott那可怕的威力才会完全发挥出来……给我打住吧!看看3.2E GHz的Prescott奔腾4功耗有多恐怖再说话吧,如果Prescott奔腾4的主频果真超过4GHz,200W左右的耗电量和由此带来的发热量是闹着玩的吗?如果说高频低能的Willamette奔腾4是为了在主频大战中能够彻底压制(注意我没有使用“击败”一词)AMD,并且后继的Northwood奔腾4还降低了功耗提升了性能的话,那么电老虎一般的Prescott奔腾4又有何用?难道它真的要做Willamette第二?Prescott,这款在设计之初就不被许多人看好的处理器,忠实地诠释了英特尔当时的真正状态:对处理器的主频如此在意,已经到了走火入魔的地步。换言之,也只有走火入魔的英特尔,才会设计出如此走火入魔的Prescott来。一般说来,更先进的制造工艺可以降低处理器的功耗和发热量,但是面对Prescott这样的怪物,0.09微米工艺的先进制造工艺仅仅起到了救命稻草的作用由此看来,贝瑞特单膝跪地的惊人之举,也许多少有些无奈,但是,又不得不为之。如前所述,奔腾4采用的是“惟主频论”的架构,它的设计第一出发点,就是能达到更高的主频,而不是像以往x86处理器那样,新一代处理器在同主频下拥有更好的性能。可以这样说,奔腾4的推出开了一个恶劣的先例,在英特尔性能高超的宣传机器的疯狂运转下,“高主频=高性能”的观念深入人心,奔腾4获得了成功,但同时也埋下了隐患……  

奔腾4的架构注定了它是一款耗电量大发热量高的东西,这一弊端首先在对CPU的功耗和发热有苛刻要求的移动计算市场体现出来。英特尔在无奈之下,推出了奇怪的奔腾M CPU,专用于移动电脑市场。严格说来,奔腾M就是加强版本的奔腾III,它的基本架构继承于奔腾III,同时也吸收了奔腾4平台的一些优点。奔腾M是一颗“惟性能论”的产品,它的主频没有奔腾4那么高,但是在同主频下,奔腾M的性能远胜奔腾4。笔者认为,奔腾M是英特尔这几年所设计的最出色CPU,奔腾M+i855芯片组+英特尔无线网卡所组成的迅驰移动计算技术,不仅开创了移动电脑领域技术发展的新纪元,更给英特尔创造了许多的银子,同时也给英特尔出了一个难题:如何在不损害奔腾4威信的情况下,告诉那些持观望态度的用户,尽管奔腾M的主频只有1.xxGHz,但是性能却比2.4GHz的奔腾4更好?比较好的做法就是一方面淡化高主频=高性能的荒谬论调,奔腾4不再继续攀升主频,并且逐渐淘汰,另一方面则是尽快提升奔腾M及酷睿的工作主频,同时大力宣传双核心,让用户的注意力从高主频转移到双内核甚至多内核上来。从Netburst架构开发小组成员集体辞职的消息中我们不难看出,英特尔已经决意放弃奔腾4,重新采用古老却不过时的P6架构。  

由于英特尔对迅驰的媒体得力,由图拉丁奔腾III-M改头换面的奔腾M问世不久就轻而易举地在移动计算领域淘汰了奔腾4-M,取得了巨大的成就。人们自然就会想到,如果英特尔肯将奔腾M的架构用在桌面计算领域,那么台式机的功耗与发热问题以及由此带来的噪音控制问题就很容易解决了。英特尔也在关键时刻迷途知返,以双核奔腾M作为技术基础的酷睿处理器问世了,宣示了奔腾尤其是奔腾4时代的终结。酷睿与奔腾III特别是图拉丁奔腾III有着密切的血缘关系,那些怀念图拉丁的用户们有福了,因为他们可以用最新的超级图拉丁??酷睿来武装自己的新电脑了!


酷睿遥祭图拉丁:奔腾4 NetBurst架构终结,古老的P6架构重新登场  

在486及其以前的时代,英特尔AMD以及Cyrix处理器的技术架构相同,这是因为286时代的英特尔还只是给IBM PC原装机(ThinkCentre的前身)提供微处理器的一个打工仔而已(微软则是给IBM PC原装机提供操作系统的打工仔)。当时英特尔还是一个小公司,产能有限,而IBM PC机还没有与其兼容的兼容机出现(现在除了苹果电脑以外的品牌机,包括我们自己攒的电脑,严格说来都是IBM PC机的兼容机),产品销量很大,为了保证微处理器的供货充足,IBM强迫英特尔把自己的微处理器技术无偿授权给另外一家公司,得到授权的这家公司就是IBM PC机微处理器的“第二供货商”(也就是当英特尔的处理器供货不能满足IBM需求时,由第二供货商向IBM提供完全一样的微处理器)。英特尔当时一百个不愿意,但是又惹不起IBM,只好选择了AMD,将自己的微处理器技术无偿提供给了AMD,后来为了让AMD多一个竞争对手,免得AMD老来纠缠自己,英特尔又将微处理器技术无偿授权给Cyrix,因此这三家公司的处理器架构基本一致。  

到了486时代,英特尔羽翼渐丰,IBM PC由于兼容机的大量涌现也不是垄断者了,英特尔的名气越来越大,很多人购买微处理器非英特尔不买,所以英特尔倒不是特别在乎AMD等竞争者生产的兼容微处理器,但是AMD和Cyrix的技术研发势力越来越强,兼容处理器的性能与英特尔不相上下,价格还特别低廉,所以从奔腾开始,英特尔终于翻脸,奔腾采用了全新的P5架构,AMD等竞争公司没有授权,只好先用5×86这样的超级486来抗衡英特尔,同时各自开发自己的下一代微处理器架构。  

AMD面对这样的局面只能另辟道路。经过K5还算成功的试探之后,又发布了K6处理器,并逐渐衍生出K6-2和K6-3。第一代K6处理器只能与具备MMX技术的奔腾打成平手,但是后续的K6-2则凭借架构上的优势令英特尔感到了巨大的压力。为此英特尔将P6架构下放,取代奔腾/奔腾MMX的P5架构,以求在性能上保持领先地位。  

P6架构问世于1995年,至今已经有11个年头了。最早采用P6架构的微处理器是高能奔腾(奔腾Pro)。P6架构与奔腾的P5架构最大的不同在于,以前集成在主板上的二级缓存被移植到了CPU内,从而大大地加快了数据读取和命中率,提高了性能,另外P6架构是一个纯32位的微处理器架构。第一代P6架构的微处理器奔腾Pro受制于当时的制造工艺,CPU核心集成二级缓存的成本太高,所以奔腾Pro的售价高昂,仅仅应用在服务器领域。为了将P6架构平价化以对抗AMD等竞争对手,英特尔采用了将二级缓存从CPU核心移出,外置于集成CPU核心的PCB板上的做法,推出了奔腾II处理器。奔腾II处理器的二级缓存外置于CPU核心以外,只能以处理器工作主频一半的速度运行,而不像奔腾Pro的二级缓存那样以全速运行。但是半速运行的二级缓存总比传统集成在主板上的二级缓存速度快得多,再加上奔腾II二级缓存容量大、一级缓存容量也是奔腾Pro 2倍、主频更高三大优点,它的性能还是要强过奔腾Pro。随着0.25微米工艺的成熟,英特尔尝试将奔腾II的二级缓存集成于核心,推出了Mendocino赛扬处理器(著名的超频王赛扬300A就是这一核心),虽然Mendocino赛扬的二级缓存只有128KB,但是它却以全速运行,再加上位宽高于奔腾II的二级缓存,所以同主频的赛扬/奔腾II性能差距并不大。除了早期的奔腾III以外,铜矿和图拉丁奔腾III及其简化版赛扬,加上后来的奔腾M,都是基于P6架构的优秀产品。  

奔腾M就是现在的主流产品,但是它的身份只是法定的移动处理器而已,桌面处理器还是NetBurst的天下。但是随着酷睿2的到来,久磨愈精的P6架构全面回归。  

酷睿处理器的基本设计思路继承于奔腾M。除了完全承袭了奔腾M的看家本领??微指令融合技术以外,酷睿还具备超强的四组指令编译器,这也正是酷睿的最大特色。采用四组指令编译器,酷睿可在单一频率周期内编译四个x86指令。四组指令编译器的设计思路还是承袭P6架构的传统,由三组简单编译器(Simple Decoder)与一组复杂编译器(Complex Decoder)组成。  

酷睿处理的另一个技术亮点就是数据预读取技术。这也是早在图拉丁身上就出现了的新型技术,可以有效弥补缺乏内存控制器、导致内存存取延迟较长的缺憾。数据预读取技术可在处理器将数据回存内存的同时,预测后继的加载指令是否采用相同的内存地址。如果不是,就可立即执行加载动作,无须等待该回存指令,这可大幅改善乱序执行(Out-Of-Order Execution)核心的效率,并缩短存取内存的延迟。  

而增强的“预先加载机制”则可满足第二项要求。Core微架构每个核心分别内建一组指令及二组数据预先抓取器,而共享的二级缓存内建两组、可动态分配至不同的核心的数据预先抓取器,可根据应用程序数据的行为,进行指令与数据的预先抓取动作,让所需要的内存地址数据,尽量存放在缓存中,减少读取内存的次数。  

酷睿的电源管理机制基本上改良自图拉丁奔腾III-M与奔腾M的设计,即处理器内各功能单元并非随时保持启动状态,而是根据预测机制,仅启动需要的功能单元。不过在酷睿上新采用的分离式总线(Split Buses)、数字热感应器(Digital Thermal Sensor)以及平台环境控制接口(Platform Environment Control Interface)等技术的实际效果,要比以往模糊的省电效果实在得多。  

温控方面,英特尔在酷睿处理器中最容易发热的位置,放置数字热量传感器(Digital Thermal Sensor),通过专门的控制电路,监控处理器的发热量以及运作模式,然后动态调整系统电压、系统风扇转速。  

酷睿既然是基于P6架构,因此也有P6架构的缺点,比如说工作主频无法像奔腾4那样狂飙。P6家族处理器的工作主频提升,很大程度都是依赖制造工艺的改进,而不是加长运算管线。在45nm工艺采用之前,酷睿的核心频率很难超过3GHz,那些用着3.8GHz奔腾4处理的用户还有一段可以YY主频的时间。  

总之,酷睿的发布,P6微架构的回归对业界影响深远,因为它代表着这样一种思路:即在降低耗电量的前提下,追求最大化的性能,而并非过去的“唯主频论”。

剧毒术士马文

留学中 Comp.Arch|RISCV|HPC|FPGA 最近沉迷明日方舟日服 联系方式请 discord 或者 weibo 私信。目前不在其他平台活动。 邮箱已更新为[email protected]。 看板娘:ほし先生♥

相关文章

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注

返回顶部按钮