基于Xeon 5500平台的Tesla高性能计算工作站方案

来源: 作者:


  今年初我们曾经推出过
3款基于HP工作站平台的Tesla高性能计算解决方案,型号分别为科卓Quadro 4100-TCQuadro 8100-TCQuadro 8100-TC II。详情参见:“Tesla个人超级计算工作站解决方案”一文。此后,我们还对GPU计算和NVIDIA CUDA技术在相关行业的应用进行了如下的介绍和总结:

TeslaCUDA高性能计算行业应用案例

复杂多相流动分子动力学模拟在GPU上的实现

Tesla高性能计算应用案例-MATLAB、生命科学和医疗成像

GPU加速Matlab高性能计算-Tesla+Jacket Engine解决方案


    
现在,科卓Quadro系列高性能计算工作站的新品发布了,它采用了Intel代号为Nehalem-EPXeon 5500最新平台。

 

科卓Quadro 8120-TC高性能计算工作站

HP Z800工作站 + NVIDIA Tesla C1060


科卓Quadro 8120-TC I/II 产品规格(标配)

主机

惠普HP Z800工作站

芯片组

Intel 5520

CPU

2×Intel Xeon X5550 2.66GHz 8MB 6.4GT/s

内存

6GB (6x1GB) / 12GB (6x2GB) DDR3-1333 ECC 6通道

硬盘

450GB SAS 15000rpm

电源供应

850W 85%转换效率 / 1110W 89%转换效率

显卡

NVIDIA Quadro NVS 295 或 FX 380

计算处理器

1 / 2× NVIDIA Tesla C1060

价格

49800 / 66000元

     科卓Quadro 8120-TC高性能计算工作站和上一代产品Quadro 8100-TC系列的最大区别在于将主机平台从惠普HP xw8600级为新一代的HP Z800工作站。随之而来的就是基于Intel Nehalem架构的Xeon 5500系列处理器、6通道DDR3内存,以及最大功率和转换效率更高的电源等。下面我们就来说明一下选择HP Z800的原因。

 

为什么要选择HP Z800工作站?


    
记得我们曾经在20081月向大家介绍过Intel上一代双路Xeon平台5400(详见:“Intel 5400平台为工作站带来新动力”一文)。与5400只是在Xeon 5000系列基础上提升了部分规格不同的是,HP Z800工作站使用的Intel Xeon 5500平台完全是具有革命意义的新一代产品。



更高的
CPU内核执行效率、整合内存控制器

     首先Intel Xeon 5500系列CPU在之前Core架构核心的基础上整合了内存控制器,用QPI直连总线取代了之前的FSB前端总线;此外还加入了原来曾经在NetBurst架构Pentium 4/D处理器上应用过的Hyper-Threading超线程技术、以及新加入的Turbo Boost智能加速技术等。在已经进行过的各种服务器应用测试中,Xeon 5500平台的性能超过Xeon 5400系列20157%之多。这些新技术我们将在下文中分别为大家介绍。
 

                                                                              

Intel Xeon 5500系列处理器规格

     Intel Xeon 5500系列CPU分为LEXW四种类型,其中低功耗的L系列和最低的一款E5502双核HP工作站没有提供;2款入门级四核E5504E5506只有4MB三级缓存、4.8GT/s QPI总线频率,内存支持到DDR3 800;主流的3E5520E5530E5540拥有8MB三级缓存,QPI总线频率5.86GT/s,支持DDR3 1066内存,并提供了SMT(超线程)和Turbo Boost智能加速技术;再往上的X系列提供了目前最高的6.4GT/s QPI总线频率、DDR3 1333内存规格,同样支持超线程并且Turbo Boost加速的级别更高,3款高性能Xeon X55x0处理器的TDP(热设计功耗)由E系列的80W提高到95W;最高的W5580在主频达到3.2GHz的同时,最大功耗也达到了130W


    
以我们在科卓Quadro 8120-TC高性能计算工作站上选择的Xeon X5550 CPU为例,虽然它的标称频率只有2.66GHz,但由于采用了全新的设计(后面陆续说明),实际性能超过上一代产品科卓Quadro 8100-TC推荐的Xeon X5450 3.0GHz。虽然X5550的三级缓存容量看上去要比上一代5400系列的12MB二级缓存少,但2者在设计上有所不同。Xeon 54xx处理器内部包含2Die(内核),每个Die上拥有2个核心(Core)和共享的6MB L2 Cache,也就是说将2个双核处理器内核封装在一起,然后连接到同一条FSB(前端总线)上;如果其中一个Die上面的核心恰好需要另一个DieL2 Cache中的数据时,需要经过前端总线(也就是北桥)中转。而Xeon 5500系列CPU则不同,4个核心共享8MB L3 Cache,在这点上类似于AMD K10的“原生”四核架构;并且每个核心的一、二级缓存数据在L3 Cache中都有完整的映像,查询和访问时不再需要经过北桥和系统内存,因此效率更高。

 

Intel Turbo Boost智能加速和Hyper-Threading超线程技术

                                                                                       

Intel Turbo Boost频率提升示意图

     Turbo Boost智能加速技术是Intel针对以前的多核处理器在执行单线程应用时效率提高不大,部分资源闲置的问题而设计的。支持Turbo BoostXeon 5500系列CPU在常规状态下保持默认频率(如果打开EIST节电功能,闲置时主频将低于标称频率);当4个核心中的12个被应用程序占满时,处理器主频将以133MHz为单位提升23个档次;而当运行的程序占满了34个核心时,CPU主频也能够提高12个档次(×133MHz)。一旦出现处理器的满载运行功耗超过TDP值,Turbo Boost技术将会自动关闭,因此不会对散热和稳定性造成影响。


    
前文处理器规格的图片中,每个系列左侧的“TurboX/X/X/X”代表CPU分别在使用4/3/2/1个核心时的Turbo Boost频率提升级别。以我们选择的Xeon X5550为例,“2/2/3/3表示在单线程应用时频率能在标称的2.66GHz基础上提高400MHz133×3)达到3.06GHz,而在4个核心都有负载时也能够提升266MHz133×2)至2.93GHz。在特殊情况下,我们甚至可以在主机BIOS中关闭多核功能,这时X5550就可以相当于一个3.06GHz主频的单核处理器了。在不同档次的Xeon 5500 CPU中,X系列支持Turbo Boost频率提高的幅度最大,这也是我们在3款中选择的原因之一。


    
Hyper-Threading
超线程技术用在这里已经是新瓶装旧酒了,它的目的是进一步提升Xeon 5500在多线程应用中的性能表现。一颗四核处理器拥有8个线程,两颗就是16个线程,这在目前的双路系统中应该是最高的。
 

QPI
总线彻底解决CPUGPU之间的带宽瓶颈

QPIQuick Path Interconnect直连总线是Intel的新一代I/O技术,其结构和AMDHyperTransport有相似的地方,有效实现了CPU和芯片组之间的高速互连。我们在去年5月发表的“引爆Quadro动力-惠普HP xw4600工作站深度评测”一文中曾经计算过:现在主流的1333MHz FSB前端总线最大带宽为10.6GB/s,即使是最高的1600MHz FSB也只有12.8GB/s,而PCI Express x16 2.0显卡(Tesla C1060)插槽的理论带宽已经达到了16GB/s(上/下行各8GB,实测能达到单向56GB/s前端总线的实际效率同样也会有一定的折扣)。这样在CPUGPU之间就形成了传输瓶颈,因此Intel推出了QPI总线。


    上图是
Xeon 5500平台中专门为工作站设计的一种最优芯片组配置方式(以往的54005000X也都是每一代Intel芯片组中性能最好、价格最高的),HP Z800工作站就是这样(见下图)。2个处理器分别使用独立的QPI总线连接Intel 5520芯片组,而CPU-CPU2颗芯片组之间的连接也是通过QPI总线,这样每个CPU就可以拥有一条到GPU的独立通道(25520最多能提供72PCI-E 2.0信道)。上文中我们提到QPI总线有3种工作频率,Xeon X5550处理器的6.4GT/s是目前最高的,在每条QPI连接上都能实现25.6GB/s的最大带宽,远远超过单个PCI Express 2.0显卡的16GB/s,有效消除了瓶颈


                                                                                            

HP Z800工作站结构图

 

6通道DDR 3带来前所未有的内存带宽

     每个Xeon 5500处理器整合了三通道DDR3内存控制器,其中X5550及更高主频的支持1333MHz内存频率。单个通道的最大带宽为10.6GB/s3个通道一共31.8GB/s,完全满足了系统内存——Tesla C1060板载4GB显存之间的数据交换需求。此外,一个CPU还能够同时通过QPI总线访问另一个CPU控制的内存,这样可以实现的最高内存带宽就达到了57.4GB/s31.8+25.6)。AMDK8/K10架构也是通过整合内存控制器的方式在前几年部分领先于Intel平台,不过现在它还只能提供双通道DDR 2/3的支持。除了带宽之外,内存访问延迟的降低(不需要再通过北桥)也能够显著提升系统性能。


    
从理论上说,安装有2CPUHP Z800工作站,配置内存的条数为6的倍数时拥有最好的性能,因此我们为带有1/2Tesla C1060科卓Quadro 8120-TC高性能计算工作站分别搭配了6GB (6x1GB) / 12GB (6x2GB)内存。这样已经超过了NVIDIA推荐的配置(系统内存容量大于等于GPU显存容量之和),由于现在内存价格便宜,整个系统的成本并不会因此而带来多大变化。



Integrated Power Gate
电源管理技术——更加节能

     Intel Xeon X5550 CPU的设计功耗低于上一代产品中的X5400系列(TDP120W),再加上新的Integrated Power Gate电源管理技术,待机时功耗只有10W。下文中我们还会提到HP Z系列工作站配置了转换效率更高的电源。凭借这些,能够实现在提高性能的同时,更加节电。

 

HP Z800工作站的其它优势


    
除了Intel新平台上带来的技术改进之外,惠普还在新一代Z系列工作站上加入了很多新特性。其中最大的一点变化就是放弃了以往在xw6000/8000系列上使用的经典机箱,更换为由宝马在美国的设计团队历时3年研发的全新模块化设计机箱

     上图中,我们看到HP Z800工作站的机箱内有专门的PCI设备导风装置、固定器,以及底部针对PCI设备散热的进风通道。这些都对Tesla C1060计算处理器(卡)提供了更好的支持。


     此外,HP Z800工作站还在PCI设备之间设置有散热导风孔,加上右侧的双路风扇能够更好的降低Tesla C1060(典型/最大功耗:160/200W)的工作温度,保证稳定性。

                                                      

HP Z800工作站PCIPCIe)扩展槽示意图

     Z800工作站主板上的两个PCI Express x16 2.0插槽之间相隔2个槽位,如果安装2Tesla C1060计算处理器(双插槽),就能保证它们之间还有一个槽位的距离,这样有效避免了热量集中的问题,更加有利于散热。上一代HP xw8600虽然也能支持2Tesla C1060并保证稳定性,但它们在机箱内挨得更近,之前的惠普产品中只有双路AMD平台的xw9400在这一点上采用了和Z800相似的设计


  当我们在Z800上配置2Tesla C1060时,可以选择Quadro NVS 295或者FX 380作为显卡。二者的区别是:NVS 295是一款2D专业显卡,提供2DisportPort输出接口(可以转接为DVI),但若需要连接VGA模拟接口的显示器,需要另配转接线且比较麻烦;而Quadro FX 380是入门级的3D专业显卡,2DVI-I接口可以方便的连接数字或者模拟显示设备。

 
  如果用户需要更好的显示性能,准备使用FX 3800或者更高的显卡,可以考虑采用1Tesla + 1Quadro的配置,Quadro兼做专业显示和CUDA计算,要知道FX 5800的显存大小和计算能力可是与C1060相当的
                                                                                       

不同等级的80plus电源规范

     上图为80plus电源认证中各种等级的转换效率要求,惠普HP Z系列工作站在上一代xwX600系列通过80plus的基础上更进一步,全部达到了80plus铜牌BRONZE)认证标准,也就是说在50%典型负载下转换效率不低于85%。其中包括了Z400Z600Z800工作站上的850W电源,而Z800选配的另外一款1110W电源更是符合了80plus银牌SILVER)认证,它的转换效率最高能达到89%以上。