Tesla GPU高性能并行计算解决方案探析

来源: 作者:

NVIDIA 公司在月初终于发布了基于代号为 Fermi的下一代CUDA架构的Tesla S2050系列处理器,其供应商们也纷纷推出了Tesla 20系列的最新GPU计算解决方案,并声称拥有多个“必备的”的高性能计算功能。业内人士千呼万唤的 Tesla 20 系列计算解决方案到底有什么独特之处?它与 CPU 解决方案相比,以及与上一代 GPU 解决方案相比,到底有什么非凡的性能呢?

  GPU,即图形处理器,其计算模型在一个异构计算模型中同时使用了 CPU 和 GPU,应用程序的顺序部分在 CPU 上运行,计算密集型部分在 GPU 上运行,从而极大地提升了运算性能。以 AMAX 最新推出的 Tesla 20 系列计算解决方案为例,与最新的四核 CPU 解决方案相比,能够以十分之一的成本和二十分之一的功耗实现同等超级计算性能。

  这些最新的 Tesla 20 系列计算平台,一般包括


Tesla GPU高性能并行计算解决方案探析

  · 超级图形工作站:单一桌边型工作站,CUDA 计算内核多达1,792 个,可提供 4.12 Teraflops 的单精度和 2.06 Teraflops 的双精度浮点运算性能(峰值)。

Tesla GPU高性能并行计算解决方案探析

  · 1U 机架优化 GPU 服务器:1U 系统平台,配有6个热插拔2.5 SATA 硬盘位,CUDA 计算内核多达896个,可提供2.06 Teraflops 的单精度浮点运算性能和1.03 Teraflops 的双精度浮点运算性能(峰值)。

Tesla GPU高性能并行计算解决方案探析

  · S2050/S2070 1U GPU 超级计算系统:提供世界上最高的计算密度,可用于部署企业部门的计算集群和数据中心。1U 系统中,配有1,792个CUDA 计算内核,可提供 4.12 Teraflops 的单精度和 2.06 Teraflops 的双精度浮点运算性能(峰值)。

  · 并行 GPU 高性能计算集群:每个集群可提供高达 86.52 Teraflops 的单精度和 43.26 Teraflops 的双精度运算性能。主机系统配有高达 504GB 的专用 GPU 内存,84个12核 AMD 或6核英特尔处理器和 252TB 的热交换共享存储。

  而业界所说的拥有多个“必备的”高性能计算功能,则是指:

  · ECC 内存确保计算结果的准确性和可靠性

  · L1/L2 缓存改善带宽和数据共享

  · 双精度性能是上一代产品的7倍

  · CUDA 程序环境,支持多种编程语言和 API,包括 C、C++、OpenCL、DirectCompute 或 Fortran

  · NVIDIA 并行数据缓存(DataCache)技术,能够对无法预知数据地址的算法进行加速,例如物理解算器、光线追踪、以及稀疏矩阵乘法等等

  · NVIDIA GigaThread 引擎通过更快的上下文切换、同时内核执行以及改善的线程块调度功能,最大限度提升了吞吐量

  田纳西大学创新计算实验室主任,Jack Dongarra 教授说 GPU 已经发展到了颇为成熟的阶段,可轻松执行实际应用程序并且其运行速度已远远超过了使用多核系统时的速度,未来的计算架构将是并行核心 GPU 与多核 CPU 串联运行的混合型系统。AMAX 集团主席 Jean Shih 也说其 Tesla 20 系列解决方案代表了高性能计算行业最重要的产品创新之一,可以满足客户最苛刻的高性能计算应用和I / O 要求。