性能测试:SPECrate 2017
SPECrate 2017测试的是单位时间的吞吐量或工作量,这是服务器采购时的主要性能指标,所以服务器厂商和处理器厂商通常提供的是这一测试成绩。在SPECrate 2017中包含SPECrate Integer和SPECrate Floating Point,前者测试的是整型并发性能,后者测试的是浮点并发性能。该软件的一个重要特性是可以调动处理器内的所有核心、线程数参与计算。
接下来我们重点关注了EPYC 9754与EPYC 9654在双路配置性能上的对比。测试显示,尽管双路EPYC 9654系统三级缓存容量更大,拥有192核心、384线程,并且轻松击败了其他核心数更少的产品,但由于核心、线程数不如EPYC 9754,因此最终拥有256核心、512线程的EPYC 9754双路系统在测试成绩上击败了EPYC 9654。其整数性能相对于EPYC 9654双路系统领先了多达12.1%,浮点运算性能领先了5.2%。对提供云服务的厂商而言,这是非常有意义的结果,毕竟任何云业务计算都需要占用大量CPU的运算能力,比如直播业务高峰期云服务器中的CPU占用率经常会达到90%以上,因此只有采用具有更强算力的处理器才能保证业务更流畅地在客户端运行。
性能测试:Stream-Triad
Stream是业界广为流行的综合性内存带宽实际性能测量工具之一。和硬件厂商提供的理论最大内存带宽不同,通过fortran、C两种高级且高效的语言编写完成的Stream,可以在测试中充分发挥出内存的能力。Stream一共包含Copy、Scale、Add 和Triad 这4种操作,其中Triad组合了前面3种操作,所以其测试成绩更具参考价值。
从测试结果可以看到,采用DDR5内存的两款EPYC双路系统都拥有很大的优势,毕竟这些系统每一路采用的都是规格大幅提升的12通道DDR5 4800内存系统,单路理论内存带宽就可以达到460.8GB/s,因此在内存性能测试上,EPYC 9754、EPYC 9654没有明显区别,差别很小。前者的测试成绩为743502MB/s,后者为741063MB/s,其双路内存带宽都在720GB/s以上,远远高于使用DDR4 3200内存的第三代EPYC处理器:双路EPYC 7763系统。
第三代双路EPYC系统每一路采用的都是8通道DDR4内存系统,在使用DDR4 3200内存时的带宽只有363GB/s左右。显然借助对12通道DDR5 4800内存的支持,采用Zen 4c小核心的EPYC 97X4系列处理器也具备颇为强大的内存性能。
性能测试:NAMD
NAMD是一种并行的分子动力学代码,由伊利诺伊大学厄巴纳- 香槟分校贝克曼高级科学与技术研究所的理论和计算生物物理学小组开发,它主要用于大型生物分子系统的高性能模拟。本次测试中,我们主要通过NAMD来考察参测处理器的浮点性能。
NAMD也是一个依赖处理器核心数量的科学计算,因此测试结果与SPECrate 2017非常类似,凭借更多的处理器核心数量,256核心、512线程配置的EPYC 9754双路系统比192核心、384线程配置的EPYC 9654双路系统快了12.5%,领先幅度较大。对于准备提供科研计算云服务的厂商来说,这也是非常值得关注的结果。目前随着处理器、GPU性能的快速提升,科研计算云服务器也成为一种强大的计算工具,被广泛应用于数据处理、人工智能、生物医学。如在生物医学领域,科学家们也在进行着类似NAMD这样的生物分子、基因数据运算,而且由于运算量非常大,往往需要借助云服务器来提高工作效率。
性能测试:OpenSSL
OpenSSL广泛用于保护服务器之间的通信,这是许多服务器堆栈中的重要协议。OpenSSL测试主要包含生成签名和验证签名两部分,我们在本次此时中主要进行了OpenSSL生成签名测试。
测试结果显示,OpenSSL测试同样是一个依赖处理器多线程运算性能的测试,两个不同核心数、线程数配置的双路系统在成绩上也有显著的区别。拥有256核心、512线程的EPYC 9754双路系统在签名效率上比192核心、384线程配置的EPYC 9654双路系统快了12.8%,Zen 4c架构处理器核心数更多的优势显而易见。对于云服务器商来说,这是一个很有意义的结果,因为OpenSSL一直是云计算中为应用程序提供信息安全的保障,但在不少服务器中由于硬件设备性能不济,用户数量增多等问题,使得运算速度不断降低。运营商如果采用EPYC 9754双路系统这样的高性能处理器,显然可以很好地解决这些问题,能够将OpenSSL的计算任务均衡分配给各个核心,达到提高资源利用率,工作效率的目的。
基准性能测试:UnixBench Dhrystone 2和Whetstone
UnixBench来源于BYTE UNIX基准测试套件,该工具的主要目的是提供服务器性能的基本指标。这是一个系统基准测试工具,拥有多个测试子项,而不仅仅是CPU、内存或磁盘基准测试工具。其结果不仅取决于硬件,还取决于操作系统、库甚至编译器。在本次测试中我们主要使用了体现整数性能的Dhrystone 2 using register variables和测试双精度浮点操作速度与效率的Double-Precision Whetstone。此外,在这两个测试项目均可选用单线程或多线程进行,本次测试我们选用的是多线程。
与SPECrate 2017相比,这两个测试更能体现处理器核心数量的重要性。首先EPYC 9754双路系统在双精度浮点性能运算上领先20%,在体现整数性能的Dhrystone 2 using register variables上更领先EPYC 9654双路系统高达23.5%,其优势非常明显。
性能测试:C-ray 1.1
C-ray是一种常用的光线追踪基准测试,可以显示多线程工作负载下处理器的差异,时间越短说明系统性能越强。在本次测试中,我们使用了4K和8K这两种分辨率进行测试,从而对比参测系统在不同负载下的性能差异。
从测试结果来看,使用处理器来完成光线追踪任务不仅需要处理器的计算能力,也比较依赖处理器的三级缓存容量,大容量缓存可以有效提高光线追踪性能,因为光线追踪计算过程中需要在内存和缓存中存储大量的场景几何信息、纹理和光线追踪过程中的中间结果等数值,所以缓存容量越大,就能减少处理器访问内存的时间,提高计算效率,所以最终缓存容量更大的192核心、384线程配置的EPYC 9654双路系统在这个测试中可以和256核心、512线程的EPYC 9754双路系统打平,两个测试系统都取得了完全相同的成绩。
性能测试:Sysbench CPU
Sysbench是一款被广泛使用的Linux基准测试,它可以对CPU进行性能测试,在测试中主要是通过CPU进行质数加法运算,质数极限为10000个。
同样对于提供云服务的厂商而言,这也是一个值得关注的结果,毕竟Linux是一种在服务器中广泛应用的操作系统,具有高度的稳定性、安全性、可扩展性、灵活性和定制性,被主要用在Web服务器、数据库服务器、云计算等领域。测试结果意味着,在Linux系统下进行处理器多核心运算测试的话,拥有256核心、512线程的EPYC 9754双路系统可以完全发挥出最大性能,每秒能完成922370.2轮运算,比EPYC 9654双路系统的成绩领先了12%。
性能测试:HPL
HPL的英文全称为“High-Performance Linpack”,Linpack是国际上一款用于测试高性能计算机系统浮点性能的基准测试工具。通过对高性能计算机采用高斯消元法求解一元N次稠密线性代数方程组的测试,考察高性能计算机的浮点性能。值得一提的是,该测试支持AVX-512指令集,在支持AVX-512技术的硬件上,可以使用AVX-512指令集运算来完成该测试。
结果令人欣喜,拥有更多计算核心的EPYC 9754双路系统在该测试中轻松战胜了EPYC 9654双路系统,领先幅度达到17.7%。由于云计算服务器的一个重要作用是向用户提供计算力,评价一款服务器总体计算力的方法就是采用统一标准作为评判,而Linpack测试就是其中之一,包括世界最快500台巨型机系统的排名都采用了这一标准,因此EPYC 9754双路系统的胜出意味着它的算力的确要更胜一筹。
性能测试:DGEMM
DGEMM是一个基于双精度矩阵乘法例行程序的快速基准测试,可计算以下乘积:C←αAB+βC。其中A、B和C是包含双精度浮点值的矩阵,α和β是标量。AMD的开源DGEMM基准使用了AOCL 4.0的AMD BLIS组件,其结果最终会反馈出一个Gflops值,该值将接近于可实现的最大系统吞吐量。同样这个测试也可以使用AVX-512指令集运算,可以体现处理器在支持AVX-512指令集后的性能优势。
HPL的Linpack测试类似,DGEMM也是体现处理器总体算力的一个基准测试,因此256核心、512线程配置的EPYC 9754双路系统并不意外地在这个测试中获得了领先,其测试成绩突破11000Gflops,而EPYC 9654双路系统尽管明显领先其他核心数更少的双路系统,但面对EPYC 9754双路系统,它那9282.5Gflops的成绩还是明显落后。
性能测试:V-RAY 5.02
VRay是业内非常受欢迎的一款渲染引擎。基于V-Ray内核开发的有VRay for 3ds max、Maya、Sketchup、Rhino等诸多版本,为不同领域的优秀3D建模软件提供了高质量的图片和动画渲染,方便使用者渲染各种图片。目前通过V-Ray渲染引擎提供云渲染服务的平台也很多,显然如果服务器内部的处理器、GPU要进行这类渲染作业,就必须具备很高的性能,因此V-Ray引擎的开发公司Chaos特别推出了V-Ray Benchmark。这是一款独立的渲染速度测试软件,可以用于测试处理器、GPU的渲染速度。
长久以来,渲染应用对多核心处理器、多线程技术都有很好的支持,毕竟只有高效地将渲染任务分配给多个线程,每个线程都同时处理一部分渲染任务,才能大大提高渲染时的速度和效率。因此256核心、512线程配置的EPYC 9754双路系统也毫无悬念地战胜了192核心、384线程配置的EPYC 9654双路系统,其每分钟可以渲染217416 vsamples,领先EPYC 9654双路系统约4.1%。
更多核心带来更强大的算力
综合以上测试,可以看到EPYC 9754双路系统几乎在所有项目中取得了领先,最大领先幅度可以达到23.5%,这也体现出EPYC 9754处理器的128颗Zen 4c核心的确拥有不凡的算力,能够在与云计算相关的应用与运算中大显身手,如科学计算、OpenSSL生成签名、图形渲染等应用中EPYC 9754都具备明显的优势。
第四代EPYC处理器包含三大不同系列的处理器,分别面向不同的应用领域。
更值得一提的是,EPYC 9754的售价相对于96核心、192线程的EPYC 9654并没有贵多少,EPYC 9754的官方售价在11900美元左右,而EPYC 9654的官方售价在11805美元左右,以高了不到100美元的差价,就能获得额外32颗核心,显然非常超值。相对于竞争对手的同类产品如至强8490H,EPYC 9754更拥有碾压级的性价比优势,目前仅采用60核心、120线程设计的至强8490H售价就高达17000美元。不过需要注意的是,EPYC 9754的出现也并不意味着它可以替代EPYC 9654这样使用Zen 4核心,拥有更大L3缓存容量的第四代EPYC霄龙处理器。毕竟有部分应用如测试中的C-ray光线追踪也非常依赖处理器的缓存容量,在这些应用中,缓存容量更多的EPYC 9654这类处理器会有更好的表现。
总之,EPYC 9754、EPYC 9754S、EPYC 9734处理器的出现只是AMD进一步细分市场,削减了处理器缓存容量,拥有更多核心数量,专门针对云计算推出的产品,它们将和EPYC 9654、EPYC 9554等处理器,以及最新采用3D缓存技术的EPYC 9084X系列处理器,分别在云计算、数据中心、技术计算领域各显神通,为不同类型的企业级用户带来更高的工作效率,创造更多的价值。