订阅
纠错
加入自媒体

谷歌云H4D解析:高性能CPU与网络技术

2025-04-14 14:54
芝能智芯
关注

芝能智芯出品

在高性能计算(HPC)领域,谷歌云通过其最新的H4D实例和基于NVIDIA Blackwell GPU的A4实例,展现了对传统科学计算市场的雄心。

H4D实例搭载AMD第五代“Turin” Epyc 9005处理器,提供高达12 TFLOPS的FP64性能,较前代实例性能提升显著,同时通过Titanium卸载引擎和Falcon传输层实现200 Gb/s的低延迟网络,优化了HPC工作负载的运行效率。

A4实例在FP8精度下可提供720 PFLOPS的AI计算能力,兼顾AI与HPC需求。谷歌目的是吸引预算有限的HPC中心,利用高性能CPU和网络技术,提供比传统采购更灵活的云端解决方案。

我们从H4D的技术架构、性能优势及市场定位两个维度,深入分析谷歌云如何通过硬件与网络创新突破HPC市场的预算与性能瓶颈,并探讨其对传统HPC生态的潜在影响。

Part 1

H4D实例的技术架构与创新

● 硬件核心:AMD Turin Epyc 9655处理器

H4D实例的核心是AMD第五代“Turin” Epyc 9005系列处理器,具体型号为双插槽配置的Epyc 9655,每颗处理器拥有96个Zen 5核心,共192个物理核心,同步多线程(SMT)被关闭以优化HPC性能。

这种设计避免了线程竞争对计算密集型任务的干扰,确保每个核心都能高效运行。

◎ 处理器性能:Epyc 9655采用Zen 5架构,与精简缓存的Zen 5c核心(如Epyc 9965)相比,其完整的L3缓存更适合缓存敏感的HPC应用,如流体力学(OpenFOAM)、分子动力学(GROMACS)和天气模拟(WRF)。

在高性能LINPACK(HPL)基准测试中,H4D实例实现12 TFLOPS的FP64性能,较前代C2D实例(基于Zen 3 Epyc,约2.4 TFLOPS)提升5倍,较C3D实例(基于Intel Sapphire Rapids,约6.7 TFLOPS)提升1.8倍。单核心性能在HPL测试中比Intel Golden Cove核心高约40%,凸显Zen 5在浮点运算上的优势。

◎ 内存与存储配置:H4D提供三种配置:720 GB主内存、1488 GB主内存,以及1488 GB内存搭配3.75 TB本地NVMe闪存。

高内存容量支持大规模数据集的快速访问,适合内存密集型任务,如天体物理模拟或基因组分析。本地闪存则为临时数据存储提供了高吞吐量,减少了对外部存储系统的依赖,提升了I/O效率。

● 网络技术:Titanium与Falcon的突破

H4D实例首次将谷歌的Titanium卸载引擎与HPC场景结合,通过200 Gb/s的Cloud RDMA网络实现低延迟通信,显著优化了分布式HPC任务的性能。

◎ Titanium卸载引擎:Titanium采用双阶段卸载架构:第一阶段从主机CPU卸载网络任务到网卡,第二阶段通过网卡内的中间处理器处理数据中心级存储和网络功能。

这种设计降低了主机CPU的网络开销,使更多计算资源专注于核心任务。相比传统ROCE v2,Titanium的Cloud RDMA通过硬件加速实现了更高的吞吐量和更低的延迟,特别适合需要频繁节点间通信的HPC应用。

◎ Falcon传输层:Falcon是谷歌新推出的硬件辅助传输层,将传输功能从软件移至网卡硬件,位于UDP/IP层之上,支持RDMA和NVM-Express协议。

Falcon与以太网和InfiniBand协议二进制兼容,无需重新编译即可运行传统HPC应用程序。这种兼容性对HPC中心至关重要,因为许多科学模拟代码依赖MPI(消息传递接口)等协议。

在OpenFOAM和STAR-CCM测试中,Falcon支持的Cloud RDMA显著提升了虚拟机间的通信效率,较传统以太网协议性能更优。

◎ 网络性能验证:在STREAM Triad测试中,H4D的内存带宽比C3D实例高约30%,显示出Turin芯片在数据密集型任务中的优势。

在分布式任务中(如GROMACS和WRF),Cloud RDMA和Falcon的协同作用使跨节点通信延迟降低约20%-30%,整体性能提升显著。例如,在WRF天气模拟中,H4D的运行时间较C3D缩短约40%,展现了网络优化的实际价值。

H4D在性能和效率上远超前代C2D和C3D实例。C2D基于AMD Zen 3架构,内存带宽和计算能力受限,而C3D虽采用Intel Sapphire Rapids,但核心数(88核)和单核性能逊于H4D。

● H4D在多种HPC工作负载中的表现尤为突出:

◎ 分子动力学(GROMACS):性能较C3D提升约50%。

◎ 流体力学(OpenFOAM):运行效率提升约45%。

◎ 天气模拟(WRF):性能提升约40%。

这些改进得益于H4D更高的核心密度、优化的内存带宽以及Titanium/Falcon网络的低延迟特性。

Part 2

谷歌云的HPC战略与市场影响

● 定位预算有限的HPC中心

HPC中心因预算限制通常倾向于自建x86集群,将服务器、交换机和存储成本分摊到4-5年甚至更长时间,相较于云租赁更具成本效益。然而,当任务具有时间敏感性或需要超大规模算力时,云服务的即时扩展能力成为关键优势。

谷歌通过H4D实例精准应对这一需求,针对尚未移植到GPU的传统HPC工作负载,提供高性能CPU实例。

◎ 成本效益分析:H4D的最终定价尚未公布,基于前代H3实例(88核Sapphire Rapids,HPL性能7.4 TFLOPS,每小时4.9236美元),推测H4D(192核,12 TFLOPS)的按需价格约为每小时7.8777美元,年租成本约69,056美元,每TFLOPS成本为5755美元。

相比之下,A3实例(单H100 GPU,FP64矢量性能33.5 TFLOPS)年租成本为96,963美元,每TFLOPS成本约2895美元(矢量)或1448美元(张量)。

A4实例(单B200 GPU,FP64性能40 TFLOPS)年租成本推测为193,923美元,每TFLOPS成本约4848美元。

H4D的单位算力成本虽高于GPU实例,但其1488 GB内存和3.75 TB本地存储更适合内存密集型HPC任务,且无需修改现有代码,降低了迁移成本。

◎ 灵活性与适用性:H4D的三种配置(720 GB、1488 GB、1488 GB+3.75 TB)为HPC中心提供了多样化选择。

预算有限的机构可选择低配版本以控制成本,而需要高吞吐量的用户可选择高配版本以满足复杂模拟需求。

云服务的按需扩展能力使HPC中心无需承担硬件维护和数据中心运营成本,尤其适合临时性或突发性任务,如地震模拟或基因组分析。

谷歌同步推出的A4和A4X实例基于NVIDIA Blackwell B200 GPU,分别提供72 PFLOPS(8块GPU)和720 PFLOPS(72块GPU)的FP8性能,较前代A3 Mega(H100 GPU)提升2.25倍。

A4X通过NVLink/NVSwitch支持MPI通信,天然适配HPC任务,如并行有限元分析。谷歌的战略是通过H4D覆盖传统CPU工作负载,同时以A4/A4X满足AI与HPC融合的需求。

例如,分子动力学可利用H4D的FP64性能,而机器学习驱动的材料模拟可借助A4的FP8算力。这种双线布局增强了谷歌云对HPC市场的吸引力。

在HPC云服务市场,谷歌云面临AWS和Azure的强劲竞争。AWS的EC2 Hpc6a实例(基于AMD Epyc)和Azure的HBv4系列(基于Genoa Epyc)在性能上与H4D相近,但谷歌在网络技术上的创新为其赋予了差异化优势。

Titanium和Falcon的低延迟和高兼容性降低了HPC应用的迁移门槛,可能吸引更多学术和研究机构。然而,HPC中心对云服务的接受度仍受预算和文化惯性的制约。谷歌需通过更有竞争力的定价和生态支持(如优化开源HPC工具链)进一步降低壁垒。

AMD CPU与NVIDIA GPU在FP64性能差距的缩小,反映了GPU设计对AI低精度计算的倾斜,而CPU在传统HPC中的主导地位短期内难以动摇。

谷歌通过H4D和A4的协同布局,不仅响应了HPC中心的现实需求,还为AI与HPC的融合铺平了道路。

长期来看,谷歌云的HPC战略可能推动更多机构从本地集群转向云端,加速科学研究的数字化转型。

小结

谷歌云通过H4D实例和A4实例的推出,展现了其在HPC市场的深远战略。H4D凭借AMD Turin Epyc 9655的12 TFLOPS性能、1488 GB内存容量及Titanium/Falcon网络的低延迟通信,为预算有限的HPC中心提供了高性价比的云端解决方案。

A4实例以720 PFLOPS的FP8算力兼顾AI与HPC需求,谷歌对混合计算场景的洞察。相较于AWS和Azure,谷歌在网络优化和兼容性上的创新为其赢得了竞争优势,但在定价和生态建设上仍需持续努力。

       原文标题 : 谷歌云H4D解析:高性能CPU与网络技术

声明: 本文由入驻维科号的作者撰写,观点仅代表作者本人,不代表OFweek立场。如有侵权或其他问题,请联系举报。

发表评论

0条评论,0人参与

请输入评论内容...

请输入评论/评论长度6~500个字

您提交的评论过于频繁,请输入验证码继续

暂无评论

暂无评论

    文章纠错
    x
    *文字标题:
    *纠错内容:
    联系邮箱:
    *验 证 码:

    粤公网安备 44030502002758号