赋能生成式人工智能与加速计算新时代

作者/机构:NVIDIA Corporation

A1 主要贡献

核心问题与研究目标
随着人工智能(AI)和大型语言模型(LLM)的快速发展,实现实时性能和可扩展性变得至关重要。各行各业对生成式AI解决方案的需求激增,推动了企业对处理日益增长的模型尺寸和复杂性的需求。大型语言模型(LLM)需要巨大的计算能力以实现实时性能,这同时也导致了更高的能源消耗,因为需要更多的内存、加速器和服务器来适应、训练和推理这些模型。

创新点与解决方案
为应对这些挑战,NVIDIA推出了Blackwell GPU架构。这是一款专为处理数据中心规模的生成式AI工作流而打造的全球最大GPU,其能效相较于上一代NVIDIA Hopper GPU提升了高达25倍。本文详细介绍了NVIDIA Blackwell的优势,包括新一代超级芯片Grace Blackwell GB200,以及新一代高性能HGX系统——NVIDIA HGX B200和NVIDIA HGX B100。

NVIDIA Blackwell产品旨在通过一系列创新(包括第二代Transformer引擎)来满足不断增长的AI模型尺寸和参数需求,使企业能够以可承受的经济成本使用和部署最先进的LLM。同时,Blackwell产品也开启了生成式AI模型的新纪元,支持具有实时性能的数万亿参数模型,这是在Blackwell创新出现之前无法实现的。


图 1. NVIDIA GB200 超级芯片,包含两块 Blackwell GPU 和一颗 Grace CPU

A2 方法细节

Blackwell架构的突破性进展
Blackwell架构为生成式AI和加速计算带来了突破性的进展。该架构引入了全新的第二代Transformer引擎,以及更快、更宽的NVIDIA® NVLink®互连技术,将数据中心推向一个新时代,其性能相比上一代架构实现了数量级的提升。


图 2. NVIDIA Blackwell 架构的技术突破

性能增强的机密计算技术
NVIDIA机密计算技术的进一步发展,提升了大规模实时生成式AI推理的安全性水平,且不影响性能。

全新解压缩引擎
NVIDIA Blackwell全新的解压缩引擎与Spark RAPIDS™库相结合,为数据分析应用提供了无与伦比的数据库性能。NVIDIA Blackwell的多项进步建立在数代加速计算技术之上,以无与伦比的性能、效率和规模定义了生成式AI的新篇章。

一种新型AI超级芯片

构建于2080亿晶体管之上的最大GPU
Blackwell采用为NVIDIA定制的台积电4NP工艺,集成了2080亿个晶体管,是NVIDIA Hopper GPU晶体管数量的2.5倍以上,使其成为有史以来最大的GPU。NVIDIA Blackwell在单颗芯片上实现了史上最高的20 PetaFLOPS计算能力。

双Die统一设计与NV-HBI高速互联
该架构通过将两个Die合并成一个单一、统一的GPU,从而能够集成大量的计算能力。这两个Die中的每一个都达到了光罩尺寸的极限,是当今所能制造的最大的Die。这两个Die通过一个10 TB/s的片间NVIDIA高带宽接口(NV-HBI)连接并统一,提供了一个完全一致、统一的GPU。

强大的生态系统支持
Blackwell架构远不止是一块具有高每秒浮点运算次数(FLOPS)计算速率的芯片。它持续建立并受益于NVIDIA丰富的开发工具生态系统、CUDA-X™库、超过四百万的开发者以及超过3000个应用程序,这些应用能够在数千个节点上扩展性能。

第二代Transformer引擎

技术组合加速LLM推理与训练
Blackwell引入了全新的第二代Transformer引擎。该引擎采用定制的Blackwell Tensor Core技术,结合TensorRT-LLM和Nemo框架的创新,以加速大型语言模型(LLM)和混合专家(MoE)模型的推理与训练。

针对MoE模型推理的优化
为了极大地提升大型MoE模型的推理速度,Blackwell Tensor Cores增加了新的精度格式,包括社区定义的微缩格式(microscaling formats),从而提供了高准确性和更大的吞吐量。Blackwell Transformer引擎利用先进的动态范围管理算法和称为微张量缩放(micro-tensor scaling)的细粒度缩放技术,来优化性能和准确性,并实现了FP4 AI。这使得Blackwell的FP4 Tensor Core性能翻倍,到HBM内存的参数带宽翻倍,并且每块GPU能支持的下一代模型尺寸也翻倍。

TensorRT-LLM的创新
TensorRT-LLM的创新,包括量化到4位精度以及带有专家并行映射的自定义内核,正在使当今的MoE模型能够以更少的硬件、更低的能耗和更低的成本进行实时推理,从而实现技术的普及。

针对训练的优化
在训练方面,第二代Transformer引擎与Nemo框架和Megatron-Core在新专家并行技术方面的创新协同工作,并结合其他并行技术和第五代NVLink,实现了前所未有的模型性能。更低精度的格式为进一步加速大规模训练开启了可能性。

赋能新一代AI模型
借助Blackwell第二代Transformer引擎,企业能够以可承受的经济成本使用和部署最先进的MoE模型,利用生成式AI的优势优化其业务。NVIDIA Blackwell使下一代MoE模型成为可能——支持超过10万亿参数规模模型的训练和实时推理。

高性能机密计算与安全AI

生成式AI在商业中的潜力与挑战
生成式AI为企业带来了巨大的潜力,其优势包括优化收入、提供商业洞察和辅助内容生成等。然而,对于需要使用可能受隐私法规约束或包含专有信息的私有数据进行训练的企业来说,采用生成式AI可能存在困难。

扩展至GPU的可信执行环境
NVIDIA机密计算能力将可信执行环境(TEE)从CPU扩展到了GPU。NVIDIA Blackwell上的机密计算旨在为LLM和其他敏感数据提供最快、最安全且可证明(基于证据)的保护。NVIDIA Blackwell在业界首次引入了支持TEE-I/O的GPU,同时通过支持TEE-I/O的主机以及NVLink上的内联保护(提供机密性与完整性),提供了性能最高的机密计算解决方案。

性能与安全性兼顾
Blackwell机密计算提供的吞吐量性能与非加密模式几乎相同。客户现在可以高效地保护即使是最大规模的模型,同时保护AI知识产权(IP),并安全地实现机密AI训练、推理和联邦学习。

实现GPU间的高效通信
释放百亿亿次级(exascale)计算和万亿参数AI模型的全部潜力,关键在于服务器集群内每个GPU之间需要快速、无缝的通信。第五代NVLink借助NVLink交换机ASIC及基于其构建的交换机,可扩展至多达576个GPU,从而加速万亿及数万亿参数AI模型的性能。第五代NVLink的性能是NVIDIA Hopper中第四代NVLink的两倍。虽然Blackwell GPU中的新NVLink也像Hopper GPU一样,在每个方向上使用两个高速差分对来构成单个链路,但NVIDIA Blackwell将每条链路的有效带宽在每个方向上翻倍至50 GB/s。

Blackwell GPU的NVLink带宽
Blackwell GPU包含18个第五代NVLink链路,提供总计1.8 TB/s的带宽,即每个方向900 GB/s。每个GPU 1.8TB/s的双向吞吐量是PCIe Gen5带宽的14倍以上,确保了当今最复杂的大型模型的高速通信。这相当于一个GPU在一小时内传输近七PB的数据,比18年连续播放4K电影的数据量还要多,或者说仅需11个Blackwell GPU就能处理整个互联网的带宽。

NVLink交换机与集群扩展
NVIDIA NVLink交换机在一个72-GPU NVLink域(NVL72)内实现了130TB/s的GPU带宽,用于模型并行,并通过新的NVIDIA可扩展分层聚合与归约协议(SHARP)™ FP8支持,将带宽效率提升了4倍。NVLink和NVLink交换机共同使用,支持将集群扩展到单个服务器之外,同时保持同样惊人的1.8 TB/s互连速度。使用NVLink交换机的多服务器集群能够平衡地扩展GPU通信与增加的计算能力,使得GB200 NVL72能够支持的GPU吞吐量是单个八GPU系统的9倍。

统一管理
NVLink交换机与NVIDIA统一结构管理器(UFM®)协同工作,为NVLink计算结构提供经过生产验证的管理。

解压缩引擎

加速数据分析与数据库工作流
传统上,数据分析和数据库工作流速度缓慢且繁琐,依赖CPU进行计算。加速数据科学可以显著提升端到端分析的性能,加快价值生成和洞察获取的时间,同时降低成本。包括Apache Spark在内的数据库在处理、加工和分析大量数据以进行数据分析方面扮演着关键角色。Blackwell全新的专用解压缩引擎能够以高达800GB/s的速度解压数据,并结合GB200中单个GPU的8TB/s HBM3e(高带宽内存)以及Grace CPU的高速NVLink-C2C(片间)互连,加速数据库查询的整个流程,从而在数据分析和数据科学领域实现最高性能。凭借对LZ4、Snappy和Deflate等最新压缩格式的支持,NVIDIA Blackwell在查询基准测试中的性能比CPU快18倍,比NVIDIA H100 Tensor Core GPU快6倍。


图 3. 使用解压缩引擎的 GB200 数据库连接查询

RAS引擎

智能弹性与故障预测
Blackwell架构通过专用的可靠性、可用性和可服务性(RAS)引擎增加了智能弹性,能够及早识别可能发生的潜在故障,从而最大限度地减少停机时间。NVIDIA基于AI的预测性管理功能持续监控硬件和软件中数千个数据点,以评估整体健康状况,预测并拦截停机和效率低下的根源。这构建了智能弹性,节省了时间、能源和计算成本。

故障诊断与主动维护
NVIDIA的RAS引擎提供深入的诊断信息,可以识别关注区域并规划维护。RAS引擎通过快速定位问题源头来减少周转时间,并通过促进有效修复来最小化停机时间。管理员可以灵活调整计算资源和最佳检查点策略,以促进大规模训练任务不间断进行。如果RAS引擎识别出需要更换组件,备用容量将被激活,以确保工作在性能下降最小的情况下按时完成。任何需要的硬件更换都可以被安排,以避免计划外停机。

NVIDIA GB200 超级芯片与 GB200 NVL72

GB200超级芯片的构成
NVIDIA GB200 Grace Blackwell超级芯片通过NVIDIA® NVLink®-C2C互连技术连接了两颗高性能NVIDIA Blackwell Tensor Core GPU和一颗NVIDIA Grace CPU,为两颗GPU提供了每秒900吉字节(GB/s)的双向带宽。

表 1. NVIDIA Blackwell GB200 规格


初步规格,可能会有变动。

表 2. GB200 NVL72 系统规格


初步规格,可能会有变动。


图 4. NVIDIA GB200 NVL72

GB200 NVL72集群设计
NVIDIA GB200 NVL72集群在一个机架级设计中连接了36个GB200超级芯片(36个Grace CPU和72个Blackwell GPU)。GB200 NVL72是一个液冷、机架规模的72-GPU NVLink域,可以作为一个单一的巨型GPU来运行,为万亿参数LLM推理提供比上一代快30倍的实时性能(参见图5)。

A4 实验环境

  • 模型与工作负载:
    • 大型语言模型: GPT-MoE-1.8T(1.8万亿参数混合专家模型),用于推理和训练性能测试。
    • 数据库: 基于TPC-H Q4查询衍生的数据库连接与聚合工作负载,使用Snappy/Deflate压缩。
    • 物理仿真:
      • Cadence SpectreX模拟器,用于模拟电路中的电压和电流。
      • Cadence Fidelity,一种大涡模拟(LES)求解器,用于计算流体动力学(CFD)模拟。
  • 硬件配置:
    • 测试平台:
      • NVIDIA GB200 NVL72(36个GB200超级芯片,共72个Blackwell GPU,液冷)。
      • NVIDIA HGX B200(8个B200 GPU,x86平台,风冷)。
      • NVIDIA HGX B100(8个B100 GPU,x86平台,风冷)。
      • 单GB200超级芯片中的单个GPU。
    • 对比平台:
      • NVIDIA HGX H100(8个H100 GPU,风冷)。
      • x86 CPU平台。
    • 网络配置:
      • GB200 NVL72集群使用800G InfiniBand网络。
      • HGX H100集群使用400G InfiniBand网络。
      • 内部互联采用第五代NVLink和NVLink交换机。
  • 软件配置:
    • AI框架与库: TensorRT-LLM, Nemo Framework, Megatron-Core。
    • 数据处理: Spark RAPIDS™。
    • 系统软件: NVIDIA Magnum IO™。
    • 开发生态: CUDA-X™库。

A4 实验结果

  • 下一代大型语言模型的实时推理:

    • 实验内容: 在GPT-MoE-1.8T模型上比较GB200 NVL72与H100的实时推理性能。
    • 实验结果: GB200 NVL72相比于同等数量GPU的H100系统,速度提升了30倍,同时总拥有成本(TCO)降低了25倍,能耗也降低了25倍。
    • 分析结论: 这一飞跃得益于新一代Tensor Cores引入的FP4等新精度,以及利用NVLink和液冷技术构建的单一巨型72-GPU机架,克服了通信瓶颈。


    图 5. GB200 使用第二代 Transformer 引擎在 1.8T GPT-MoE 模型上的实时推理性能

  • 新一代AI训练性能:

    • 实验内容: 比较GB200与NVIDIA Hopper GPU在GPT-MoE-1.8T等大型语言模型上的训练性能。
    • 实验结果: 借助更快的Transformer引擎和FP8精度,GB200的训练性能比Hopper GPU快4倍。这使得机架空间减少了9倍,TCO和能耗降低了3.5倍。
    • 分析结论: 性能提升归功于第五代NVLink(1.8 TB/s GPU互连和更大的72-GPU NVLink域)、InfiniBand网络和NVIDIA Magnum IO™软件的协同作用,确保了高效的可扩展性。


    图 6. GB200 使用 Transformer 引擎在 1.8T GPT-MoE 模型上的训练加速

  • 加速数据处理与物理仿真:

    • 实验内容: 在数据库查询、电路仿真(Cadence SpectreX)和计算流体动力学(Cadence Fidelity)等任务上比较GB200与CPU的性能。
    • 实验结果:
      • 数据库查询:GB200比CPU快18倍,能耗减少7倍,TCO降低5倍。
      • Cadence SpectreX模拟器:在GB200上运行比x86 CPU快13倍。
      • Cadence Fidelity CFD模拟:在GB200上运行比x86 CPU快22倍。
    • 分析结论: GB200紧密集成的CPU和GPU,结合高带宽NVLink-C2C和专用解压缩引擎,极大地加速了数据处理和工程设计与仿真工作流。
  • 可持续计算:

    • 实验内容: 比较GB200与H100风冷基础设施在处理万亿参数AI模型时,达到相同性能所需的TCO和能耗。
    • 实验结果: 相比H100风冷基础设施,GB200在实现同等性能时,可将TCO和能耗降低25倍。
    • 分析结论: 计算密度和功率的提升正在推动从风冷到液冷的转变。液冷技术不仅能提升机架性能,还能减少冷却用水量,并允许数据中心在更高的环境温度下运行,从而进一步降低能耗。


    图 7. 降低25倍的能耗和总拥有成本(TCO)

A7 补充细节

面向生成式AI的加速网络平台

高性能网络的重要性
GB200 NVL72作为一个单一、极其强大的计算单元,需要强大的网络来实现最佳的应用性能。

网络产品组合
通过与NVIDIA Quantum-X800 InfiniBand、Spectrum-X800 Ethernet和BlueField-3 DPU配对,GB200在大规模AI数据中心中提供了前所未有的性能、效率和安全性。

Quantum-X800 InfiniBand
Quantum-X800 InfiniBand构成了AI计算结构的基础,能够在一个两级胖树拓扑中扩展到超过10,000个GPU,比上一代NVIDIA Quantum-2高出5倍。

Spectrum-X800与BlueField-3 DPU
NVIDIA Spectrum-X800和BlueField-3 DPU平台用于在整个数据中心进行扩展,提供对数据的加速GPU访问、安全的云多租户环境以及高效的数据中心运营。

NVIDIA Blackwell HGX

HGX平台的扩展
NVIDIA Blackwell HGX B200和HGX B100包含了针对生成式AI、数据分析和高性能计算的同样突破性进展,并将HGX平台扩展至包含Blackwell GPU。

HGX B200
- 平台描述:一个基于八GPU B200基板的Blackwell x86平台,提供144 petaFLOPS的AI性能。
- 性能优势:为x86纵向扩展平台和基础设施提供了最佳性能(比HGX H100高15倍)和TCO(比HGX H100低12倍)。
- 功耗:每个GPU可配置高达1000瓦。

HGX B100
- 平台描述:一个基于八GPU B100基板的Blackwell x86平台,提供112 petaFLOPS的AI性能。
- 设计目标:作为首要的加速x86纵向扩展平台,设计用于最快的部署时间,并与现有的HGX H100基础设施实现直接替换兼容。
- 功耗:每个GPU可配置高达700瓦。

表 3. HGX B200 与 HGX B100 系统规格


初步规格,可能会有变动。所有 petaFLOPS 和 petaOPS 均为稀疏计算,FP64为稠密计算。

A5 结论

生成式AI已将计算推向一个新时代,其特点是AI模型拥有惊人的10万亿或更多参数。从2012年AlexNet以6000万参数开启AI热潮至今,模型复杂度在短短十多年间激增了超过16万倍。这些新模型如今能够发现癌症疗法、预测极端天气事件、自动化机器人进行工业检查,并在各行各业解锁新的经济机遇。然而,要充分发挥其潜力,模型训练所需的大量计算资源和时间构成了挑战。而新型超大LLM与实时推理的需求,又揭示了更多关于规模、部署和运营的复杂性。

NVIDIA Blackwell是一个划时代的平台,它具备有效训练和推理这些模型所需的算力和能效,是生成式AI时代的基础。Blackwell架构将被部署到万亿美元市场,并使这些庞大模型能够被实时、普及地使用。训练这些模型需要NVIDIA Blackwell提供的百亿亿次级(exaFLOPs)计算能力,而部署它们则需要数十个Blackwell GPU作为一个统一的GPU协同工作。