Increasing Data Center Efficiency by Optimizing GPU Utilization Session ID: S51297
Increasing Data Center Efficiency by Optimizing GPU Utilization Session ID: S51297
Milan Diebel, Sr Product Line Manager NVIDIA
Varun Nanda Kumar, Sr Product Manager NVIDIA
目录
演讲者
- Milan Diebel: NVIDIA 高级产品线经理
- Varun Nanda Kumar: NVIDIA 高级产品经理
议程
- NVIDIA 数据中心 GPU 上的工作负载
- 数据中心产品组合:Ada Lovelace 架构
- 产品可用性:OEM 和云端
NVIDIA 技术栈与数据中心平台
NVIDIA 技术栈概览
上图展示了 NVIDIA 从底层芯片到顶层 AI 应用框架的完整生态系统。
- 芯片 (Chips): GPU, CPU, DPU。
- 从云到边缘的机器人系统 (Cloud-to-Edge Datacenter-to-Robotic Systems): 包括 RTX, DGX, HGX, EGX, OVX, SuperPOD, AGX 等系统。
- 加速库 (Acceleration Libraries): 提供一系列优化的软件库,如 RAPIDS, Spark, cuDNN, TensorRT, Triton 等。
- 平台 (Platforms): 建立在库之上的三大平台:NVIDIA HPC, NVIDIA AI, NVIDIA OMNIVERSE。
- AI 应用框架 (AI Application Frameworks): 针对特定领域的框架,如 MONAI, MAXINE, NEMO, MERLIN, MORPHEUS, METROPOLIS, HOLOSCAN 等。
为实现最大灵活性的数据中心平台
该平台提供了灵活的 GPU 利用方式,从分区技术到多 GPU 解决方案。
- 数据中心产品组合: 核心产品包括 NVIDIA H100, L4, L40。
- 分区技术 (Partitioning Technologies):
- MIG (Multi-Instance GPU): 可将单个 GPU 划分为多个独立的实例(仅适用于 A100, H100, A30)。
- 使用 vGPU 进行虚拟化 (Virtualization with vGPU): 支持 GPU 虚拟化。
- 使用 CUDA MPS 的多进程 (Multi-Process with CUDA MPS): 允许多个 CUDA 进程共享单个 GPU。
- 多 GPU 和 SuperPOD 解决方案 (Multi-GPU & SuperPOD solutions):
- HGX: 高性能计算平台。
- OVX: 面向 Omniverse 和视觉计算的系统。
- EGX: 边缘计算平台。
- DGX SuperPOD: 用于大规模 AI 训练的超级计算集群。
OVX 和 Launchpad 上的新兴工作负载
本页展示了使用 NVIDIA RTX 的专业可视化用例。
- Omniverse 演示: 展示了工厂数字孪生的复杂模拟场景,可用于协作和规划。
- 生成式 AI 演示: 展示了利用 AI 进行内容创作,例如根据草图生成逼真的室内设计渲染图,以及生成全景风景图。
Ada Lovelace 架构与产品
本节将介绍 Ada Lovelace 架构。
Ada Lovelace GPU 交付通用价值
Ada Lovelace 架构通过新设计、高级功能和通用性为各类应用带来价值。
- 新架构 (New Architecture):
- 新的流式多处理器 (New Streaming Multiprocessor)
- 第四代 Tensor Cores
- 第三代 RT Cores
-
高级功能 (Advanced Features):
- DLSS 3
- 着色器执行重排序 (Shader Execution Reordering, SER)
- 硬件编解码,支持 AV1 编码 (Encode/Decode, AV1 Encode)
-
通用 GPU (Universal GPU):
- 适用于多种工作负载,包括 Omniverse、渲染、虚拟工作站、3D 图形、高性能计算 (HPC)、视频会议等。
Ada Lovelace 产品线
GTC2023 推出了两款基于 Ada Lovelace 架构的新产品:NVIDIA L4 和 L40。
-
NVIDIA L4 24GB:
- 定位: 最佳低功耗通用 GPU (AI + 图形 + 视频)
- 规格: 1-slot LP (薄型), 72W 功耗
- 特点: 紧凑通用、低功耗、适用于任何服务器、高密度视频流、边缘 AI 和 VDI。
-
NVIDIA L40 48GB:
- 定位: 速度最快的通用 GPU (AI + 图形 + 视频)
- 规格: 2-slot FHFL, 300W 功耗
- 特点: 最快的渲染和光线追踪、支持 Omniverse、FP32 HPC、生成式 AI、单 GPU AI 训练与推理、高端虚拟工作站。
性能分析
NVIDIA L40 视觉计算性能
该图表对比了 L40 与 A40 在最高性能 RTX 虚拟工作站场景下的相对性能。
- Omniverse (1080p 和 4k): 性能最高提升至 3.8 倍 (4k)。
- 渲染应用: 性能最高提升至 5.2 倍。
- SPECviewperf 2020: 性能最高提升至 1.7 倍。
NVIDIA L40 计算与视频性能
该图表对比了 L40 与 A40 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.6 倍。
- DL Inference: 性能最高提升至 1.5 倍。
- Video Streams: 性能最高提升至 3.7 倍。
NVIDIA L4 视觉计算性能
该图表对比了 L4 与 T4 在 Omniverse、云游戏和虚拟工作站场景下的相对性能。
- Omniverse (1080p): 性能最高提升至 4.0 倍。
- Cloud Gaming: 性能最高提升至 2.8 倍。
- SPECviewperf 2020: 性能最高提升至 1.7 倍。
NVIDIA L4 计算与视频性能
该图表对比了 L4 与 T4 在 HPC、深度学习推理和视频处理方面的相对性能。
- HPC: RTM: 性能最高提升至 1.4 倍。
- DL Inference (BERT Large <10ms Latency): 性能最高提升至 2.4 倍。
- Encode/Decode: 性能最高提升至 2.7 倍。
分数 vGPU 性能
此图展示了通过虚拟 GPU (vGPU) 提高利用率的情况。图表显示,在单个 L40 GPU 上通过 vGPU 划分出多个虚拟机 (VM) 时,所有 VM 的性能总和可以超过单个 VM 满负荷运行时的性能(即超过 100%),这表明 GPU 资源得到了更充分的利用。例如,使用 L40-12Q 配置文件(每个 VM 12GB 显存)运行 4 个 VM 时,总性能达到了 131%。
虚拟工作站市场细分
本页分析了如何通过部署新的 L4 和 L40 GPU 来提高数据中心效率,用更少的基础设施完成更多工作。
- 入门级虚拟工作站:
- 使用 L4 替代 T4,每美元性能提升 40%,每用户成本降低 27%。
-
中端虚拟工作站:
- 使用 L4 替代 A10,每美元性能提升 29%,每用户性能提升 24%。
-
高端虚拟工作站:
- 使用 L40 替代 A40,每美元性能提升 20%,每用户性能提升 58%。
数据中心效率与优化
为您的工作负载选择合适的GPU
该页面对比了 NVIDIA L4 和 NVIDIA L40 在四种不同工作负载场景下的适用性:
-
Omniverse 与渲染 (Omniverse & Rendering):
- NVIDIA L4: 适用于 1080P 分辨率。
- NVIDIA L40: 适用于 4K 分辨率。
-
深度学习推理与视频 (DL Inference & Video):
- NVIDIA L4: 适用于轻量级深度学习 (Light DL) 和重度视频处理 (Heavy Video)。
- NVIDIA L40: 适用于重度深度学习 (Heavy DL) 和轻量级视频处理 (Light Video)。
-
高性能计算 (HPC):
- NVIDIA L4: 适用于入门级 (Entry) HPC 任务。
- NVIDIA L40: 适用于中端 (Mid-Range) HPC 任务。
-
云游戏 (Cloud Gaming):
- NVIDIA L4: 适用于 Android/PC 平台,1080p/720p 分辨率。
- NVIDIA L40: 适用于 PC 平台,4K 分辨率。
理解数据中心效率
要全面理解数据中心的效率,需要从三个层面进行评估,从而发现节省成本的机会:
-
GPU 层面 (基础):
- 仅比较 GPU 本身的性能。例如,L40 相较于 T4,每美元性能 (Perf/$) 提升 1.8 倍。
- 这种评估方式无法正确体现 GPU 的全部价值。
-
服务器层面 (更好):
- 在服务器级别进行比较,包含服务器和托管成本。例如,一台包含 8x L40 的服务器与一台包含 4x T4 的服务器相比,每美元性能提升 4.5 倍。
- 这种评估方式能更好地突显 GPU 的完整价值。
-
数据中心层面 (最佳):
- 在整个数据中心的尺度上进行评估,考虑功率限制 (Power Limitation) 或电源使用效率 (PUE)、机架空间限制 (Rack Space Limitation) 以及预算限制 (Budget Limitation) 等综合因素。
GPU 提升数据中心效率
通过采用 GPU,数据中心可以实现巨大的总拥有成本 (TCO) 节省和能源足迹的减少。以一个 2MW 数据中心的人工智能视频服务为例:
-
CPU 服务器方案 (双路 Xeon 8362):
- 需要 1900 台 服务器。
- 总功耗 1700 kW。
- 3 年 TCO 为 2600 万美元。
-
L4 服务器方案 (每台服务器 8x L4):
- 仅需 16 台 服务器。
- 总功耗 23 kW。
- 3 年 TCO 仅 50 万美元。
对比结果:
- 每美元性能提升 50 倍。
- 节省 99% 的能源。
- 节省 2500 万美元 的成本。
注:测量性能基于 CV-CUDA 端到端视频流水线,包括预处理、解码、推理(Seqformer)、编码、后处理。NVIDIA L4 (TensorRT 8.6) 对比 CPU (Platinum 8362, OpenCV 4.7, PyT inference)。系统配置请参考图片底部详细说明。
产品可用性
本节将介绍 NVIDIA L4 和 L40 的可用性情况。
Google Cloud Platform 宣布提供 NVIDIA L4
Google Cloud Platform (GCP) 现已提供搭载 NVIDIA L4 GPU 的实例。下表列出了 g2-standard 实例类型的详细配置:
| Instance | GPU count | GPU Memory (GB) | vCPU | Default Memory (GB) | Custom Memory range* (GB) | Network BW (Gbps) | [Optional] Local SSD (GB) |
|---|---|---|---|---|---|---|---|
| g2-standard-4 | 1 | 24 | 4 | 16 | 16-32 | 10 | 375 |
| g2-standard-8 | 1 | 24 | 8 | 32 | 32-54 | 16 | 375 |
| g2-standard-12 | 1 | 24 | 12 | 48 | 48-54 | 16 | 375 |
| g2-standard-16 | 1 | 24 | 16 | 64 | 54-64 | 32 | 375 |
| g2-standard-24 | 2 | 48 | 24 | 96 | 96-108 | 32 | 750 |
| g2-standard-32 | 1 | 24 | 32 | 128 | 96-128 | 32 | 375 |
| g2-standard-48 | 4 | 96 | 48 | 192 | 196-216 | 50 | 1,500 |
| g2-standard-96 | 8 | 192 | 96 | 384 | 384-432 | 100 | 3,000 |
可用区域: us-central1 (Iowa), asia-southeast1 (Singapore), europe-west4 (Netherlands)。
在云端加速您的工作负载
各大主流云服务提供商均提供了丰富的 NVIDIA GPU 实例来加速不同类型的工作负载。
-
工作负载类型:
- 左侧: 大型/复杂 CAD 模型、渲染、PLM、视频编辑、3D 医学成像重建、视频流、云游戏。
- 中间: 计算机视觉、视频会议、AR/VR 特效、推荐系统、对话式 AI。
- 右侧: 大规模深度学习训练、HPC 与数据科学、大规模推荐模型、自然语言处理、聊天机器人。
-
云平台 GPU 选项 (部分列举):
- AWS: NVIDIA T4 (EC2 G4dn), A10G (EC2 G5), T4G (EC2 G5g), V100 (EC2 P3), A100 (EC2 P4)。
- Microsoft Azure: NVIDIA A10 (GPU-P) (Azure NV A10 v5), T4 (Azure NC T4 v3), V100 (Azure NCv3), A100 (Azure ND A100 v4)。
- Google Cloud: NVIDIA L4 (GCP), T4 (GCP T4), V100 (GCP V100), A100 (GCP A100)。
- Oracle Cloud: NVIDIA A10 (VM.GPU1.X), V100 (VM.GPU3.X), A100 (BM.GPU4.X)。
NVIDIA L4 在 Google Cloud 上被特别标注,是本次介绍的重点。
NVIDIA L4 和 NVIDIA L40 OEM 可用性
来自 20 多家合作伙伴的 120 款系统现已支持 NVIDIA L4 和 L40 GPU。
主要 OEM 合作伙伴及其支持的服务器型号包括:
-
Dell Technologies:
- Dell PowerEdge R750/R750xa, R760/R760xa, R7525/R7625
-
Hewlett Packard Enterprise:
- HPE ProLiant DL380 Gen11/DL380a Gen11, DL385 Gen11
-
Lenovo:
- Lenovo ThinkSystem SR650 V2/V3, SR670 V2, SR675 V3, SR665 V3
-
其他合作伙伴:
- Supermicro
- GIGABYTE
- QCT
总结
通过优化 GPU 利用率来提高数据中心效率,核心要点如下:
- Ada Lovelace 性能飞跃 (Ada Lovelace Performance Leap): 新架构带来了显著的性能提升。
- 选择正确的 GPU (Selecting the Right GPU): 根据具体工作负载在 NVIDIA L4 和 NVIDIA L40 之间做出选择。
- 优化数据中心 (Optimizing the Data Center): 在数据中心层面进行系统性优化,以实现最大化的效率和成本节约。
推荐会议
特色演讲 (FEATURED TALKS)
-
在金融应用中使用 NVIDIA GPU:不仅仅是机器学习应用 [SS2211]
- 主讲人:Manvender Rawat (NVIDIA), Justin Murray (VMware), Richard Hayden (JP Morgan Chase)
- 时间:Monday, March 20 | 10:00 AM – 10:50 AM PDT
-
通过 GPU 加速的 VDI 按需优化“无限学习” [S51353]
- 主讲人:George O'Toole (Dell), Julian Erber (Parkway Schools)
- 时间:Thursday, March 23 | 7:00 AM – 7:25 AM PDT
-
通过优化 GPU 利用率提高数据中心效率 [S51297]
- 主讲人:Milan Diebel (NVIDIA), Varun Nanda Kumar (NVIDIA)
- 时间:Wednesday, March 22 | 1:00 PM – 1:50 PM PDT
-
在虚拟化环境中使用 GPU 调整机器学习和 HPC 工作负载性能 [S51670]
- 主讲人:Uday Kurkure (VMware), Lan Vu (VMware), Manvender Rawat (NVIDIA)
- 时间:Thursday, March 23 | 11:00 AM – 11:50 AM PDT
-
如何在企业中交付高保真虚拟世界 [S51510]
- 主讲人:Matt Coppinger (VMware), Rene Peters (NVIDIA)
- 时间:Thursday, March 23 | 10:00 AM – 10:25 AM PDT