文章作者/机构: Broadcom

A1 主要贡献

本文档介绍了可扩展以太网框架（Scale-Up Ethernet, SUE），旨在为基于以太网的XPU（如图形处理器GPU或各种定制机器学习加速器）横向扩展（Scale-Up）网络提供一个低延迟、高带宽的连接框架。随着机器学习和AI推理等工作负载的复杂性不断增加，对并行处理能力的需求也显著增长，将XPU集群扩展到机架或多机架级别成为必要。

核心问题与研究目标：
核心问题是如何高效地连接大规模XPU集群，以满足日益增长的AI工作负载需求。传统网络方案在带宽、延迟和实现效率方面面临挑战。研究目标是利用以太网技术的优势（高速链路、大容量交换机、成熟的生态系统），设计一个专为XPU间内存事务传输而优化的框架，即SUE。SUE旨在提供XPU之间的传输层和以太网数据链路层，以实现内存事务的高效移动。

主要创新点与特性：
1. 基于以太网的XPU互联：SUE利用以太网作为基础，提供了一个专为XPU Scale-Up设计的低延迟、高带宽连接方案。其主要部署模式为单交换机跳（single switch hop），也支持XPU之间的直接网状（mesh）连接。
2. 通用命令/响应机制：SUE提供了一个通用的命令/响应事务机制，可用于实现如put、get和原子操作等多种服务。XPU特定的操作和命令结构对SUE是透明的。
3. 机会性打包（Opportunistic Packing）：SUE的映射和打包层能将发往同一目的地的多个命令机会性地打包到一个SUE协议数据单元（PDU）中，以提高网络传输效率。
4. 两种排序模式：SUE提供两种排序模式：严格排序（strict ordering）模式下，同一虚拟通道（VC）上源和目的地之间的所有事务按序交付；无序（unordered）模式下，事务可在多个端口间进行负载均衡，不保证顺序。
5. 多层可靠性保障：SUE在数据包级别提供可靠性、数据完整性和加密。它利用链路层重传（LLR）和优先级流控（PFC）或基于信用的流控（CBFC）来提供无损服务。在此之上，SUE传输层还提供了在发生不可恢复错误时的重传机制。
6. SUE Lite简化版：为了实现更高效的面积和功耗，SUE提供了一个名为SUE Lite的简化版本。SUE Lite移除了SUE的可靠传输层和拥塞控制，转而依赖LLR来保证节点间的可靠性，从而将IP尺寸减小了高达50%。

A3 背景知识/关键Observation/设计原则

2.1 协议要求：背景

XPU并行性与传输协议需求。XPU中存在大量的并行性，其scale-up传输协议必须支持在多个平面上同时进行XPU到XPU的连接。为了实现功耗和面积效率，并且由于XPU到XPU的部署拓扑是受限的，因此采用了一个相对简单的传输协议。该传输协议需要为源XPU到目标XPU之间跨单个交换机跳的更高层数据的可靠交付提供保障。

Scale-up网络拓扑与挑战。Scale-up拓扑可以像scale-out网络一样，既是多平面（multi-plane）也是多轨道（multi-rail）的。为这类网络构建高效传输协议的关键部分是有效地在可用平面上进行数据负载均衡，并处理多对一（incast）流量模式，而不在网络中引起线头阻塞（head-of-line blocking）。

Scale-out网络的解决方案。在scale-out拓扑中，这是通过传输层显式包含多路径操作来实现的，目前在RoCEv2中通过NCCL等集合库中的QP扩展实现，以及在Ultra Ethernet Transport等协议中通过原生支持的报文喷洒（packet spraying）传输实现。为了处理incast流量模式，RoCEv2使用PFC，但在下一代传输协议中已弃用，以避免由线头阻塞引起的性能异常；取而代之的是使用报文裁剪（packet trimming），即网络通过优先将丢弃报文的头部转发到目的地来避免静默丢包。

Scale-up网络的不同权衡。将相同的解决方案应用于scale-up网络是不切实际的。Scale-up网络有不同的要求（更高的带宽、更低的RTT、更小的规模等），这导致了不同的设计权衡。

Scale-out方案的复杂性不适用于Scale-up。利用报文喷洒的Scale-out网络很复杂，因为它们必须支持网络重排序，这需要在发送方和接收方都进行每PSN和每路径的跟踪。这种复杂性对于scale-out网络避免冲突很有用，但对于scale-up网络则完全没有必要：在单层拓扑中，一个平面内的冲突不会出现。Scale-out网络中使用的裁剪和选择性重传方法对于大型网络非常有用，但它也很复杂，因为它需要报文跟踪位图和选择性确认，这些都增加了面积和成本。

Scale-up的带宽要求。Scale-up传输速度预计比scale-out速度大一个数量级。当前scale-out NIC支持的带宽是800Gbps，这意味着scale-up网络需要许多这样的NIC。这从面积和功耗的角度来看是具有挑战性的。

Scale-up网络的连接简化。最后，scale-up传输必须服务的所有端点（所有活动的XPU）都是预先知道的。连接可以在启动时静态设置，并且只要平面和目标XPU都处于活动状态，连接就会一直保持。这进一步简化了传输协议中的连接设置和扩展决策。

SUE的简化传输方案。一个更简单的解决方案是每个平面使用单路径传输。依赖无损操作可以实现一个更简单的传输，其中简单的“退回N步”（go-back-N）用于从不频繁的丢包中恢复，从而显著减小传输状态和简化发送/接收处理。为了进一步减少由损坏引起的丢包，当可用时将启用LLR（一种交换机功能，当接收方FCS校验和失败时重传报文）。

流控与拥塞控制。为了有效地支持go-back-N传输，网络将被配置为通过使用PFC或更新的CBFC来支持XPU之间的无损操作。为了避免触发流控及其导致的线头阻塞，端点应使用最先进的拥塞控制。

负载均衡。在每个XPU上使用多个网络接口意味着流量必须由外部模块（例如XPU）在这些接口之间进行负载均衡。当单个SUE实例提供多个端口时，该网络实例只能在无序模式下在其端口/平面上进行负载均衡。

负载均衡层。换句话说，负载均衡层必须将流量分散到其所有scale-up接口的所有平面上。这是在SUE之上完成的。

性能考虑。考虑到对近乎最优性能的需求，每平面传输必须以线速启动。在单层网络中唯一可能出现的性能问题是incast，即多个发送方同时向同一接收方发送数据。

2.2 SUE Lite 简化

SUE Lite的设计目标与实现。创建SUE Lite配置文件的目的是将SUE IP的大小减少高达50%。在SUE Lite中，SUE可靠传输层被移除，并使用LLR来提供节点之间的可靠性。由于移除了可靠传输层，拥塞控制也被移除。为了进一步减小尺寸，打包大小限制为1K字节，并且只有一个到XPU的信号接口。以太网端口（MAC/链路/PHY）的大小保持不变。SUE Lite堆栈如图4所示。SUE和SUE Lite配置文件之间的差异在表2中列出。

SUE与SUE Lite的对比。

A2 方法细节

3 SUE 接口

SUE实例的接口构成。每个SUE实例具有以下三个接口，如图5所示：
- XPU命令接口
- XPU管理接口
- 以太网接口

3.1 XPU 管理接口

管理接口功能。SUE使用一个AXI目标接口进行控制，提供寄存器访问。除了配置和状态功能外，该控制接口还可用于发送和接收数据包。XPU构建完整的数据包，SUE仅添加以太网FCS。这种传输是不可靠的，支持的速率最高可达每秒10K个数据包。

3.2 XPU 命令接口

命令接口的类型与实现。XPU到SUE的接口可以是以下类型之一：
- Wire Interface，使用信用的FIFO接口
- AXI4接口
选择哪种接口取决于具体的XPU。特定的XPU可能实现无法映射到AXI4接口的消息，从而需要一个更开放的、在XPU的NOC和SUE之间的定制接口。图5展示了SUE IP的两种不同实现。第一种是800G实现，具有单个800G接口连接XPU NOC和4x200G以太网MAC/Link/PHY。第二种是1.6T实现，具有4x400G接口连接XPU NOC和8x200G以太网MAC/Link/PHY。从XPU NOC到SUE的接口的具体配置由实现者决定。

3.2.1 XPU到SUE的FIFO接口

接口工作原理。XPU-SUE接口本质上是一个使用信用的FIFO接口。XPU将命令以及任何相关数据写入SUE。SUE基于每个{目的地, VC}和总速率，使用信用机制生成流控制。

XPU到SUE的信号。为启动数据传输，XPU通过命令接口向SUE发送表3中列出的信息。Input指的是从XPU到SUE的信号。

SUE到XPU的信号。当数据包到达时，SUE验证网络报头和SUE PDU。然后它解包并通过命令接口发送事务。表4列出了此接口上从SUE到XPU的信号。

3.2.2 XPU到SUE的AXI接口

AXI接口配置。SUE可以为每个400G以太网接口提供一个AXI4从设备接口和一个AXI4主设备接口。每个AXI接口支持AXI4规范中定义的5个独立通道（AW、W、B、AR和R通道）。

信用机制。每个主设备和从设备通道都与一个独立的信用接口相关联。信用接口将信用从接收方返回给发送方。信用环路用于防止下游缓冲区的溢出。

接口连接性。图7展示了SoC逻辑和SUE之间的AXI接口连接，以及相关的缓冲、功能和VC映射。

VC映射与缓冲。AXI事务包括请求（AR, AW, W事务）和响应（B, R事务）。请求映射到VC0，响应映射到VC1。如图所示，IP在接口处为每个AXI通道接口实例化了缓冲区（图中以VC0或VC1颜色编码）。这些缓冲区存储“解包”的AXI事务。接口缓冲区相对较小，与位于TX和RX数据路径内的较大“打包”数据缓冲区是分开的。AXI的USER位（AWUSER, BUSER, ARUSER, RUSER）用于携带xpu_id、类型和长度信息。

信用跟踪与事务对齐。如图7所示，SoC必须在SUE附近实例化每个通道的缓冲区。这使得缓冲区保持较浅且独立于SoC的架构和实现。从SUE接收事务的缓冲区（Master.AR, Master.AW, Master.W, Slave.B, Slave.R）在空间释放时向IP返回信用。向IP发送事务的缓冲区（Master.B, Master.R, Slave.AR, Slave.AW）跟踪可用信用——每发送一个事务就减少信用计数器，每返回一个信用就增加信用计数器。XPU到SUE的通道接口在SUE内部分为控制（写响应+读请求）和控制/数据（读响应/数据，写请求/写数据）。写请求和写数据使用独立的通道，但两个通道上的事务是配对的，并以相同的顺序到达（根据AXI4规范）。在内部，SUE在将这些配对的事务作为一个单元移动到TX数据路径之前，在两个接口缓冲区的头部对齐它们。

端到端事务流。图8展示了用于在两个XPU端点之间传输请求和相应响应事务的AXI接口。该图展示了写请求/响应流。读请求/响应遵循相同的流程，使用AR（读请求）通道和R（读数据）通道。在读操作的情况下，读请求通道映射到VC0，读数据通道映射到VC1。写响应是在反向流动的报文头中携带的ACK或NACK。

请求路径。源XPU SoC逻辑从其主设备向SUE从设备发出请求。该请求流经源SUE的发送数据路径、交换机、目标SUE的接收数据路径和AXI主设备接口，最终进入SoC的从设备接口。在此路径中，请求端到端使用VC0。

响应路径。响应沿相反方向流动，从目标SoC的AXI从设备开始，流经网络并进入源XPU。响应通过其主设备接口上的响应通道传回源SoC。

数据透明性。AXI接口上的位被分为AXI控制位和AXI数据位。这些分组内的字段对SUE大多是透明的。除少数例外，这些位被打包并传输到目的地，而不会被解释或消耗。

3.3 SUE 封装

打包与可靠性头。SUE机会性地将接收到的发往相同{目的地, VC}的事务打包，创建最大4096字节的SUE PDU。当调度传输时，一个可靠性报头（图9）被添加到打包PDU的头部，一个32位CRC（R-CRC）被添加到尾部以保证数据完整性。

可靠性报头（RH）字段。RH携带表5中列出并在图9中展示的字段。

3.4 SUE Lite 封装

SUE Lite封装格式。SUE Lite配置文件移除了SUE传输层。SUE Lite使用的唯一信息是目的地、源XPU地址和VC——这些都适合放在AFH Gen 2的6字节报头中。用于保护有效载荷的R-CRC也被移除以进一步优化开销。SUE Lite的封装如图10所示。SUE Lite机会性地将接收到的发往相同{目的地, VC}的事务打包，创建最大1K字节的SUE Lite PDU。

3.5 以太网接口

接口配置。SUE提供使用200G或100G SerDes速率的标准以太网接口。表6描述了一个具有800G XPU-SUE接口的800G SUE实例支持的配置。表7描述了一个具有4x400G XPU-SUE接口的1.6T SUE实例支持的配置。

表7：每个具有4x400G XPU到SUE接口的1.6T SUE实例的以太网端口示例

3.5.1 网络封装

封装方法。SUE使用目的XPU标识符xpuid和VC来构建网络报头。SUE可以通过以下方法之一转发内存事务：
- 标准以太网格式 - 以太网报头，IPv4/IPv6，UDP。
- AI转发报头Gen 1 (AFH Gen 1) - 一种第2层格式，保持现有的以太网MAC目的地址和源地址格式。报头可以使用MAC地址中较少的位数（16到32位）进行转发查找。Ethertype字段将数据包标识为AFH Gen 1。如果需要区分多个传输报头，可以向数据包添加第二个可选的Ethertype字段。
- AI转发报头Gen 2 (AFH Gen 2) - 一种更优化的第2层格式，其中转发信息减少到6或12字节。以太网目的地址和源地址中的剩余字节可用于用户定义的功能。Ethertype字段用于区分多个传输报头。

封装识别。当SUE使用标准以太网和IP报头时，SUE数据包由UDP端口号标识（图11）。当SUE使用AFH Gen 1时，SUE数据包由Ethertype字段标识（图12）。当SUE使用AFH Gen 2时，它基于IEEE 802.c-2017中的结构化本地地址计划（Structured Local Address Plan），该计划定义了两种选项：12B和6B报头。AFH格式减少了线路上的开销。

3.5.2 AI Fabric Header Gen 2

AFH Gen 2 特点。AFH Gen 2是一种优化的报头，与现有以太网标准对齐，以最小化更改同时提供更小的网络报头。基于IEEE 802.c-2017中的结构化本地地址计划，定义了两种选项：12B和6B报头。

地址编码。使用符合IEEE标准的管理分配标识符（Administratively Assigned Identifier）编码，如下所示，XPU标识符被映射为32位或16位的值，并填充在目的地址和源地址区域：
- M = 0/1 (多播)
- V = 0 (当前版本)
- W = 0 (带跳数和熵的正常格式)
- W = 1 (压缩格式，无跳数或熵)
- V = 1 (未来)
- X = 1 (本地分配)
- Y = Z = 0 (根据SLAP的AAI编码)

最终格式。AI Fabric报头的最终格式如图15所示。

3.5.3 AFH Gen 1

无Shim报头格式。AFH Gen 1使用标准的以太网MAC目的地址和源地址，但交换机硬件可以只查看地址的16到32位来执行转发决策。XPU-id被映射到一个16位的目的地址用于转发查找。要在非shim格式下实现流量的优先级映射，需要向帧中添加一个IEEE 802.1Q VLAN报头。无Shim报头的Gen 1格式如图16所示。

带Shim报头格式。AFH Gen 1格式还支持一个Shim报头，其中包含许多与IP报头类似的字段。Shim报头如图17所示。

3.5.4 FEC

低延迟FEC选项。具有较小FEC块大小的FEC选项可以实现更低的延迟。可以选择如RS-272等选项，而不是标准的IEEE RS-544。RS-272纠正的错误较少，但换来了延迟的改善。在400G和800G速度下，IEEE要求对FEC块进行交织。通过支持跨通道的非交织或较少交织的FEC块模式，可以降低延迟。

3.5.5 链路层重传 (LLR)

LLR的作用。LLR用于将可靠性提高到FEC之上，这样如果单个数据包损坏，它可以在对等设备之间重传，而无需等待事务的端点来确定数据包是否丢失或损坏。无论FEC如何，如果数据包因两个交换机之间的链路层错误而被丢弃且FEC无法纠正，LLR都将允许该数据包被重传。

3.5.6 优先级流控 (PFC)

PFC的功能。PFC用于以太网网络中，以提供因拥塞而产生的无损链路。PFC在IEEE 802.1Qbb中定义。PFC利用802.1Q报头中的IEEE 802.1P位（优先级）来对特定优先级进行流控，而不是像802.3x Pause那样对整个链路进行流控。SUE必须使用至少两个无损PFC类——一个用于请求，一个用于确认——这样请求就不会阻塞确认并导致死锁情况。许多PFC的实现可以使用IP报头中的DSCP值映射到IEEE 802.1P优先级值，如果数据包中没有IEEE 802.1Q报头。

3.5.7 基于信用的流控 (CBFC)

CBFC的优势。CBFC是Ultra Ethernet Consortium (UEC)标准化的一个特性，用于提供因拥塞而产生的无损链路。以下列表描述了CBFC相对于PFC的优势：
- 对于相同数量的缓冲区，CBFC可以支持比PFC更多的无损类。PFC提供8个类，而CBFC支持32个类。
- 发送方知道每个VC的信用使用情况，SUE可以利用此信息进行流量的调度和负载均衡。
- 对于相同的链路长度/延迟，CBFC允许比PFC使用更少的缓冲。

不同的CBFC类用于避免XPU和交换机之间的死锁。VC用于映射到CBFC类。

3.5.8 链路故障

链路状态与故障处理。SUE为其连接的所有以太网端口提供链路状态。在双端口或四端口配置下以无序模式运行时，SUE会确定远程XPU是否无法通过特定端口/平面访问。检测到此情况后，SUE会将相关工作转移到另一个端口。

4 SUE 操作

4.1 内存模型和语义

共享内存模型。SUE使用共享内存模型。地址转换（如果需要）由XPU在SUE实例之外处理。

支持的服务。SUE被定义为支持加载/存储（put, get, atomic）服务。源XPU发出一个命令，SUE将其连同相关数据一起交付给目标XPU，并向源XPU提供一个完成指示。

单边内存语义。SUE使用单边（one-sided）内存语义。每个命令都是从源单方面完成的，没有向目标提供指示。内存注册和管理，如保护域，都在SUE之外处理。SUE提供一个分区字段，可用于访问控制。类似技术的例子包括PCIe和UALink。单边内存事务由接收方确认为已到达——而不是数据已放入内存。

与网络语义的对比。这与RDMA over Converged Ethernet (RoCE)、InfiniBand和TCP/IP使用的网络语义形成对比。这些协议需要与远程XPU建立连接。

4.2 SUE 处理流程概述

SUE处理流程。图18展示了SUE的处理流程。

SUE处理流程遵循以下步骤：
1. XPU内核通过XPU命令接口向SUE发出一个命令。
2. SUE接受该操作，并将控制信息和数据（如果存在）打包到每个目的地的发送缓冲区中。缓冲区功能根据打包和流控状态（例如CBFC输入）确定何时应服务一个队列，并向调度器指示一个队列何时合格。
a. 控制信息的前几个字节是命令类型和长度。命令类型定义了要传送到目的地的控制信息的长度（以2B为单位）以及是否存在数据。如果存在数据，则定义数据长度。
b. 根据这两个长度，命令（控制和数据）被打包。
3. 调度器在VC之间提供加权轮询，并在VC内部基于到达顺序进行调度。
a. 当使用控制接口传输数据包时，它被合并到数据路径中。
4. 每个打包的命令组都被封装上一个可靠性报头，该报头根据{输出端口, 目的XPU}分配一个PSN。PSN被分配为单调递增的数字，每个数据包增加1。如果有ACK或NACK要发送，则会添加到RH中。在RH和打包操作上添加R-CRC以创建SUE PDU。
a. XPU之间在每个物理端口上都有一个连接；连接状态很紧凑，包括下一个期望的PSN和一些用于管理ACK和NACK的控制字段。
b. SUE在每个平面上提供有序交付。使用无损流量类和LLR极大地减少了丢包的可能性，但仍然可能发生。如果SUE确定发生了丢包事件，它将使用GoBackN进行恢复。
5. 一个网络报头被添加到SUE PDU上。目的XPU和VC用于查找所需的地址字段。
6. 以太网数据包被传输并到达目的地。
7. 执行以太网有效性检查，并且任何发往控制接口的数据包被解复用。
8. 以太网报头被验证，然后检查RH报头。如果收到了该{源XPU, VC}的期望PSN，则将PDU放入RX缓冲区并调度发送到XPU NOC。
a. 如果收到了一个意外的PSN，则向源发送一个NACK，并且来自该源的任何到达的数据包都将被丢弃，直到期望的PSN到达。
b. 当收到期望的PSN时，该数据包被确认。
9. RX缓冲区接收命令，然后这些命令被调度、解包并发送到XPU NOC。

4.3 SUE Lite 处理流程概述

SUE Lite处理流程。图19展示了SUE Lite的处理流程。

SUE Lite处理流程遵循以下步骤：
1. XPU内核通过XPU命令接口向SUE发出一个命令。
2. SUE Lite接受该操作，并将控制信息和数据（如果存在）打包到每个目的地的发送缓冲区中。XPU可以指示该操作应立即传输，无需等待其他操作。缓冲区功能根据打包和流控状态（例如CBFC输入）确定何时应服务一个队列，并通知调度器一个队列何时合格。
a. 控制信息的前几个字节是命令类型和长度。命令类型定义了要传送到目的地的控制信息的长度（以2B为单位）以及是否存在数据。如果存在数据，则定义数据长度。
3. 调度器在VC之间提供加权轮询，并在VC内部基于到达顺序进行调度。
a. 当使用控制接口传输数据包时，它被合并到数据路径中。
4. 每个打包的命令组被封装。
a. SUE Lite期望交换元件（如果存在）在每个平面上提供有序交付。使用无损流量类和LLR极大地减少了丢包的可能性。
5. 一个网络报头被添加到SUE Lite PDU上。目的XPU和VC用于查找所需的地址字段。
6. 以太网数据包被传输并到达目的地。
7. 执行以太网有效性检查，并且任何发往控制接口的数据包被解复用。
8. 验证以太网报头。
9. RX缓冲区接收命令，然后这些命令被调度、解包并发送到XPU NOC。

4.4 负载均衡

负载均衡机制。假设一个XPU会连接多个SUE实例。跨SUE实例的负载均衡可以在软件中处理，或者通过在XPU中包含一个硬件块来将操作分发到各个SUE模块。每个SUE实例提供拥塞状态以支持此选项。请参考图20。在SUE内部，当使用两个或更多端口时可以启用负载均衡。在这种情况下，SUE将根据可用带宽动态地将每个打包的操作组分配到一个端口。

4.5 打包

打包的触发与条件。XPU到SUE接口的速度比SUE到以太网接口的速度快。在多个VC上实现了流控制，以防止SUE中的缓冲区溢出。这种速度不匹配将导致事务在SUE的每个目的地队列中累积。SUE出站到以太网接口的调度器将遍历队列以寻找下一个要发送的事务。如果一个队列中有多个事务，SUE会将它们打包到出站的以太网数据包中。如果一个目的地队列只有一个事务，则该事务被发送。SUE不会为了打包而延迟事务。SUE将打包到一个预配置的限制（例如2K），然后发送事务，再移动到下一个合格的队列。

打包过程示例。在图21中，展示了打包过程。XPU向SUE发送事务A到E。这些事务在SUE内部按目的地排队。调度器是工作 conserving 的；调度器将在下一个可用的队列中传输事务。在这种情况下，下一个可用的队列是包含A的队列。传输A之后，调度器选择包含B的队列并传输它。然后调度器选择包含C的队列。事务E排队到相同的目的地，因此它们被打包到同一个帧中并发送。然后调度器选择包含D的队列并传输它。SUE不会等待一个队列累积事务到特定大小，而是机会性地将事务打包在一起，以优化线路上的数据包效率并最小化事务的延迟。

A4 实验环境

本文档为一份技术规范，未包含实验环境的具体描述。

A4 实验结果

本文档为一份技术规范，未包含实验结果与分析。

A5 结论

Scale-Up Ethernet (SUE) 框架是一个专为XPU横向扩展网络设计的、基于以太网的低延迟、高带宽连接解决方案。它通过提供通用的命令/响应事务机制、机会性打包、多层可靠性保障（包括SUE传输层和LLR）以及灵活的网络封装选项（如AFH），满足了现代AI和机器学习工作负载对高性能互连的迫切需求。此外，SUE Lite配置文件的提出，通过简化架构，在保持核心功能的同时显著降低了IP的面积和功耗，为不同应用场景提供了更具经济效益的选择。SUE旨在利用成熟的以太网生态系统，为构建高效、可扩展的XPU集群提供坚实的基础。

A6 附录

A.1 SUE 端到端单向延迟预算

延迟的重要性。多XPU共享内存系统的吞吐量由XPU通信的延迟决定。因此，最小化互连延迟至关重要。布线长度和类型、交换机延迟都是关键组成部分。图22说明了SUE系统中各个组件的延迟。

总延迟预算计算。
- 10米单模光纤: 100 + 100 + 49.6 + 49.6 + 250 = 549.2ns
- 10米空心光纤: 100 + 100 + 35.0 + 35.0 + 250 = 520ns
- 5米单模光纤: 100 + 100 + 24.8 + 24.8 + 250 = 499.6ns
- 5米空心光纤: 100 + 100 + 17.5 + 17.5 + 250 = 496ns
- 5米Twinax铜缆: 100 + 100 + 23 + 23 + 250 = 496ns
- 3米Twinax铜缆: 100 + 100 + 13.8 + 13.8 + 250 = 477.6 ns

Scale-Up Ethernet Framework Scale-Up Ethernet Framework Specification