今天分享的是:ODCC开放数据中心委员会:2025年ETH-X Scale Up互联协议白皮书V1.0
报告共计:103页
2025年ETH-X Scale Up互联协议白皮书核心总结
本白皮书由开放数据中心委员会(ODCC)发布,系统定义ETH-X Scale Up互联协议的技术规范与实现细节,聚焦超节点架构中跨GPU高效数据访问需求,为硬件开发者与系统架构师提供全维度技术指引,助力高性能计算与AI训练等场景的大规模GPU互联落地。
Scale Up互联面临多重核心需求与挑战。目标是协同多GPU、CPU算力及内存池,构建“超级GPU”式超节点,支持8-512卡规模互联,需适配直联与交换机互联两类拓扑,其中交换机互联依赖High Radix能力实现更大规模扩展。应用场景衍生两类核心语义需求:Direct Copy适配粗粒度连续数据传输,依赖专用拷贝引擎;Direct Access适配小粒度非连续访问,由算力引擎直接发起。同时需满足统一编址(UVA)与释放一致性内存模型,解决多GPU跨域同步问题,且面临事务保序、链路可靠性、流控优化等技术难点。
ETH-X协议栈采用分层架构,涵盖事务层、数据链路层、物理层及Die-to-Die互联层。事务层基于PAXI(Peer-to-Peer AXI)协议,实现GPU-GPU访存交互,支持AXI/APB接口,通过地址转译、TL Flit封装与端到端信用流控,保障事务有序传输,延迟可控制在150-170ns。数据链路层优化GPU-Switch互通,推出PRI帧格式压缩报文头部提升传输效率,引入LLR链路层重传机制增强可靠性,通过CBFC基于信用的流控与传统PFC协同,解决无损传输与拥塞控制问题,同时支持ECMP负载均衡与QoS调度。物理层遵循IEEE 802.3标准,支持50Gb/s-200Gb/s单通道速率及多速率接口,扩展前导码与控制码集适配链路层功能。
Die-to-Die互联采用IO芯粒解耦方案,基于UCIe标准实现计算芯粒与IO芯粒的灵活互联,支持PCIe、CXL及Streaming协议,降低跨工艺移植成本,提升技术迭代效率与带宽配置灵活性。IO芯粒需集成ETH-X全链路功能,涵盖语义支持与硬件增强能力。
未来协议将探索Scale Up与Scale Out网络融合,复用专用拷贝引擎降低组网成本;推动GNAI统一编程接口,抽象异构硬件API,简化上层框架适配。该协议通过分层优化与语义创新,有效破解大规模GPU互联的效率、可靠性与扩展性瓶颈,为高性能计算基础设施升级提供关键技术支撑。
以下为报告节选内容












