Meta和Oracle采用英伟达Spectrum-X:以太网进入大型AI工厂时代
创始人
2025-10-14 22:05:54
0

在今年的开放计算项目峰会上,英伟达公司朝着将数据中心重新定义为大型人工智能工厂的目标又迈出了重要一步。

该公司宣布,Meta平台公司和甲骨文公司将采用其Spectrum-X以太网网络平台,这是一个专为AI工作负载设计的定制系统,能够将数百万个图形处理器连接成一个统一的网络结构。

对于Meta和甲骨文来说,这不仅仅是网络升级,而是对AI规模计算新架构或AI工厂的押注。对于整个行业来说,这标志着一个明确的转变:以太网不再是"足够好"的AI解决方案,而是正在为AI重新发明。

Spectrum-X:专为AI工作负载而生

与为AI改装的传统以太网解决方案不同,英伟达Spectrum-X从底层设计就是为了处理大规模AI工作负载的通信模式——大规模全对全GPU同步、低延迟消息传递和拥塞易发流量。

正如我在AI工厂系列节目中讨论的那样,Spectrum-X代表了专门构建的网络堆栈,通过消除瓶颈、最大化GPU利用率并支持数据中心内部和千兆规模跨数据中心部署来加速生成式AI。

这种专门构建的方法是英伟达在大规模释放性能提升的路径。该公司声称,与传统以太网相比,AI通信的网络性能提高了1.6倍——这一飞跃直接转化为更少的GPU空闲时间和训练推理期间更高的吞吐量。

Meta的开放网络获得AI加速层

Meta将Spectrum-X集成到其Facebook开放交换系统(FBOSS)和Minipack3N交换机中,标志着开放网络的关键时刻。它将Meta的开放硬件和软件理念扩展到AI基础设施层——现在作为针对万亿参数模型时代调优的加速骨干网服务。

正如Meta网络工程副总裁Gaya Nagarajan所说:"Meta的下一代AI基础设施需要行业前所未见规模的开放高效网络。"

通过将Spectrum-X以太网与FBOSS合并,Meta正在将开放可编程控制平面与AI优化的物理基础设施配对。结果是可预测、无拥塞的性能,同时保持Meta分解网络模型的灵活性。

甲骨文的千兆规模AI工厂

甲骨文云基础设施采用了互补方法——规模化。甲骨文正在使用Spectrum-X构建由即将推出的英伟达Vera Rubin架构驱动的千兆规模AI工厂。

甲骨文云基础设施执行副总裁Mahesh Thiagarajan说:"通过采用Spectrum-X以太网,我们可以以突破性效率互连数百万GPU。"

这表明甲骨文有意在AI计算领域与最大的超大规模厂商直接竞争,构建能够进行大规模训练任务的全球分布式AI工厂。Spectrum-X的跨规模能力(SpectrumXGS)允许甲骨文将多个数据中心的集群——甚至跨国家——连接成一个逻辑AI系统。这是一个没有物理边界的AI愿景。

深入了解:Spectrum-X的重要性

从我的角度来看,Spectrum-X架构的细节解释了为什么Meta和甲骨文都将其标准化:

集成硬件堆栈:Spectrum-X将Spectrum4以太网交换机(提供每秒51.2太比特的吞吐量)与BlueField-3超级网卡和DPU相结合,后者卸载和保护网络服务,让GPU能够纯粹专注于计算。

更高的网络性能:通过提供大约1.6倍更好的有效性能,Spectrum-X减少了GPU空闲时间——这对训练大型模型时的成本效率至关重要。

先进的遥测和路由:端到端可见性、自适应路由和拥塞控制动态调整数据包流,防止AI工作负载中常见的"象流"瓶颈。

高速RDMA和多租户:BlueField-3支持每秒400千兆位的融合以太网RDMA——实现更快的GPU到GPU通信和安全的多租户环境。

千兆规模扩展(SpectrumXGS):SpectrumXGS将网络扩展到单个数据中心之外,实现具有一致性能的多站点AI超级工厂——真正的分布式AI系统基础。

软件生态系统集成:Spectrum-X是英伟达全栈战略的一部分——与DOCA、Cumulus Linux、Pure SONiC、NetQ、AI Enterprise和AI Workbench集成,用于开发、部署和运营可见性。

结果是为AI提供了端到端网络解决方案,既提供高性能又提供运营简便性。如果有效部署,它可以降低总拥有成本,同时增加昂贵GPU资产的投资回报率。

网络成为AI工厂的新操作系统

正如我在AI工厂报道中所论述的,网络已悄然成为AI时代的实际操作系统。今天的AI应用比以往任何时候都更加数据饥渴,GPU的能力也大大增强——但只有当数据高效移动时,它们的潜力才能实现。网络现在既是推动者也是瓶颈。

行业共识正在围绕新现实形成:AI的性能前沿已从计算转向连接。网络发挥着操作系统曾经发挥的相同集成作用——跨云、边缘和数据中心编排、调度和同步分布式资源。

在这种新范式中,网络是AI工厂的控制平面——将计算、存储和数据绑定到一个智能系统中的连接组织。这也解释了为什么推理而不仅仅是训练正在推动架构演进。正如Shekar Ayyar和其他人指出的,推理发生在需要能够理解延迟、拥塞和工作负载局部性的AI感知网络的分布式环境中。

这种转变需要从核心数据中心延伸到边缘的自适应、可编程和可观察的网络结构。网络现在支撑着混合AI部署的可观察性、安全性和编排,确保模型和智能体能够在各种环境中可预测地运行。

简而言之,网络正在成为AI工厂的神经系统——编排计算、实现数据移动性,并将数据中心转变为活跃的分布式智能有机体。

我的观点:AI的工业化

英伟达、Meta和甲骨文共同发出的信号是,我们已经进入了AI基础设施的工业化阶段。

英伟达首席执行官黄仁勋说得最好:"万亿参数模型正在将数据中心转变为千兆规模的AI工厂...Spectrum-X是AI工厂的神经系统。"

Meta的集成展示了开放网络如何与AI加速相结合,而甲骨文的采用强调了大型AI工厂作为新超大规模的兴起。两者都指向一个世界,网络设计成为AI未来的战略杠杆——通往超级智能的道路由性能、成本和能源效率决定。

市场影响

Meta和甲骨文对Spectrum-X的采用验证了一个重大架构拐点:AI不再受计算和能源约束——现在受网络约束。

通过Spectrum-X,英伟达正在将以太网重新定义为AI以太网——一个完全仪表化、GPU感知、无拥塞的数据结构,能够跨地理扩展。这是将集群转变为连接的AI超级计算机和大规模AI工厂的缺失部分。

这一举措将英伟达置于新大规模计算堆栈的中心——从硅到系统再到全球AI网络。对于Meta和甲骨文等超大规模厂商来说,信息很明确:AI性能现在从网络开始。

正如我一年多来一直在说的:网络就是计算机——网络是AI工厂的操作系统。

Q&A

Q1:Spectrum-X是什么?它有什么特点?

A:Spectrum-X是英伟达公司专门为AI工作负载设计的以太网网络平台,能够将数百万个图形处理器连接成统一网络结构。它从底层设计就是为了处理大规模AI工作负载的通信模式,与传统以太网相比,AI通信的网络性能提高了1.6倍。

Q2:为什么Meta和甲骨文要采用Spectrum-X?

A:对于Meta来说,Spectrum-X能够与其开放网络架构FBOSS集成,提供可预测、无拥塞的性能。对于甲骨文来说,Spectrum-X能够帮助构建千兆规模AI工厂,将多个数据中心甚至跨国家的集群连接成一个逻辑AI系统,实现大规模AI训练任务。

Q3:网络在AI发展中起什么作用?

A:网络已经成为AI时代的实际操作系统,发挥着集成作用——跨云、边缘和数据中心编排、调度和同步分布式资源。AI的性能前沿已从计算转向连接,网络既是推动者也是瓶颈,是AI工厂的控制平面和神经系统。

相关内容

热门资讯

A股银行IPO仅剩五家候场:东... 蓝鲸新闻10月14日讯(记者 金磊)近日,深交所发行上市审核信息公开网站披露,东莞银行股份有限公司、...
法庭文件曝光:美国曾施压荷兰,... 【文/观察者网 王一】在中美博弈之际,荷兰政府近日突然下令,要求中国半导体领军企业闻泰科技旗下子公司...
币圈丽盈:2025.10.15... 币圈丽盈:10.15比特币最新行情分析 文章发布时间2025.10.15------00点10分 比...
海量财经丨优迅股份IPO再次上... 海报新闻记者 刘敬怡 报道 据上交所网站,距9月19日厦门优迅芯片股份有限公司(以下简称“优迅股份”...
IPO雷达|健信超导上会倒计时... 深圳商报·读创客户端记者 宁可坚 10月14日,上交所官网显示,宁波健信超导科技股份有限公司(简称“...
接近官宣!国足新帅最大热门浮现... 中国男足的未来走向再次成为球迷和媒体关注的焦点。随着波兰籍教练切斯瓦夫·米赫涅维奇的名字不断被提及,...
广东全运男篮热身赛大胜 胡明轩... 北京时间10月14日消息,在今晚结束的一场热身赛中,广东全运男篮以101-73击败澳洲维多利亚男篮。...
本轮巴以冲突已致加沙地带679... 当地时间10月14日,据加沙地带卫生部门统计,自2023年10月7日新一轮巴以冲突爆发以来,以色列在...
昂瑞微IPO将上会:上半年遭客... 上交所网站披露,2025年10月15日,北京昂瑞微电子技术股份有限公司(简称“昂瑞微”)科创板IPO...
IPO雷达|中环洁回复北交所二... 深圳商报·读创客户端记者 马强 据北交所官网,10月13日,中环洁集团股份有限公司(下称“中环洁”)...