随着光收发器在带宽、能效和集成度方面的不断进步,其影响范围已从数据中心网络扩展到人工智能系统本身的架构。如今,向光互连的过渡不仅受带宽需求的驱动,更受到电控SerDes扩展性、系统功耗预算和物理架构限制之间日益增长的矛盾的影响。
要了解这种转变是如何展开的,首先区分规模化结构和人工智能系统中的连接性是很有用的。
纵向扩展与横向扩展,以及Serdes挑战
纵向扩展是指在紧密耦合的系统(例如单个服务器或加速器域)中最大限度地提高性能。其目标是在保持极低延迟和高度同步的同时,聚合更多的计算、内存和带宽。
从物理层面来看,可扩展网络架构的传输距离较短,通常位于服务器内部或单个机架内,距离往往远小于十米。在这个领域,高速铜缆互连仍然占据主导地位,并由成熟的电串行器/解串器 (SerDes) 和协议(例如 NVlink)以及新兴的开放式替代方案提供支持。
相比之下,横向扩展将工作负载分配到多个服务器上,以提高系统总吞吐量。一旦通信范围超出机架或机架行,光互连就变得至关重要。因此,以太网和 InfiniBand 构成了当今大规模 AI 集群的骨干网络,能够在数十米到数百米的距离内实现高带宽、高能效的通信。
一个简化的AI加速器架构展示了这两个领域如何共存。在计算层,加速器通过高带宽铜缆链路向上连接到L1计算交换机。这些是典型的纵向扩展连接:短距离、高密度,并针对以最小延迟传输海量数据进行了优化。L1交换机之间也通过铜缆互连,形成一个紧密耦合的网络结构,使得多个加速器在软件层面上几乎可以像一个大型设备一样运行。
随着流量向上层级传输,它会汇聚到与更广泛的数据中心网络连接的二层网络交换机。在这个层级,光插拔设备占据主导地位,因为系统必须支持更远的传输距离、更高的端口数量以及可扩展的带宽增长。
这两个领域面临的日益严峻的挑战是,尽管电信号串扰器(SerDes)仍在不断发展,但其系统层面的限制却日益增多。在硅芯片上,SerDes 的容量持续从 112G 扩展到 224G PAM4 及更高。然而,随着数据速率的提升,包括封装、基板、PCB 走线、连接器和电缆在内的电气通道逐渐成为瓶颈。为了在远距离传输中保持信号完整性,需要越来越强大的均衡和数字信号处理(DSP)能力,这会导致每比特功耗增加,并增加热负载。
对于拥有数千条SerDes通道的大型AI交换机和加速器架构而言,即使每比特能耗略有增加,也会在机架层面转化为数百瓦的功耗。因此,SerDes不再仅仅是电路层面的问题,而已成为首要的架构限制因素。
共封装光学元件 (CPO)——它扮演什么角色?
正是在这里,光学器件,特别是共封装光学器件(CPO),开始重塑系统设计。
根据IDTechEx发布的报告所说,人工智能系统架构的中短期演进将是渐进式的,而非颠覆性的。只要链路保持短、可控且节能,铜在规模化扩展领域仍然非常有效。领先的平台,尤其是NVIDIA等公司,继续大力推广铜在规模化扩展架构中的应用,理由是铜具有低延迟、成本优势,以及至关重要的规模化可靠性。从这个角度来看,在紧耦合的GPU架构中,光器件目前还无法完全替代铜。
相反,最直接的压力点在于网络交换层。
如今的横向扩展连接依赖于安装在交换机前面板上的可插拔光模块。然而,随着交换机ASIC带宽从每秒几十太比特提升到几百太比特,这种可插拔模式在功耗、信号完整性和前面板密度方面面临着日益严峻的挑战。一旦链路必须经过通往前面板的长距离电路,简单地将SerDes扩展到更高的数据速率就会变得越来越低效。
CPO 通过将光引擎放置在更靠近交换机 ASIC 的位置(通常位于同一封装内)来解决这个问题。通过大幅缩短电气路径,CPO 降低了 I/O 功耗,提高了信号完整性,并实现了更高的总带宽扩展,而无需依赖日益复杂的电气通道。实际上,光模块解决了传输距离的问题,而电 SerDes 则被限制在其最高效的工作范围内。
![]()
这种选择性部署策略与不同行业参与者对光链路应用的看法相符。尽管NVIDIA在规模化部署方面仍然坚持铜缆优先,但很明显,包括CPO在内的光链路在网络架构扩展中发挥着至关重要的作用。而其他厂商,例如Marvell和Broadcom,似乎更愿意在规模化部署架构中引入光链路。
从长远来看,纵向扩展和横向扩展之间的界限本身可能会变得不再那么泾渭分明。随着每个逻辑节点上的加速器数量增加,系统物理尺寸增大,即使基于铜的纵向扩展架构在电气性能上仍然可行,它们也将面临来自功率密度、气流和布线复杂性的日益增长的压力。在这种情况下,光纤I/O也可能开始在纵向扩展中发挥作用,尤其是在推理优化架构中,每瓦吞吐量比超低延迟更为重要。
要点总结
关键在于,光器件不会立即完全取代铜线。相反,人工智能系统架构正通过务实的分工不断演进:在延迟和可靠性至关重要且传输距离较短的场景下,铜线仍然占据主导地位;而在电控SerDes扩展与功耗、传输距离和密度限制相冲突的场景下,光器件则得以扩展。光器件的共封装是这一演进过程中的一个关键转折点,它并非取代SerDes,而是将其封装在最佳的物理和经济范围内。
客服热线:










