网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里云UPN512技术架构白皮书:应对AI网络挑战,构建xPU扩展新方案

2025-10-12来源:快讯编辑:瑞雪

在人工智能技术迅猛发展的当下,大模型训练与推理对计算和内存的需求呈现出爆发式增长。为满足这一需求,AI集群纷纷借助高性能网络进行扩展,MoE架构、训推一体化以及xPU规模扩大等趋势,也对网络提出了全新的要求。在此背景下,阿里云网络基础设施团队撰写了一份白皮书,聚焦超高性能网络(UPN512)技术架构,旨在为构建大规模、高性能、高可靠、低成本且可扩展的xPU扩展系统提供切实可行的方案。

当前,xPU扩展系统在网络连接方面面临着诸多挑战。多数系统采用铜互连方式,虽然成本较低且稳定性尚可,但传输距离有限,在高密度机架设计时,会带来复杂度、可靠性和扩展性等方面的问题。而光互连虽被视为更大规模扩展网络的必然选择,却面临着成本高、可靠性存疑的困境,并且在高带宽通信场景下,计算开销较大。这些挑战严重制约了xPU扩展系统的发展,成为亟待解决的难题。

阿里云推出的UPN512架构,继承了高性能网络(HPN)的扩展网络设计原则,以“大规模、高性能、高可靠、低成本、可扩展”为设计目标。该架构采用了高基数以太网、LPO/NPO光互连以及单层交换设计等先进技术。与HPN相比,UPN512在GPU带宽、互连协议和互连规模上存在显著差异,并且能够与HPN共同组成高性能系统,为xPU扩展提供了更强大的网络支持。

在系统设计方面,UPN512的单层光解耦系统是其一大亮点。与AI机架紧密耦合的铜互连方式相比,单层光解耦系统采用全光互连技术,成功突破了距离限制,能够支持1K规模域。同时,其解耦设计降低了系统复杂度,提升了可靠性与灵活性,有效解决了铜互连在高密度机架设计中的诸多问题。在光互连方案上,UPN51512对可插拔光模块、高密度带宽光互连方案进行了深入分析,对比了LPO与NPO的适用场景、成本及稳定性,指出二者可互补选择,为不同需求的用户提供了多样化的解决方案。

在通信语义方面,UPN512基于ETH + 协议定义了三种低延迟通信语义,分别适用于不同的数据传输需求,进一步提升了网络通信的效率和灵活性。在网络内计算方面,UPN512通过在网络设备内执行计算加速集体通信,优化了对称与非对称集体通信流程,有效提升了数据传输效率,降低了计算资源消耗,为xPU扩展系统的高效运行提供了有力保障。

这份白皮书为AI基础设施中xPU扩展系统的发展指明了清晰的技术架构方向,提供了宝贵的实践参考,对于推动高性能网络技术在AI领域的广泛应用具有重要意义。随着AI技术的不断发展,相信UPN512架构将在更多场景中发挥重要作用,助力AI产业迈向新的高度。

阿里巴巴“通义”App升级更名“千问”,AI战略转向消费级市场新布局
根据官方消息,“千问”定位为阿里旗下最重要的大模型应用入口,其核心能力基于阿里自研的大模型体系Qwen(千问)。 分析人士指出,阿里此前在To B市场和模型研发侧拥有技术基础,但在消费端应用分发层面还未形成…

2025-11-15

Dexmal原力灵机获近10亿融资 阿里蔚来资本助力具身智能研发落地
IT之家 11 月 14 日消息,具身智能公司 Dexmal 原力灵机今日宣布完成数亿元 A+ 轮融资,阿里巴巴为独家投资方。IT之家注意到,该公司 A 轮融资由蔚来资本领投,洪泰基金、联想创投、锡创投和正…

2025-11-14

百度世界大会发布文心大模型5.0 参数量2.4万亿能力达全球领先
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13