网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里云Aegaeon系统亮相:token级调度让213块GPU完成1192块工作

2025-10-22来源:快讯编辑:瑞雪

阿里云与北京大学联合研发的GPU池化系统Aegaeon,在计算机系统领域顶会SOSP上引发行业震动。该系统通过创新性的资源调度技术,成功将英伟达GPU需求量降低82%,这项突破性成果背后,是对云计算资源利用效率的深度重构。

研究团队在阿里云Model Studio平台的运营中发现,17.7%的GPU资源被分配给仅处理1.35%请求的冷门模型,而这类长尾模型在779个统计样本中占比高达94.1%,平均每秒请求量不足0.2次。传统"一对一"的GPU分配模式导致两种极端现象:冷门模型GPU长期闲置,热门模型在突发流量时又因资源预留不足出现过载。

Aegaeon系统突破性地引入token级动态调度机制,在生成每个token时实时判断是否需要切换模型。这种"见缝插针"式的资源分配方式,使单个GPU可同时服务7个不同模型。通过组件复用技术减少80%的初始化开销,显式内存管理消除碎片化问题,配合细粒度KV缓存同步机制,将模型切换时间从数十秒压缩至1秒以内。

在16块H800 GPU组成的测试集群中,系统成功支撑了从60亿到720亿参数规模的模型服务。与ServerlessLLM、MuxServe等现有系统相比,Aegaeon的请求到达率提升2-2.5倍,有效吞吐量实现1.5至9倍增长。更关键的是,这套系统已在阿里云百炼平台完成三个月生产环境验证。

实际部署数据显示,系统服务47个不同规模模型(含28个18亿-70亿参数小模型和19个320亿-720亿参数大模型)期间,GPU利用率从13.3%-33.9%提升至48.1%,且未出现任何服务等级目标(SLO)违规或中断情况。这种资源利用效率的跃升,相当于在相同计算能力下可处理9倍于前的业务量。

从豆包到Cici:字节跳动AI海外布局加速,全球野心持续彰显
除了底层技术与软件,字节在硬件方面也推出了AI耳机等产品,此前还有市场消息称其将推出AI手机,尽管其否认了AI手机项目,但也透露出了字节在AI硬件方面的野心。 从豆包到Cici,字节跳动正在AI时代重构全球市…

2025-10-23

2025年10月小红书种草服务怎么选?十大优质公司助力品牌破局增长难题
68%的传统公司在小红书、抖音等新平台难以找到有效的增长路径,问题的核心在于“过程失控”与“结果无保障”。主理人红元帅凭借10年情绪理论研究与平台实战经验,确立了“情绪公司增长战略”这一核心方向,开启了从“内…

2025-10-23

OpenAI推出AI集成浏览器ChatGPT Atlas,AI赋能浏览器开启智能新篇章
不过,也有网友反馈表示,对于那些每天使用 ChatGPT或任何人工智能的人来说,Atlas这款浏览器提供的附加价值微乎其微,它的目的是吸引那些还没有每天接触人工智能的人,旨在降低门槛,并改善对ChatGPT…

2025-10-22

智驱广告新未来:亚马逊云科技AI赋能SHAREit Group全球精准投放
10月15日,全球数字内容服务和分发领域翘楚SHAREit Group(茄子科技)与亚马逊云科技在北京联合举办「智驱增长,洞见未来—AI广告创新研讨会」,深度研讨生成式AI在广告技术领域的落地实践提升广告全…

2025-10-22

河南发布首个互联网医院省级标准 推动医疗信息化建设迈上新台阶
近日,河南省市场监督管理局正式发布《互联网医院建设规范》(以下简称《规范》)。 该《规范》由河南省人民医院牵头,联合河南省肿瘤医院、河南省远程医疗诊治技术研发与应用工程研究中心、郑州大学第二附属医院等单位共同…

2025-10-22