小米近日宣布,其MiMo-V2.5系列API完成永久性价格调整,最高降幅达99%,且不限制输入长度。这一举措的背后,是该团队在推理系统全链路优化方面的重大突破,通过Hybrid SWA+MoE+多模态复合架构的创新应用,实现了推理成本的大幅下降。
大模型推理过程中,KVCache管理是核心挑战。传统方案中,模型生成每个token时需将全部历史上下文以键值对形式缓存在GPU显存中,导致上下文越长,缓存需求越大,推理成本越高。MiMo-V2.5-Pro通过架构创新破解这一难题:在70层Transformer中,仅10层采用Full Attention,其余60层使用滑动窗口大小为128 token的Sliding Window Attention。这种设计使KVCache存储需求降至全Full Attention方案的约1/7,Prefill阶段计算成本同步降低,Decode阶段延迟与KVCache读取量正相关,长序列场景下推理成本优势尤为显著。
工程实现层面,团队面临三大核心挑战:如何让缓存管理系统真正适配Hybrid SWA特性?如何提升缓存复用率?如何优化调度策略实现算力高效利用?针对这些问题,研发团队实施了系统性改造:将KVCache拆分为Full KV Pool与SWA KV Pool双池架构,前者按需增长,后者采用环形缓冲区设计,严格限制存储规模;重构前缀缓存树匹配规则,引入"窗口安全长度"概念,确保SWA模式下缓存命中的准确性;自研GCache三级缓存系统,支持GPU显存、CPU内存和NVMe SSD自动流转,通过RDMA通信实现170GB/s读吞吐和280μs延迟,在零额外存储成本下将缓存命中率提升至93%以上。
调度策略优化方面,团队在Router侧实现KVCache亲和调度,优先处理已缓存前缀的请求,同时引入计算量感知机制,使L2缓存命中率提升25%,TTFT P90降低30%。Prefill链路通过缩减Expert Parallelism至原先1/2,结合三级长度分桶策略,使端到端性能提升40%。Decode阶段则通过显存扩容和MTP投机解码技术,支持3层多token并行预测,前128 token加速比达2.3倍,128-256 token达1.5倍。
多模态推理优化同样取得突破。MiMo-V2.5系列支持视觉、音频、视频跨模态理解,通过Encoder跨请求组Batch处理、GPU图片预处理迁移和视频多线程并行解码,将1小时视频处理延迟从156秒压缩至23秒。Embedding缓存共享机制使整体Encoder吞吐提升2倍,在保持模型能力不变的前提下,实现了相同硬件条件下的更高吞吐和更低延迟。
这项创新代表了大规模模型工程落地的重要方向。通过将Hybrid SWA架构优势与KVCache管理、分级缓存、调度策略等系统级优化深度结合,团队成功将理论效率转化为实际生产收益。部分优化成果已通过PR形式回馈SGLang开源社区,后续将持续推进更多开源计划,降低复合架构的应用门槛,推动行业技术进步。