小米MiMo-V2.5系列API降价背后：全链路优化技术细节首次大公开-网界

小米近日宣布，其MiMo-V2.5系列API完成永久性价格调整，最高降幅达99%，且不限制输入长度。这一举措的背后，是该团队在推理系统全链路优化方面的重大突破，通过Hybrid SWA+MoE+多模态复合架构的创新应用，实现了推理成本的大幅下降。

大模型推理过程中，KVCache管理是核心挑战。传统方案中，模型生成每个token时需将全部历史上下文以键值对形式缓存在GPU显存中，导致上下文越长，缓存需求越大，推理成本越高。MiMo-V2.5-Pro通过架构创新破解这一难题：在70层Transformer中，仅10层采用Full Attention，其余60层使用滑动窗口大小为128 token的Sliding Window Attention。这种设计使KVCache存储需求降至全Full Attention方案的约1/7，Prefill阶段计算成本同步降低，Decode阶段延迟与KVCache读取量正相关，长序列场景下推理成本优势尤为显著。

工程实现层面，团队面临三大核心挑战：如何让缓存管理系统真正适配Hybrid SWA特性？如何提升缓存复用率？如何优化调度策略实现算力高效利用？针对这些问题，研发团队实施了系统性改造：将KVCache拆分为Full KV Pool与SWA KV Pool双池架构，前者按需增长，后者采用环形缓冲区设计，严格限制存储规模；重构前缀缓存树匹配规则，引入"窗口安全长度"概念，确保SWA模式下缓存命中的准确性；自研GCache三级缓存系统，支持GPU显存、CPU内存和NVMe SSD自动流转，通过RDMA通信实现170GB/s读吞吐和280μs延迟，在零额外存储成本下将缓存命中率提升至93%以上。

调度策略优化方面，团队在Router侧实现KVCache亲和调度，优先处理已缓存前缀的请求，同时引入计算量感知机制，使L2缓存命中率提升25%，TTFT P90降低30%。Prefill链路通过缩减Expert Parallelism至原先1/2，结合三级长度分桶策略，使端到端性能提升40%。Decode阶段则通过显存扩容和MTP投机解码技术，支持3层多token并行预测，前128 token加速比达2.3倍，128-256 token达1.5倍。

多模态推理优化同样取得突破。MiMo-V2.5系列支持视觉、音频、视频跨模态理解，通过Encoder跨请求组Batch处理、GPU图片预处理迁移和视频多线程并行解码，将1小时视频处理延迟从156秒压缩至23秒。Embedding缓存共享机制使整体Encoder吞吐提升2倍，在保持模型能力不变的前提下，实现了相同硬件条件下的更高吞吐和更低延迟。

这项创新代表了大规模模型工程落地的重要方向。通过将Hybrid SWA架构优势与KVCache管理、分级缓存、调度策略等系统级优化深度结合，团队成功将理论效率转化为实际生产收益。部分优化成果已通过PR形式回馈SGLang开源社区，后续将持续推进更多开源计划，降低复合架构的应用门槛，推动行业技术进步。