当小米正式推出MiMo-V2-Pro大模型时,科技圈的关注焦点意外地从雷军转向了马斯克。这位特斯拉与SpaceX的掌门人,其旗下xAI公司自2023年成立便备受瞩目——500亿美元融资规模、汇聚OpenAI与DeepMind等顶尖机构的核心成员,甚至最新发布的Grok 4.20 Beta采用四智能体并行架构,试图通过内部辩论机制提升答案质量。然而,在权威评测平台Artificial Analysis Intelligence Index上,Grok仅取得48分的成绩,而小米的MiMo-V2-Pro却以49分险胜,这场“意外对决”让行业重新审视两家公司的技术路径。
小米的AI征程起步并不算早。2023年4月,雷军推动成立AI实验室大模型团队,但初期聚焦方向与当前主流的大语言模型存在差异。直到2024年底至2025年初,通用基础大模型Core团队才正式组建,并获得雷军“投入不设上限”的支持。尽管MiMo-V2-Pro在参数规模(1T参数、42B激活参数)和架构设计(MoE混合专家、混合注意力机制)上并未突破行业常规,但其后训练阶段的三项核心技术,成为超越竞争对手的关键。
第一项技术名为MOPD(多教师在线策略蒸馏),直击行业普遍存在的“跷跷板效应”——提升数学能力时代码能力下降,强化智能体交互时通用对话质量受损。传统解决方案要么通过参数合并融合多个专家模型,要么让学生模型学习专家生成的离线数据,但均存在效果局限或分布偏移问题。小米的创新在于构建三阶段训练体系:先用高质量指令数据激活基础能力,再分别训练代码、搜索、数学推理等领域的专家教师,最终让学生模型在生成回答时接受多个教师的实时监督。这种“动态纠错”机制使模型在AIME 2025数学竞赛中取得94.1分,甚至超越部分教师模型的表现。
第二项突破是真实环境的智能体强化学习(agentic RL)。多数大模型的训练过程类似“单轮答题”:输入问题、输出答案、根据结果奖励。但现实任务往往需要多步骤交互,例如代码调试需经历编写、运行、报错、修改的循环。小米为此构建了覆盖代码、终端、网页开发、通用搜索四大场景的12万个真实交互环境。以代码训练为例,模型需直接处理GitHub Issues中的真实问题,通过单元测试结果获得反馈;网页开发训练则通过Playwright执行代码并录制视频,用多模态判别器评估动态布局效果。这种“实习式”训练使模型在数学推理、通用任务解决等场景中展现出更强的泛化能力。
第三项技术ARL-Tangram由小米与北京大学联合研发,专注于解决训练资源利用率低的痛点。传统RL框架为每条训练轨迹静态分配GPU、CPU等资源,导致大量算力闲置。例如,在MOPD训练中,12个教师模型的GPU平均流式多处理器活跃率不足3%,97%的算力处于空转状态。ARL-Tangram通过动态资源管理,将每次外部调用视为原子动作,任务完成后立即释放资源。实测数据显示,该系统使AI编程任务的动作完成时间提升最高4.3倍,训练步骤加速最高1.5倍,外部资源消耗降低71.2%,显著降低了硬件投入成本。
对于小米而言,MiMo-V2-Pro的意义远超技术突破本身。长期以来,小米被贴上“硬件性价比之王”的标签,软件与AI领域的技术存在感较弱。雷军在2023年提出的“(软件×硬件)^AI”战略,曾被质疑为营销话术,但MiMo-V2-Pro的全球前十、中国第二的排名,为其提供了实质性支撑。更关键的是,该模型与小米汽车、IoT等业务形成协同效应。例如,小米汽车智能驾驶团队在2026年转向端到端大模型技术路线,而MiMo-V2-Pro可通过“云端训练-端侧蒸馏”模式,将云端大模型的能力压缩至车载芯片可运行的轻量模型中,实现从“教师”到“学生”的技术传承。
相比之下,马斯克的xAI与特斯拉的协同路径显得模糊。尽管Grok在2025年底进入特斯拉车机系统,但仅能承担设置导航、语音交互等基础功能,与自动驾驶系统FSD的联动仅限于导航链路。2026年3月,马斯克宣布启动“Digital Optimus”项目,试图将Grok定位为“高层推理大脑”,与特斯拉的实时感知系统形成双系统协作。然而,这种架构的落地难度远高于小米的“云-边-端”协同模式,且Grok在数学推理、代码生成等核心能力上的落后,进一步削弱了其作为“慢思考系统”的可行性。
尽管MiMo-V2-Pro展现出不俗潜力,但其技术真实性仍存争议。例如,小米公布的SWE-bench Verified编程测试得分(78.0%)接近行业顶尖水平,但该测试集已被OpenAI证实存在数据污染问题——多个前沿模型仅凭题目编号即可复现正确答案。小米未公布更抗污染的SWE-bench Pro成绩,而该测试集上表现最佳的OpenAI GPT-5.4得分仅为57.7%。MiMo-V2-Pro的模型权重尚未开源,官方解释称需等待“稳定性达标”,这或许暗示其性能仍需优化。雷军在发布会上承认“模型刚完成,未来需快速迭代”,也印证了技术成熟度的不足。
