小米MiMo-VL大模型开源，多模态推理能力领先同尺寸标杆Qwen2.5-VL-7B-网界

小米公司近日宣布了一项重大进展，其多模态大模型Xiaomi MiMo-VL已正式向公众开放源代码。这一消息由Xiaomi MiMo官方公众号发布，标志着小米在人工智能领域迈出了重要一步。

据官方介绍，Xiaomi MiMo-VL在多模态任务上表现出色，尤其在图片、视频、语言通用问答及理解推理等方面，相较于同尺寸的多模态标杆模型Qwen2.5-VL-7B，有着显著的优势。更为引人注目的是，在GUI Grounding任务上，MiMo-VL的表现甚至可以与专用模型相媲美，预示着其在智能代理（Agent）时代的巨大潜力。

特别MiMo-VL-7B版本在保持小米MiMo-7B纯文本推理能力的基础上，进一步在多模态推理任务上取得了突破。仅需7B参数规模，它就在奥林匹克竞赛（OlympiadBench）及多个数学竞赛（MathVision、MathVerse）中，大幅领先参数规模达10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview，甚至超越了闭源模型GPT-4o。

在小米内部进行的大模型竞技场评估中，MiMo-VL-7B同样表现出色，超越了GPT-4o，成为开源模型中的佼佼者。这一成就不仅验证了MiMo-VL的卓越性能，也彰显了小米在人工智能技术研发方面的深厚实力。

MiMo-VL-7B的应用场景广泛，能够完成复杂的图片推理和问答任务。在长达10多步的GUI操作上，它也展现出了不俗的潜力。例如，用户可以通过MiMo-VL-7B轻松地将小米SU7添加到心愿单中，享受更加便捷的智能体验。

小米表示，MiMo-VL的成功得益于高质量的预训练数据以及创新的混合在线强化学习算法（MORL）。为了训练这一模型，小米收集了涵盖图片-文本对、视频-文本对、GUI操作序列等多种类型的高质量数据，总计达到2.4T tokens。通过分阶段调整不同类型数据的比例，小米强化了模型的长程多模态推理能力。同时，混合文本推理、多模态感知+推理、RLHF等反馈信号，并通过在线强化学习算法稳定加速训练，全方位提升了模型的推理、感知性能和用户体验。

目前，MiMo-VL-7B的RL前后两个模型已经开源，并提供了相应的技术报告和测评任务框架。感兴趣的开发者可以前往Huggingface和GitHub平台获取更多信息，共同探索人工智能技术的无限可能。