网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

小米MiMo-VL大模型开源,多模态推理能力领先同尺寸标杆Qwen2.5-VL-7B

2025-05-30来源:ITBEAR编辑:瑞雪

小米公司近日宣布了一项重大进展,其多模态大模型Xiaomi MiMo-VL已正式向公众开放源代码。这一消息由Xiaomi MiMo官方公众号发布,标志着小米在人工智能领域迈出了重要一步。

据官方介绍,Xiaomi MiMo-VL在多模态任务上表现出色,尤其在图片、视频、语言通用问答及理解推理等方面,相较于同尺寸的多模态标杆模型Qwen2.5-VL-7B,有着显著的优势。更为引人注目的是,在GUI Grounding任务上,MiMo-VL的表现甚至可以与专用模型相媲美,预示着其在智能代理(Agent)时代的巨大潜力。

特别MiMo-VL-7B版本在保持小米MiMo-7B纯文本推理能力的基础上,进一步在多模态推理任务上取得了突破。仅需7B参数规模,它就在奥林匹克竞赛(OlympiadBench)及多个数学竞赛(MathVision、MathVerse)中,大幅领先参数规模达10倍的阿里Qwen-2.5-VL-72B和QVQ-72B-Preview,甚至超越了闭源模型GPT-4o。

在小米内部进行的大模型竞技场评估中,MiMo-VL-7B同样表现出色,超越了GPT-4o,成为开源模型中的佼佼者。这一成就不仅验证了MiMo-VL的卓越性能,也彰显了小米在人工智能技术研发方面的深厚实力。

MiMo-VL-7B的应用场景广泛,能够完成复杂的图片推理和问答任务。在长达10多步的GUI操作上,它也展现出了不俗的潜力。例如,用户可以通过MiMo-VL-7B轻松地将小米SU7添加到心愿单中,享受更加便捷的智能体验。

小米表示,MiMo-VL的成功得益于高质量的预训练数据以及创新的混合在线强化学习算法(MORL)。为了训练这一模型,小米收集了涵盖图片-文本对、视频-文本对、GUI操作序列等多种类型的高质量数据,总计达到2.4T tokens。通过分阶段调整不同类型数据的比例,小米强化了模型的长程多模态推理能力。同时,混合文本推理、多模态感知+推理、RLHF等反馈信号,并通过在线强化学习算法稳定加速训练,全方位提升了模型的推理、感知性能和用户体验。

目前,MiMo-VL-7B的RL前后两个模型已经开源,并提供了相应的技术报告和测评任务框架。感兴趣的开发者可以前往Huggingface和GitHub平台获取更多信息,共同探索人工智能技术的无限可能。

安谋科技发布“周易”X3 NPU IP,AIGC大模型能力跃升开启端侧AI新篇
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-15

百度李彦宏2025世界大会发声:AI内化驱动,开启生产力革命新篇章
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14