网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

小米大模型团队音频推理突破,一周登顶MMAU榜,GRPO算法显神威!

2025-03-17来源:ITBEAR编辑:瑞雪

小米大模型团队近日宣布,在音频推理技术方面取得了显著进步。该团队受DeepSeek-R1项目的启发,成功将强化学习算法应用于多模态音频理解任务,这一创新实践仅耗时一周,便在国际权威的MMAU音频理解评测中取得了64.5%的准确率,成功登顶榜首,并且已经同步开源。

据悉,DeepSeek-R1项目中提出的Group Relative Policy Optimization(GRPO)方法,使得模型能够通过“试错-奖励”机制自主进化,展现出类似人类的反思和多步验证等高级推理能力。小米团队受此启发,尝试将GRPO算法迁移到自家的Qwen2-Audio-7B模型上,取得了令人瞩目的成果。

在训练样本方面,小米团队仅使用了AVQA数据集中的3.8万条样本进行强化学习微调,便在MMAU评测集上实现了64.5%的准确率。这一成绩不仅刷新了记录,而且相比目前榜单上排名第一的商业闭源模型GPT-4o,有近10个百分点的优势。

尽管取得了如此显著的进步,但小米团队表示,当前模型的准确率距离人类专家的82%水平仍有差距。他们将继续努力,不断优化算法和模型,以期达到更高的准确率。

在官方提供的交互demo中,小米团队选择了雷军2015年“R U OK”的视频作为默认分析对象,展示了模型在实际应用中的表现。这一选择不仅富有趣味性,也体现了小米团队对于用户需求和场景理解的深入洞察。

小米技术官微在发布这一消息时表示,音频推理技术的突破将为智能语音助手、智能家居等领域带来更加智能和人性化的体验。他们期待与更多合作伙伴共同探索这一技术的广阔应用前景。

小米团队还强调了开源的重要性。他们认为,通过开源可以吸引更多开发者参与到技术的创新和优化中来,共同推动人工智能技术的发展和进步。

安谋科技发布“周易”X3 NPU IP,AIGC大模型能力跃升开启端侧AI新篇
智东西11月14日消息,昨日,安谋科技正式发布了专为端侧大模型而生的最新一代NPUIP——“周易”X3,其能够与Arm架构CPU、GPU协同,组成基于Arm生态的异构算力解决方案。 新的“周易”X3 NP…

2025-11-15

百度李彦宏2025世界大会发声:AI内化驱动,开启生产力革命新篇章
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14