网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

智源“悟界·Emu3”登Nature正刊:自回归路线或成多模态世界模型新方向

2026-02-02来源:快讯编辑:瑞雪

北京智源人工智能研究院推出的多模态大模型“悟界·Emu3”近日登上国际顶级学术期刊《自然》(Nature)正刊,成为继DeepSeek之后第二个获此殊荣的中国大模型团队研究成果。这一突破标志着中国在多模态人工智能领域的研究迈入国际前沿,为构建可扩展、统一的多模态智能系统提供了全新路径。

“悟界·Emu3”模型的核心创新在于仅通过“预测下一个token”的自回归技术路线,实现了文本、图像和视频的统一学习。这一方法摒弃了传统多模态模型中复杂的组合式架构,以极简的架构设计同时支持生成与感知任务。Nature编辑在点评中指出,该成果在性能上可媲美专用模型,为原生多模态助手、世界模型及具身智能等方向的发展奠定了基础。

自2024年10月发布以来,Emu3在多项基准测试中表现优异。在文本到图像生成任务中,其性能超越SDXL等扩散模型,接近DALL-E 3等顶尖水平;视频生成方面,VBench评分达81,超过Open-Sora 1.2;视觉语言理解得分62.1,略高于LLaVA-1.6。研究团队通过大规模消融实验验证了多模态学习的规模定律,证明模型能力随数据规模增长而显著提升。

该模型的研发历程充满挑战。2024年初,团队面临技术路径选择的关键决策:是沿用主流的扩散模型架构,还是探索自回归路线的统一可能性。最终,团队组建了50人的专项攻关组,以离散token方式重构视觉模态表示,将图像、文本和视频统一到同一表示空间中。这一过程中,团队解决了图像压缩效率低、训练稳定性差等技术难题,历经近一年时间完成模型训练。

Emu3的架构设计体现了“极简主义”理念。模型基于Transformer解码器架构,扩展了嵌入层以容纳视觉标记,通过两阶段优化方案实现高效训练。在推理阶段,模型支持无分类器引导和低延迟生成,可自然扩展至机器人操作、多模态交错生成等复杂任务。研究团队还开源了模型代码和关键技术,推动社区持续创新。

2025年10月,团队进一步推出Emu3.5版本,实现了从“预测下一个token”到“预测下一个状态”的能力跃迁。该版本通过大规模长时序视频训练,学习到时空与因果关系,在虚拟世界探索任务中超越谷歌Nano Banana等模型,首次提出多模态Scaling新范式。这一进展为具身智能等物理AI领域提供了重要技术支撑。

北京智源研究院自成立以来,始终聚焦大模型原始创新。其发布的“悟道”系列模型曾创下全球最大语言模型纪录,开源的200余款模型累计下载量超7.6亿次。此次Emu3登上Nature正刊,不仅验证了中国AI研究的技术实力,也为全球多模态大模型发展提供了新思路。随着开源生态的完善和产业链的协同发展,中国在人工智能基础研究领域的国际影响力将持续扩大。

2025青岛城阳新体验:“萝卜快跑”无人驾驶网约车开启载客测试之旅
2025年,青岛迎来了一个激动人心的科技革新时刻——百度旗下的自动驾驶出行服务平台“萝卜快跑”在城阳区正式上线载客测试。 在现场,记者亲身体验了这一无人驾驶网约车的独特魅力。一辆白色的“萝卜快跑”网约车静静地…

2026-02-02

机器人ETF易方达(159530)2月2日开盘走低,重仓股涨跌互现成立来回报超56%
来源:新浪基金∞工作室 2月2日,机器人ETF易方达(159530)开盘跌0.70%,报1.552元。机器人ETF易方达(159530)重仓股方面,绿的谐波开盘跌1.31%,双环传动跌0.31%,机器人跌0.…

2026-02-02