智源“悟界·Emu3”登Nature正刊：自回归路线或成多模态世界模型新方向-网界

北京智源人工智能研究院推出的多模态大模型“悟界·Emu3”近日登上国际顶级学术期刊《自然》（Nature）正刊，成为继DeepSeek之后第二个获此殊荣的中国大模型团队研究成果。这一突破标志着中国在多模态人工智能领域的研究迈入国际前沿，为构建可扩展、统一的多模态智能系统提供了全新路径。

“悟界·Emu3”模型的核心创新在于仅通过“预测下一个token”的自回归技术路线，实现了文本、图像和视频的统一学习。这一方法摒弃了传统多模态模型中复杂的组合式架构，以极简的架构设计同时支持生成与感知任务。Nature编辑在点评中指出，该成果在性能上可媲美专用模型，为原生多模态助手、世界模型及具身智能等方向的发展奠定了基础。

自2024年10月发布以来，Emu3在多项基准测试中表现优异。在文本到图像生成任务中，其性能超越SDXL等扩散模型，接近DALL-E 3等顶尖水平；视频生成方面，VBench评分达81，超过Open-Sora 1.2；视觉语言理解得分62.1，略高于LLaVA-1.6。研究团队通过大规模消融实验验证了多模态学习的规模定律，证明模型能力随数据规模增长而显著提升。

该模型的研发历程充满挑战。2024年初，团队面临技术路径选择的关键决策：是沿用主流的扩散模型架构，还是探索自回归路线的统一可能性。最终，团队组建了50人的专项攻关组，以离散token方式重构视觉模态表示，将图像、文本和视频统一到同一表示空间中。这一过程中，团队解决了图像压缩效率低、训练稳定性差等技术难题，历经近一年时间完成模型训练。

Emu3的架构设计体现了“极简主义”理念。模型基于Transformer解码器架构，扩展了嵌入层以容纳视觉标记，通过两阶段优化方案实现高效训练。在推理阶段，模型支持无分类器引导和低延迟生成，可自然扩展至机器人操作、多模态交错生成等复杂任务。研究团队还开源了模型代码和关键技术，推动社区持续创新。

2025年10月，团队进一步推出Emu3.5版本，实现了从“预测下一个token”到“预测下一个状态”的能力跃迁。该版本通过大规模长时序视频训练，学习到时空与因果关系，在虚拟世界探索任务中超越谷歌Nano Banana等模型，首次提出多模态Scaling新范式。这一进展为具身智能等物理AI领域提供了重要技术支撑。

北京智源研究院自成立以来，始终聚焦大模型原始创新。其发布的“悟道”系列模型曾创下全球最大语言模型纪录，开源的200余款模型累计下载量超7.6亿次。此次Emu3登上Nature正刊，不仅验证了中国AI研究的技术实力，也为全球多模态大模型发展提供了新思路。随着开源生态的完善和产业链的协同发展，中国在人工智能基础研究领域的国际影响力将持续扩大。