网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

北京智源突破性成果登《自然》正刊:自回归路线统一多模态学习

2026-01-30来源:快讯编辑:瑞雪

在生成式人工智能领域,一项来自中国科研机构的重要突破引发全球关注。北京智源人工智能研究院研发的Emu3多模态大模型,通过统一的技术路径实现了对文本、图像和视频的高效处理,相关成果已发表于国际顶级学术期刊《自然》。这一研究首次验证了自回归架构在多模态学习中的普适性,为构建通用人工智能系统开辟了新方向。

传统人工智能系统处理不同类型数据时,往往需要设计专门的模型架构:自然语言处理依赖Transformer结构,图像生成采用扩散模型,视频分析则需结合3D卷积网络。这种"分科而治"的模式导致系统复杂度高、协同效率低,且难以实现跨模态的深度融合。智源研究院的研究团队突破性地证明,通过扩展GPT核心的"预测下一个词元"机制,可以构建出同时具备多模态理解与生成能力的原生模型。

实验数据显示,Emu3模型在图像生成、图文问答、视频预测等任务中,性能达到甚至超越了专门训练的专用模型。该模型采用纯自回归架构,通过统一的数据编码方式,将不同模态的信息转化为离散token序列进行联合训练。这种设计不仅简化了模型结构,更赋予系统强大的扩展潜力——研究人员发现,随着参数规模的增加,模型在复杂场景理解、物理规律模拟等任务上展现出显著提升。

《自然》期刊审稿人特别指出,该研究最突出的贡献在于解决了多模态学习的统一框架问题。此前学术界普遍认为,不同模态数据需要定制化的学习策略,而Emu3的实践表明,通过合理的架构设计,单一模型完全可以掌握跨模态的表征能力。这种统一性不仅降低了开发成本,更为构建具备人类认知水平的通用智能体奠定了基础。

基于Emu3技术路径的迭代版本Emu3.5,已初步展现出对物理世界的理解能力。在测试中,该模型能够预测动态场景的演变趋势,例如模拟物体运动轨迹、推断液体流动方向等。这种对因果关系的把握能力,标志着多模态大模型从"感知智能"向"认知智能"的重要跨越。

据研究团队介绍,这项突破源于智源研究院2020年启动的"悟道"大模型计划。经过五年持续攻关,该机构已形成覆盖多模态学习、具身智能、生命科学等领域的完整技术体系。其即将发布的"悟界"大模型系列,将重点突破数字世界与物理世界的交互瓶颈,包含具身大脑、数字器官、生命模拟等多个创新方向,旨在构建支撑通用人工智能发展的基础设施。

宇树发布开源UnifoLM-VLA-0模型 推动通用人形机器人操作能力升级
基于 Qwen2.5-VL-7B 开源模型,宇树构建了覆盖机器人与通用场景的多任务数据集,并开展持续预训练。 在宇树 G1人形机器人平台上,宇树构建了覆盖 12 类复杂操作任务的高质量真机数据集,并基于此…

2026-01-30

REDMI Turbo 5 Max深度评测:2.5K价位新标杆 性能颜值双在线
全新的REDMI Turbo 5Max自公布之后,凭借全球首发天玑9500s平台、旗舰同款的6.83英寸M10发光材料的屏幕、还升级了1115F对称立体双扬声器,配合上REDMI Turbo家族的标识性涡轮…

2026-01-30

iPhone15Pro升级iOS26.2.1实测:续航提升信号改善,整体体验更出色
苹果这两天罕见的一次发布了6个iOS系统更新,那么大家最为关心的还是iOS26.2.1正式版了,很多果粉升级后表示这优化确实好,但也有用户十分纠结,到底要不要继续升级呢? iPhone15Pro从iOS26.…

2026-01-30