网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

智源王仲远:世界模型≠视频生成,AI探索物理AGI新路径

2026-06-18来源:天脉网编辑:瑞雪

北京智源大会的会场内,一场关于人工智能未来走向的讨论正在激烈展开。图灵奖得主Yann LeCun通过连线向与会者抛出一个惊人观点:大语言模型的发展路径存在根本性缺陷,缺乏对物理世界的理解能力。他提出以"世界模型"替代现有技术路线,主张构建能通过观察和交互理解物理规律的AI系统。这一观点在ChatGPT引发全球热潮的背景下显得尤为突兀,却在三年后成为行业共识。

智源研究院院长王仲远在媒体沟通会上展示的路线图显示,该机构早在2024年就完成技术预判,将世界模型定位为人工智能发展的关键节点。从大语言模型到多模态系统,最终通向具备物理认知能力的通用人工智能(AGI),这条技术演进路径正逐步得到验证。2026年智源大会上,研究院宣布将战略重心全面转向世界模型研发,推出悟界·Physis-v0.1和悟界·RoboBrain Orca两大核心项目。

针对行业普遍存在的概念混淆,王仲远明确区分了视频生成与世界模型的本质差异。他指出,真正的世界模型必须具备四大核心能力:物理一致性、动作因果性、长程可推演性和通用泛化性。当前市场上多数所谓"世界模型"仅停留在像素级模拟层面,无法理解物理规律背后的因果关系。这种技术缺陷可能导致具身智能设备产生灾难性误判,例如让机器人误以为自己具备飞行能力。

智源研究院将现有技术路线划分为四类:以语言为中心的VLM/VLA模型、以像素为中心的视频生成模型、以三维结构为中心的重建模型,以及以视觉表征为中心的JEPA系列。在此基础上,该机构开创性地提出第五条路径——融合语言与视觉表征的潜空间模型。这种架构通过统一表征空间实现多模态解码,为构建通用世界基座模型奠定基础。

悟界·Physis-v0.1的研发成果验证了这条技术路线的可行性。该模型展现出复杂物理系统学习、长时记忆保持和真实光学效果模拟等能力,在物体移位后仍能准确计算时间流逝。但研发团队坦承,当前版本仅具备基础物理认知能力,距离实际应用尚有差距。悟界·RoboBrain Orca则聚焦具身智能场景,通过整合大量第一视角交互数据,强化了机器人在物流、酒店等真实环境中的自主作业能力。

这个雄心勃勃的研发计划背后,是一支平均年龄不足30岁的青年科学家团队。22岁的陈博远作为行为世界模型中心负责人,打破了学术界常规晋升路径。这种"让青年人才挑大梁"的用人机制,延续了智源研究院在大模型时代的成功经验。2020年,该机构组织百人团队攻关大模型技术时,就已涌现出智谱创始人唐杰、月之暗面创始人杨植麟等行业领军人物。

在技术实现层面,世界模型研发面临着双重挑战:如何将物理规律转化为模型可理解的表征形式,以及如何保证长时间序列预测的物理正确性。王仲远以儿童学习为例,说明真实交互数据的重要性——一个从未接受过拆包装训练的幼儿,通过观察短视频就能掌握相关技能。这种数据获取方式为模型训练提供了新思路,但海量异构数据的整合与标注仍是待解难题。

对于算力基础设施的复用问题,研发团队持乐观态度。悟界系列模型延续了大语言模型的架构设计,证明现有训练框架和工具链具有较强适应性。但在动作状态采集、多模态数据对齐等环节,仍需要开发专用技术方案。这种"渐进式创新"的策略,既保证了技术延续性,又为突破性进展保留了空间。

关于中美技术竞争态势,王仲远认为世界模型领域尚未形成明显差距。两国科研机构都处于探索阶段,中国团队在多模态融合和具身智能应用方面展现出独特优势。这种判断基于智源研究院的持续技术积累:从2023年杨立昆提出世界模型概念,到2024年发布全球首个原生多模态模型,再到2026年形成完整技术体系,中国研究机构正在这条新赛道上建立领先地位。