智源王仲远：世界模型≠视频生成，AI探索物理AGI新路径-网界

北京智源大会的会场内，一场关于人工智能未来走向的讨论正在激烈展开。图灵奖得主Yann LeCun通过连线向与会者抛出一个惊人观点：大语言模型的发展路径存在根本性缺陷，缺乏对物理世界的理解能力。他提出以"世界模型"替代现有技术路线，主张构建能通过观察和交互理解物理规律的AI系统。这一观点在ChatGPT引发全球热潮的背景下显得尤为突兀，却在三年后成为行业共识。

智源研究院院长王仲远在媒体沟通会上展示的路线图显示，该机构早在2024年就完成技术预判，将世界模型定位为人工智能发展的关键节点。从大语言模型到多模态系统，最终通向具备物理认知能力的通用人工智能（AGI），这条技术演进路径正逐步得到验证。2026年智源大会上，研究院宣布将战略重心全面转向世界模型研发，推出悟界·Physis-v0.1和悟界·RoboBrain Orca两大核心项目。

针对行业普遍存在的概念混淆，王仲远明确区分了视频生成与世界模型的本质差异。他指出，真正的世界模型必须具备四大核心能力：物理一致性、动作因果性、长程可推演性和通用泛化性。当前市场上多数所谓"世界模型"仅停留在像素级模拟层面，无法理解物理规律背后的因果关系。这种技术缺陷可能导致具身智能设备产生灾难性误判，例如让机器人误以为自己具备飞行能力。

智源研究院将现有技术路线划分为四类：以语言为中心的VLM/VLA模型、以像素为中心的视频生成模型、以三维结构为中心的重建模型，以及以视觉表征为中心的JEPA系列。在此基础上，该机构开创性地提出第五条路径——融合语言与视觉表征的潜空间模型。这种架构通过统一表征空间实现多模态解码，为构建通用世界基座模型奠定基础。

悟界·Physis-v0.1的研发成果验证了这条技术路线的可行性。该模型展现出复杂物理系统学习、长时记忆保持和真实光学效果模拟等能力，在物体移位后仍能准确计算时间流逝。但研发团队坦承，当前版本仅具备基础物理认知能力，距离实际应用尚有差距。悟界·RoboBrain Orca则聚焦具身智能场景，通过整合大量第一视角交互数据，强化了机器人在物流、酒店等真实环境中的自主作业能力。

这个雄心勃勃的研发计划背后，是一支平均年龄不足30岁的青年科学家团队。22岁的陈博远作为行为世界模型中心负责人，打破了学术界常规晋升路径。这种"让青年人才挑大梁"的用人机制，延续了智源研究院在大模型时代的成功经验。2020年，该机构组织百人团队攻关大模型技术时，就已涌现出智谱创始人唐杰、月之暗面创始人杨植麟等行业领军人物。

在技术实现层面，世界模型研发面临着双重挑战：如何将物理规律转化为模型可理解的表征形式，以及如何保证长时间序列预测的物理正确性。王仲远以儿童学习为例，说明真实交互数据的重要性——一个从未接受过拆包装训练的幼儿，通过观察短视频就能掌握相关技能。这种数据获取方式为模型训练提供了新思路，但海量异构数据的整合与标注仍是待解难题。

对于算力基础设施的复用问题，研发团队持乐观态度。悟界系列模型延续了大语言模型的架构设计，证明现有训练框架和工具链具有较强适应性。但在动作状态采集、多模态数据对齐等环节，仍需要开发专用技术方案。这种"渐进式创新"的策略，既保证了技术延续性，又为突破性进展保留了空间。

关于中美技术竞争态势，王仲远认为世界模型领域尚未形成明显差距。两国科研机构都处于探索阶段，中国团队在多模态融合和具身智能应用方面展现出独特优势。这种判断基于智源研究院的持续技术积累：从2023年杨立昆提出世界模型概念，到2024年发布全球首个原生多模态模型，再到2026年形成完整技术体系，中国研究机构正在这条新赛道上建立领先地位。