对话智源王仲远：视频生成不等于世界模型-网界

2023年6月的一天，北京智源大会的会场很热闹。大屏幕上，一位法国科学家正从巴黎的家中连线——那是凌晨四点。

图灵奖得主Yann LeCun没有客套。他直截了当地告诉在场的上千位与会者：大语言模型这条路，走不通。没有规划能力，没有推理能力，没有对物理世界的理解。

Yann LeCun提出的替代方案，叫做“世界模型”——一个能让AI像婴儿一样通过观察和交互来理解物理世界的系统。

那时候，ChatGPT刚刚引爆全球，大语言模型正如日中天。这让LeCun的言论听起来像一个异见者的疯狂预言。

三年后，大语言模型进入了稳步发展阶段，但世界模型开启了百家争鸣。2026年智源大会，智源研究院正在用行动对外宣布：重点聚焦世界模型。

“人工智能的发展路径非常清晰——大语言模型、多模态、世界模型，最终通往物理AGI。”智源研究院院长王仲远于包括凤凰网科技在内的一场小范围媒体沟通会上表示。沟通会现场显示的PPT上，是一张2024年就已经画好的路线图，标注着智源对AI未来的全部判断。

如今，这条路正从图纸走向现实。

“视频生成不等于世界模型”

如果翻看2025年到2026年的AI行业新闻，“世界模型”几乎成了每个大厂和小巨头的标配词汇。视频生成公司、自动驾驶公司、机器人公司都在忙着认领自己的世界模型。

但在王仲远看来，这里面充满了误用。

“视频生成不等于世界模型，这是智源研究院非常清晰明了的态度。”

为什么这个区分如此重要？王仲远解释，世界模型的核心是“预测下一个物理状态（Next Physical State Prediction）”，它需要实现物理正确性、动作因果的可溯性、长时间序列的一致性，以及通用泛化能力。“你完全可以通过视频生成模型生成一群在天上飞的猪，但物理世界不会存在这样的场景。”如果机器人装上这样的“大脑”，可能会误认为自己可以飞檐走壁，带来一系列严重的后果。

那么，什么才是真正的世界模型？智源给出的答案是：从“预测下一个词元”到“预测下一个物理状态”的范式变革。

王仲远把语言模型和世界模型做了一个对比：“语言模型时代是以Next-Token Prediction为核心，世界模型需要以Next Physical State Prediction为核心。语言模型时代的Prompt能够激发能力，世界模型需要以State激发。语言模型是被动观察，世界模型需要主动交互。语言模型是单模态和多模态，世界模型必须实现全模态。”

在这个框架下，智源将现有世界模型的相关技术路线分为四类：第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

“我们认为，以语言为中心的和以视觉表征为中心的结合路线，是目前智源正在探索的第五条路线。”王仲远告诉我们，“世界模型最终需要解决的是看到、感知、理解真实世界，进行推理规划和决策，而不仅仅是生成画面。”

这条路，智源其实已经走了两年。2024年10月发布的悟界·Emu3，被王仲远称为“原生多模态世界模型”。2026年1月，悟界·Emu3登上Nature正刊，成为国内继DeepSeek之后第二篇登上Nature的大模型论文，也是国内科研机构首个独立完成的成果。“这代表学术界对我们技术路线的认同。”王仲远说。

但这个认同，也仅仅是开始。

比深度学习的2012年还早，GPT时刻远未到来

在智源的规划中，世界模型不是一个学术概念，而是通往物理AGI的必经之路。

“物理AGI的上限取决于很多物理世界的复杂性——有时间、空间、物理规律，也有人类创造的新工具和新科技产物。”王仲远说，“这些复杂性远远不是当下大语言模型和多模态模型能够解决的。”

他观察到，大语言模型已经在文案撰写、总结、编程等数字世界任务中创造了巨大价值。但在物理世界——人类社会真实的生产生活环境——这些模型几乎无能为力。“物理世界才是真实的人类社会生产生活环境，这一类场景和未来产值空间足够大。”

事实上，智源研究院是国内最早提出并开展世界模型研究的科研机构。2023年智源大会上，杨立昆（Yann LeCun）就阐述了新一代世界模型的概念；2024年智源大会上，智源研究院提出的人工智能大模型技术路线预判，明确指出世界模型是下一代大模型技术；2024年发布的悟界·Emu3和2025年发布的悟界·Emu3.5，则是全球首个原生多模态世界模型。

基于在大模型领域持续的技术积累与前瞻布局，2026年智源推出了悟界·Physis-v0.1。悟界·Physis的诞生正是基于智源对人工智能发展路径的判断以及从“悟道”到“悟界”的技术传承与延续。

“坦率地讲，随着我们越发深入具身场景和实际需求，我们发现最核心的物理世界基座模型依然没有被完全解决。”王仲远说，“现在的具身模型本质上都是单场景被动任务执行者。距离实际大规模应用，依然有很长的路要走。”

智源的世界模型研究因此被提速。凤凰网科技了解到，2026年初，研究院正式立项开发世界基座模型，推出了悟界·Physis-v0.1和悟界·RoboBrain Orca。前者的目标是成为一个通用世界基座，能够应用在严肃工业、具身智能、物理仿真、科学研究等多个下游场景。后者是以下一个物理状态预测为核心的具身大脑，融合大量Ego-centric交互数据，强化了世界模型的具身表征，能支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

在这次沟通会上，王仲远展示了悟界·Physis-v0.1的一些初步成果：复杂物理系统的规律学习、长时记忆、真实的光学折射效果、物体移走再移回后时钟仍然显示正确流逝的时间。“这些都是需要确保的物理正确性。”

但他也坦诚地承认，这一切仍然非常早期。“目前的悟界·Physis-v0.1，在我看来属于非常早期，因此才称之为0.1版本。”

他把当前世界模型的阶段，比作深度学习的2012年——技术刚刚兴起，能解决一些具体任务，但远未到GPT时代。“随着人工智能越来越强，演化速度越来越快，可能再用三年五年就能有足够多的数据累积。”王仲远判断，世界模型爆发的时间窗口，会比上一个周期更短。

青年科学家挑大梁，中美站在同一起跑线

凤凰网科技了解到，智源在押注的两个世界模型各有特点。

悟界·Physis-v0.1是全球首款通用世界基座模型，其核心是彻底打破传统AI垂类场景专用的技术瓶颈，解决主流AI 不懂物理规则、物理结果不可信、长程记忆缺失问题。模型具备物理一致性、动作因果性、长程可推演性、通用泛化性四大核心能力。

悟界·RoboBrain Orca是以下一个物理状态预测为核心的具身大脑，构建 “统一表征 — 建模 — 预测 — 交互” 完整闭环。其解决的核心问题是，推动 AI 从理解文本走向感知、预测与交互物理世界，支撑具身智能机器人在物流场景、酒店服务场景等真实环境中的长期自主作业。

如果说路线选择和技术判断是智源all in世界模型的“理性面”，那么人才的快速聚集，则是这个故事中最具戏剧性的部分。

2026年初的一个中午，智源大厦里，王仲远曾和两个年轻人一起吃盒饭。他们都是世界模型科研背后的青年力量。聊到兴起，一位年轻人在白板上画起了技术架构图。“我们几乎当场拍板，决定要一起来做这个事情。”他回忆道。而这个年轻人就是后来加入智源担任行为世界模型中心负责人的22岁青年科学家陈博远。

没有漫长的评审流程，没有繁琐的申请材料。这就是智源的风格。

“青年人才挑大梁是智源一贯的传统。”王仲远说，“聚集这些非常年轻、高潜、又有代表作的青年科学家，恰恰就是智源研究院成立八年以来一直都在努力做的事情。”

事实上，智源在世界模型上的团队并非从零开始。一部分成员来自两三年前的多模态团队——悟界·Emu的核心成员平均年龄不到三十岁；另一部分来自具身团队。当多模态技术路线基本打通后，“剩下的就交给产业，我们转向下一个更大的前沿探索”。

这种“有组织的前沿科研”，加上“让青年人才挑大梁”的机制，构成了智源模式的底色。王仲远称之为“做对的事情”——有规划的战略布局，不拘一格的用人方式，开源开放的生态，以及不以外界热潮改变节奏的定力。

“我们每年都会花大量时间探讨人工智能的演进和变化，一年至少两次以上，全院核心科研技术骨干一起讨论。”王仲远说，“并不会简单地让外界的热潮涌动影响我们的科研节奏和步伐。”

如今，智源的世界模型团队已经集结完毕。“95后”“00后”成员，背景各异——有手握多块金牌的竞赛生，有发表过顶会论文的学术新星，有开源社区的高影响力开发者。他们共享一个信念：通用世界基座模型的原始创新，可以由中国团队率先突破。

“我们跟国际是站在同一起跑线的。”王仲远说，“智源研究院这样的行业机构，愿意有这种冒险和尝试。”

三年前，Yann LeCun在智源大会上的“异见”演讲，似乎正在被一步步验证。而这一次，中国的研究机构不再只是跟随者。

这一次智源大会上，智源研究院理事长黄铁军也说出了一个朴素的事实，他说智源很幸运，成立在2018年，北京市给了自由的体制和10年稳定支持。当时智源在恰当的时间做了正确的事，在2020年组织上百人攻关大模型。这上百人，就包括智谱创始人唐杰，月之暗面创始人杨植麟，面壁智能联合创始人刘知远等知名企业家。后来他们不仅共创出了悟道，也各自带着经验创立公司，长成当今中美大模型竞赛中的攻坚力量。

“我们在世界模型上跟国际是站在同一起跑线的，而且有着自己的主张和技术的判断。”王仲远说，“虽然并不排除可能失败的可能性，但这就是科研的魅力。”

悟界·Physis-v0.1版本，一个试图理解物理世界的基座模型是智源现阶段的答案，“可能过两年以后，我和各位老师交流时会说，当时这个地方没想清楚，那个地方想错了。”王仲远说，“但这就是我们存在的意义。”

以下是部分对话实录，经节选发布：

Q：世界模型的团队是什么时候组建的？团队历史是怎样的？

王仲远：智源研究院人工智能项目的布局一直都是按照既定的战略方向推进，现在我们的世界模型团队包括两个部分：两三年前多模态大模型自然而然演进到世界模型；具身团队也是如此，正式立项开发世界基座模型也是今年年初，因为多模态已经告一段落。

大家可以看到过去两年多模态做得可圈可点，今年年初基本上也是把多模态技术路线打通，剩下的就交给产业，我们转向下一个更大的前沿探索世界模型。

除了已有的团队，今年年初引入了新的团队，就是陈博远和王鹏伟这些优秀青年科学家。陈博远只有二十二岁，非常年轻，刚上大四。智源研究院一直都在强调青年挑大梁，不看帽子和资历，给到年轻人发挥的舞台。

聚集这些非常年轻、高潜、又有代表作的青年科学家恰恰就是智源研究院成立八年以来一直都在努力做的事情，因此我们才能在大模型时代、多模态时代产生具有引领性的行业和科研成果。悟界·Emu团队的负责人之前也是不到三十岁，陈博远进一步打破了这个纪录——22岁的青年科学家担任智源行为世界模型创新中心的负责人。

Q：去年就在谈论多模态融合的世界模型，今年也是世界模型的浪潮，两个概念有什么具体区别？

王仲远：原生多模态世界模型悟界·Emu最早被探讨的时候，融合的只有文字、图像、视频，甚至连声音和动作都没有融合。真正进入物理世界，要强调State的话需要包含动作，对于物理更强的约束，这些问题都是原来没有解决的，也是进入物理世界之后的物理基座模型尝试解决的全新问题。这既是延续，又是新的扩展。

前面讲到智源研究院的世界模型是面向真实物理世界的世界模型，行业很多时候都把视频生成模型称为世界模型，但显然不能解决很多真实物理世界的问题，要是从真实物理世界的角度来看还有很多幻觉。

我们完全可以通过视频生成模型生成一群在天上飞的猪，但物理世界不会存在这样的场景。要是世界基座模型无法区分真实和虚幻，进入物理世界真正开始干活，执行不同场景的时候就会产生一系列重大风险和问题。要是机器人安装这种基于World Action产生的大脑，可能会误认为自己是钢铁侠，带来一系列非常严重的后果，所以需要真实认知物理世界。

Q：现在世界模型仍然没有收敛，包括空间智能、JEPA和Google扩散模型，视频公司也在说自己是世界模型，也有很多新型模型不断推出，智源跟国外三大主流路线有什么区别？跟国内其它厂商又有什么区别？

王仲远：2024年智源大会上，智源研究院提出的人工智能大模型技术路线预判，明确指出世界模型是下一代大模型技术。今年以来明显感觉世界模型热度非常高，很多不同的技术路线、不同的场景模型都冠以世界模型之名。

智源将现有世界模型的相关技术路线分为四类。

第一类是以语言为中心的世界模型，包括VLM、VLA，模型在文本空间中预测下一个词，学到的是语言描述的世界，并不能理解背后的物理后果；第二类是以像素为中心的世界模型，像Sora和Seedance等视频生成类模型，在视觉空间中学习视频或图像，学到的是像素描述的世界；第三类是以三维结构为中心的世界模型，包括3D重建以及李飞飞团队的World Labs Marble模型，不过模型重建3D空间不等于理解世界，几何结构也不代表物理状态；第四类是以视觉表征为中心的世界模型，比如杨立昆的JEPA系列模型，预测的是视觉表征的压缩，但视觉嵌入演化不等于物理规律演化。

智源正在尝试的正是第五类技术路线，以语言为中心和以视觉表征为中心相结合，也叫做潜空间表征，同一个潜空间能够Decode不同的模态。

Q：所以仍然是处于非常早期的阶段，现在难以突破的技术难点是什么？

王仲远：一是多模态融合，也就是怎么把物理规律教给模型。当我们看到一瓶水即将跌落，以及它可能产生的物理状态，这些都会影响我们后续的Action。面对一瓶盖着的水和一瓶没盖的水，人类大脑会天生产生对后果的预判，那么，怎么把这些信息真正教给基座模型？

二是长时间序列的一致性。很多视频生成模型已经从最开始的5秒、10秒，延长到了1分钟，但这仍然是需要解决的问题。比如给一个瓶子加水，旁边放一个时钟，模型生成并进行State预测，镜头移开再移回来，时钟是不是真的经过了10秒或者20秒？现在主流的视频生成模型看起来可以做到长时间生成，但不符合真实物理世界的规律。

那么，到底怎么把Action教给模型？最近，具身和异构感知领域有大量真实物理世界的数据正在被采集，这些数据的积累和汇聚肯定是有意义的。随着真实物理数据越来越多，加上AI硬件的发展，更多真实数据能够被汇总采集，可能会进一步推动物理世界基座模型的发展。这很像当年大语言模型依赖互联网数据，需要有足够充足的数据才会迎来更大的发展和爆发。需要解决的问题还有很多，我们看到了一些可能的方向，但也需要全世界一同努力。

Q：您提到数据是其中的一个卡点，现在有没有什么共识和判断，就是哪些部分的数据是最重要的，最终的配比是什么状态？

王仲远：这也是一个非常有意思的问题。长期来看，构建世界模型所需的真实世界数据依然非常缺乏，散落在各个孤岛中，尚未形成足够充足的数据集。

去年我在接受媒体访谈时举过一个例子，包括我们发布悟界·Emu3.5时也讲过：视频数据依然是最容易海量获取、最能有效模拟真实物理世界、最容易Scale Up的数据集。

为什么大家都认为视频生成模型有世界模拟器的效果？就是因为视频数据最容易海量获得。但如何有效挖掘其中的有价值信息，目前的科研技术还没有充分挖掘它的潜力。对于海量视频数据，我们依然认为非常重要。

我观察到一个2岁的小女孩，父母从来没有教过她怎么拆糖果、串蓝莓，但她通过天天刷短视频，看着小姐姐吃，自己就学会了这些真实物理世界的动作。再通过真实物理世界的交互和尝试，最终真正掌握了拆糖果、串蓝莓这些能力。我们经常听说现在的小孩越来越聪明，因为他们获取信息的渠道比我们父辈小时候多得多，可以从电视、手机等很多渠道获取足够的信息，极大地加速了新一代人类脑中世界模型的形成。因此从第一性原理来看，视频数据仍然没有被充分利用。

悟界·Physis模型也引入了大量真实物理世界数据进行强化训练，通过异构感知来了解人类与世界交互的结果。我们认为真实物理世界的数据依然需要持续累积，最终汇聚到一起、被世界基座模型采集应用，才能迸发出更强的泛化能力。

世界基座模型最重要的价值，就是解决VLA和具身模型目前遇到的痛点与卡点——不具备泛化性，不具备自我推理和决策的能力。这也是世界模型未来需要解决的核心问题。

Q：对于世界模型和VLA的争议，最终可能不仅局限于具身智能，但更多的应用是在具身智能，您觉得世界模型属于具身智能的必要路线吗？还是可以和VLA可以协同？

王仲远：VLA是当下，世界模型是未来。VLA有没有用？我认为有很大的用处，可以促进机器人在特定场景落地，甚至在某些特定场景，不需要VLA，简单规则就可以。只需要看到包裹就有Action，就是特定场景、特定任务，搜集特定数据就可以完成，但很多时候依然没有完全闭环作用。

VLA模型本身比较大，部署后的响应速度和Latency仍然较高，难以满足真实物理世界执行动作的频率要求，这些都是VLA的局限性。那么，算力是不是需要？肯定是需要的，十年以后会有7B模型、10B模型或者3B模型，应用就会越来越顺畅，但解决不了泛化性、长程、复杂和空间物理规律的理解和推理。

Q：您也提到确实要有更多的算力，大语言模型也有很多超算中心，包括AI Infrastructure做了适应语言模型的工具链，之前的基础设施能够多大程度上复用？

王仲远：个人认为应该都是可以复用的。去年发布的悟界·Emu3.5强调了一个很重要的理念，就是跟大语言模型一样的架构，证明能够Scale Up。包括现在的算力、模型的训练框架、各种数据和工具链，都是可以复用的。到了世界模型的阶段也是全模态，意味着依然需要各种模态数据，包括我们的两个模型也都有采用这种架构。

我们认为，虽然到了新的阶段，世界模型可能有新的需求，但算力基础设施、工具链依然可以被很大程度上复用。很重要的一点就是，刚才讲的怎么处理这些Action、State到底怎么采集，这些都会带来新的问题和挑战。但仅从物理实现来看，声音、图像、动作的轨迹，这些已经在多模态具身领域被使用。我比较乐观，应该都能够复用。至于有没有全新的需求，需要在模型实际应用过程中进一步观察。

Q：三年前，在智源大会你们这里演讲就在谈世界模型，要是All In这个的话是不是发展得更快？

王仲远：任何事物的发展都需要遵循一定规律。如果不在多模态模型上充分实践，纯粹基于视频去发现多模态Scaling Law，就没法说我们走到了世界模型这个阶段。虽然这个概念已经被提了好几年，但一直没有成为行业主流。我们一直在沿着自己的路径，充分利用已有的海量数据，挖掘更多潜能，探索怎么进行更有效的多模态、全模态融合，这些都是多模态领域的实践经验。

在真实的下游场景和任务中，包括具身的尝试，我们发现了具身无法解决的问题。AI For Life Science的科研，也让我们发现了世界模型的可能性和空间。只有等这些事情水到渠成，多模态模型告一段落，我们才有时间和精力更加深入地探讨世界模型。

Q：你们都是怎样确定这些模式的？

王仲远：我们每年都会花大量时间探讨人工智能的演进和变化，一年至少两次以上，全院核心科研技术骨干一起讨论，也会通过智源大会吸引行业专家共同探讨。在此过程中，我们不断形成自己的世界观和研究院对世界模型的认知，并不会简单地让外界的热潮涌动影响我们的科研节奏和步伐。

Q：具体是什么依据让你们下注？

王仲远：人类大脑神经网络里面既可以Decode语言，也可以Decode人体的Action，形成大脑中的场景和画面。从这个意义来讲，我们觉得潜力和空间更大，更有机会能够Scaling Up。这些是我们在技术上的判断，某种意义上，到了下一个State Prediction，需要有统一的表达空间，形成不同的Output。

Q：内部有没有一些辩论？

王仲远：肯定有，但作为非营利性机构，开源开放是我们的底色，我们很愿意把即便不够成熟的思考跟大家分享，希望对行业有所启发。

Q：大家都觉得大语言模型，中美差距是六到十二个月，世界模型呢？

王仲远：我觉得没有差距。

Q：就是站在同一起跑线吗？

王仲远：这绝对是世界上最前沿的研究方向。我们都带着对过往大语言模型、多模态模型的认知，以及非常优秀的科研人员，所以我们觉得有机会在同一起跑线，大家一起为下一个人工智能的时代共同做出各自的贡献，为了人类的美好。