人工智能领域正迎来一场以“世界模型”为核心的变革,这一方向被视为通往下一代智能的关键路径。李飞飞、杨立昆等学者近期纷纷布局,英伟达、谷歌、OpenAI等科技巨头也将其列为重点研究方向。在不久前举办的智源大会上,智源研究院院长王仲远提出世界模型的四条技术路线,引发行业热议。与此同时,由智源研究院孵化的具身智能企业星源智发布全球首款具身交互世界模型ω-EVA,标志着技术竞赛从理论探索转向实际应用阶段。
与传统世界模型不同,ω-EVA以“交互-行动”为核心构建潜空间建模框架。该模型通过“预演-验证-行动”的闭环机制,捕捉“当前状态-动作-未来状态”的动态关系,使机器人能够理解动作对物理世界的因果影响。在智源大会现场,星源智用华容道机器人演示了这一能力:面对随机打乱的棋盘,机器人并非简单识别棋子位置,而是通过内部推演模拟移动后的全局变化,最终选择最优解完成复原。这种能力源于模型对物理约束的实时推理,而非依赖预设程序或视觉时序关联。
技术架构上,ω-EVA采用“具身大小脑”协同方案,与PI、Figure AI等企业的“快慢系统”思路异曲同工。通过潜空间建模实现动作候选与预测结果的实时交互,该模型解决了传统方案中预测与决策脱节的问题。星源智CEO刘东指出,端侧部署能力是ω-EVA的核心优势:“传统机器人依赖云端计算,高延迟可能导致碰撞事故。ω-EVA让预测结果直接参与动作修正,显著提升了复杂环境中的作业稳定性。”
尽管成立仅十个月,星源智已通过“软硬一体、端侧部署”的全栈路线获得10亿元融资,并与多数头部机器人厂商达成合作。公司明确聚焦具身大脑解决方案,避免与硬件厂商竞争。创始人刘东认为,中国制造业硬件能力充足,但跨场景适配的“大脑”技术仍是短板。随着具身智能向复杂任务演进,世界模型作为关键能力正获得行业共识。
然而,技术落地仍面临多重挑战。当前VLA(视觉-语言-动作)模型仍是主流,其工业分拣等场景应用已见成效,但存在泛化性差、缺乏物理常识等局限。星源智试图通过“VLA+世界模型”的混合范式突破瓶颈,但市场接受度仍需验证。数据采集是另一大难题,构建世界模型需要涵盖力觉、触觉等多模态数据,而有效数据占比不足40%。孙振国坦言,尽管世界模型能利用失败轨迹提升效率,但长尾场景数据稀缺性问题仍未解决。
商业落地方面,刘东将当前阶段比作2015年前后的自动驾驶领域:技术目标瞄准L4/L5级,但实际产品仍停留在L2级。他强调,具身智能需要找到能持续交付的稳定场景。王仲远则指出,技术创新需先行于产品,行业需通过多样化探索推动世界模型成熟,但最终需通过具体产品验证技术目标。ω-EVA已展现出从模型能力到场景执行的转化潜力,但其能否经受市场检验,仍取决于真实任务中的表现。在竞争焦点从技术突破转向落地能力的当下,这场关于世界模型的竞赛才刚刚开始。
