当人们还在讨论AI能否生成逼真视频时,Google悄然推出了一项名为Project Genie的实验性项目——一个允许用户实时创建并交互的虚拟世界生成器。这项技术突破了传统AI仅能处理文本或静态图像的局限,通过整合图像生成、语言理解和物理模拟三大模块,构建出可动态响应人类操作的沉浸式环境。
项目负责人将其运作机制类比为人类梦境:系统通过Nano Banana Pro模块生成视觉画面,Gemini模型解析语言指令,而核心的Genie 3物理引擎则确保虚拟环境遵循现实规律。与依赖物理公式的传统模拟不同,该引擎通过分析数百万段物体运动视频,自主掌握了重力、惯性等基础物理特性。这种"观察学习"模式使其能模拟从沙漠行走到外星球驾驶等多样化场景。
在Google AI团队发布的演示视频中,产品宣传委员Josh Woodward展示了完整操作流程:他将个人照片转化为复古游戏角色,输入"牛仔在沙漠探索"的指令后,系统立即生成可交互的3D环境。用户通过键盘方向键移动时,系统会实时预测地形变化并生成新画面,整个过程如同操控开放世界游戏,但所有场景均由AI即时生成而非预先设计。
这项技术面临显著的技术挑战。为控制计算成本,当前版本将单次体验限制在60秒内——开发团队解释称,更长时间会导致画面逻辑断裂,出现物体悬浮或运动轨迹异常等情况。早期测试者反馈,外星球驾驶场景存在约0.5秒的操作延迟,自定义指令响应率约为70%,但已能保留角色动作逻辑,例如从沙漠切换到赛博城市时,牛仔的奔跑姿势会自动适配新环境。
相较于娱乐应用,Project Genie更被寄予突破AI发展瓶颈的厚望。随着互联网高质量文本数据趋于枯竭,具身智能(Embodied AI)成为新焦点——机器人无法通过阅读掌握洗碗技能,必须通过实际操作积累经验。Genie 3的物理引擎可生成数十亿个虚拟训练场,让AI代理在模拟厨房、仓库等环境中反复试错,这种合成数据生成方式将大幅降低机器人训练成本。
教育领域已浮现具体应用场景。开发团队设想,历史教师可通过指令生成18世纪巴黎街道,让学生"亲历"法国大革命;心理治疗师能创建可控的恐惧环境,帮助患者逐步脱敏。尽管当前版本存在画质粗糙、无法多人联机等缺陷,但测试者@yrzhe_top仍评价:"虽然只实现了承诺的七成,但这种创造世界的自由度已足够震撼。"
值得关注的是,蚂蚁集团同期开源的LingBot-VA模型也展现出类似思路。该模型在生成画面时同步推演动作序列,使机器人能像人类一样"边思考边操作",在叠衣物、拆快递等家务任务中表现出色。这些进展表明,AI正从处理信息向模拟现实迈进,而Project Genie的物理引擎或许会成为这场变革的关键基础设施。
