在机器人技术领域,以GPT、Gemini为代表的视觉语言大模型(VLM)已展现出强大的语言理解与场景推理能力,但在将指令转化为实际物理操作时仍面临关键挑战。这类模型虽能解析人类语言指令,却难以精准把握三维空间中的物体位置、朝向及可操作关系,导致生成的规划方案常因忽视物理约束而无法执行。如何让机器人获得可迁移的三维空间知识,成为具身智能研究的核心突破点。
近期发表于《科学·机器人学》的一项研究提出了名为RAM(Retrieval-Augmented Manipulation)的创新框架,通过构建可检索的"三维物体知识库"为VLM补充空间认知能力。该框架不依赖重新训练模型,而是在任务规划阶段提供精细化的空间上下文,使机器人既能理解"要做什么",更能明确"如何操作"。研究团队以香港中文大学为主导,通过14项真实机械臂实验验证了其有效性。
传统VLM的局限性源于其训练范式——多数模型基于二维图像与文本配对数据构建,虽擅长识别视觉内容,却缺乏对深度、尺度及物理交互的直接经验。尽管业界尝试通过三维数据微调提升能力,但高质量3D数据的采集与标注成本高昂,计算资源消耗巨大。RAM框架另辟蹊径,将空间知识存储于外部知识库,通过实时检索为模型提供场景适配的空间信息。
该框架包含三大核心模块:首先是物体类别级知识引擎,研究团队为不同物体类别建立标准化三维模板,标注几何属性(如尺寸、对称性)与操作属性(如抓取点、功能平面)。这种类别级建模方式可覆盖同类物体的多种变体,显著降低数据需求。其次是三维视觉接地模型,其功能是将模板中的通用空间描述映射到真实场景中的具体物体实例。该模块通过合成数据训练,在真实实验中展现出对未见物体的泛化能力。最后是检索增强任务规划器,它将空间信息转化为结构化文本输入VLM,使模型能生成包含抓取点选择、平面对齐方向等细粒度约束的操作规划,再通过轨迹优化转化为机器人可执行的动作。
实验环节覆盖了31个物体实例与11个物体类别,包含单物体单步骤、多物体单步骤及多物体多步骤三类语言指令驱动任务。在120次重复测试中,RAM框架取得89.17%的平均成功率,其中最复杂的多物体多步骤任务成功率达80%。研究还测试了图像引导操作能力,机器人仅需参考目标摆放图即可理解物体相对位置与朝向。在餐具摆放任务中,常规平面场景成功率达92%,复杂高低平面场景成功率仍保持72%,突破了传统方法对俯视参考图的依赖。
针对需要空间推理的自主决策任务,RAM框架展现出显著优势。在清理桌面场景中,机器人需根据桌面高度、垃圾桶尺寸及物体位置选择清扫方案。当直接清扫不可行时,系统能规划借助簸箕的间接方案,平均成功率达65%。这表明通过显式获取空间约束,机器人可排除物理上不可行的语义方案,选择更可靠的操作策略。
研究团队进一步探索了框架在非刚体物体操作中的扩展性。对于笔记本电脑、抽屉等铰接物体,采用多模板匹配策略预设不同开合状态,通过观测结果匹配最接近模板以估计旋转轴或推动方向。在柔性物体操作方面,以叠衣服任务为例,将折叠过程拆解为展开、叠袖等阶段,并为各状态匹配相应模板。实验还初步结合触觉传感器,当抓取过程中物体因重心偏移发生滑动时,系统可利用触觉反馈重新规划抓取姿势。









