地瓜机器人&CASIA新突破：单目方案让机器人轻松抓取透明物体-网界

在机器人技术的前沿探索中，一项关于透明物体抓取的重大突破近日由地瓜机器人携手中国科学院自动化研究所多模态人工智能系统全国重点实验室共同宣布。他们的研究成果——MODEST单目透明物体抓取算法，成功入选即将于2025年举行的IEEE机器人与自动化国际会议（ICRA 2025）论文名录，标志着该技术在国际舞台上的认可。

透明物体，如水杯、试管乃至窗户，虽广泛存在于我们的日常生活中，但其独特的折射与反射特性却给机器人的视觉感知带来了巨大挑战。在常规的RGB图像中，透明物体往往因缺乏鲜明的纹理而难以与背景区分，同时，现有的商用深度相机也难以精确捕捉这些物体的深度信息，导致机器人在处理这类物体时捉襟见肘。

为了攻克这一难题，地瓜机器人与中科院自动化所的研究团队联合推出了MODEST框架。这一创新性的多任务框架专注于透明物体的单目深度估计与语义分割，通过巧妙的语义和几何融合模块，结合特征迭代更新策略，显著提升了深度估计与语义分割的准确性，特别是在抓取成功率和系统泛化性上实现了质的飞跃。

MODEST算法框架作为通用抓取模型的前置增强模块，其即插即用的特性无需依赖额外的传感器，仅凭单张RGB图像即可实现对透明物体的精准抓取。这一特性使得MODEST在智能工厂、实验室自动化以及智慧家居等多个领域具有广泛的应用前景，不仅降低了设备成本，还显著提升了机器人对透明物体的操作能力。

MODEST的核心在于其针对透明物体的深度估计能力。通过设计的语义和几何结合的多任务框架，MODEST能够准确获取透明物体的深度信息，并结合基于点云的抓取网络实现抓取操作。这一过程相当于在通用抓取网络前增加了一个专门针对透明物体的增强模块，从而大幅提升了抓取的精准度和成功率。

MODEST模型的整体架构由编码、重组、语义几何融合和迭代解码四个模块组成。输入的单目RGB图像首先经过基于ViT的编码模块处理，随后被重组为多尺度特征，分别对应分割和深度两个分支。在融合模块中，这两组特征被混合并增强，通过多次迭代逐步更新特征，最终获得准确的分割结果和深度预测。

为了验证MODEST算法的有效性，地瓜机器人将其迁移至真实机器人平台进行了透明物体抓取实验。实验平台由UR机械臂和深度相机组成，在MODEST算法的精准感知基础上，采用GraspNet进行抓取位姿的生成。实验结果显示，MODEST算法在真实平台上表现出了良好的鲁棒性和泛化性，能够在各种透明物体上实现稳定且精准的抓取。