网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌DeepMind新AI模型:让机器人无训练执行现实任务?

2025-03-12来源:ITBEAR编辑:瑞雪

谷歌DeepMind在人工智能领域再次迈出重要一步,推出了两款旨在增强机器人现实世界应用能力的新型AI模型。这一消息在科技界引起了广泛关注。

其中一款名为Gemini Robotics的模型,融合了视觉、语言和行动能力,使机器人能够在未经特定训练的情况下,理解并适应新环境。这一突破性进展得益于Gemini 2.0,谷歌最新的AI旗舰模型。据DeepMind机器人部门的高级总监Carolina Parada介绍,Gemini Robotics通过引入物理行动的新模态,将Gemini的多模态世界理解能力应用到了现实场景中。

Gemini Robotics在构建高效机器人所需的三大核心领域——通用性、互动性和灵活性上取得了显著进展。它不仅能够应对各种新情境,还在与人类及环境的互动中表现出色,且能执行更加精细的物理操作,如折纸或开启瓶盖等。

另一款模型名为Gemini Robotics-ER(具象推理),它被描述为一种先进的视觉语言模型,能够“理解复杂且动态的世界”。Parada解释说,在日常活动中,如装便当盒时,机器人需要考虑物品的位置和操作步骤,这正是Gemini Robotics-ER所擅长的。机器人专家可以通过该模型与现有的低级控制系统对接,实现由Gemini Robotics-ER驱动的新功能。

DeepMind的研究员Vikas Sindhwani透露,公司正在开发一种“分层安全策略”,并指出Gemini Robotics-ER模型已被训练用于评估特定情境下动作的安全性。DeepMind还发布了新的基准和框架,以推动AI领域的安全研究。去年DeepMind推出了“机器人宪法”,这是一套受艾萨克·阿西莫夫启发的机器人行为规范。

在合作方面,DeepMind与Apptronik携手,共同致力于“打造下一代人形机器人”。同时,DeepMind还向包括Agile Robots、Agility Robotics、波士顿动力和Enchanted Tools在内的多家“受信任的测试者”开放了Gemini Robotics-ER模型。Parada表示:“我们专注于开发能够理解物理世界并在其中行动的智能,我们非常期待将这一技术应用于多个领域和多种表现形式。”

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13