网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

百亿资金难解渴!具身智能新方向:世界模型、架构、数据与硬件如何破局?

2025-11-21来源:快讯编辑:瑞雪

在近日举办的2025智源具身Open Day活动上,智源研究院向外界全面展示了其在具身智能领域的最新研究成果,并组织多场行业圆桌讨论,聚焦当前具身智能发展的核心议题。此次活动汇聚了众多业内专家与企业代表,共同探讨具身智能的未来方向。

智源研究院院长王仲远在开场演讲中,介绍了过去一年在具身智能方向取得的两大关键进展:世界模型的突破与具身大脑全栈体系的构建。他重点介绍了原生多模态世界模型Emu3.5,该模型在训练数据量和参数规模上均有显著提升,训练数据从15年视频扩展至790年,参数规模从8B提升至34B。同时,引入自研DiDA技术,使视频和图像生成速度大幅提升,达到与Diffusion、DiT类模型相当的水平。王仲远指出,Emu3.5不再局限于语言主导的“下一个Token预测”,而是专注于具身智能所需的“下一时空状态预测”。

在具身大脑全栈体系方面,智源研究院正在构建跨异构本体的具身智能体系,包括RoboBrain(具身大脑)、RoboOS(跨本体操作系统)和基于VLA的RoboBrain-0。这些模型已在多种形态的机器人本体上部署,能够完成从导览、导购到复杂交互的多样化任务。智源还展示了在全身控制方向的能力,宇树G1机器人在其控制框架BAAI Thor的支持下,成功完成拖动1.4吨汽车的实验。

活动现场的圆桌讨论环节,围绕多个关键问题展开深入探讨。在“世界模型是不是实现具身智能的关键”这一议题上,王仲远认为,如果世界模型仅停留在视频生成层面,未必能成为具身智能的基座。北京大学助理教授、银河通用创始人及首席技术官王鹤也强调,机器人需要的是根据自身形态和目标预测下一步状态的世界模型,这类模型必须基于大量机器人专属数据构建。

关于“具身智能是否需要统一架构”的问题,招商局集团AI首席科学家张家兴提出,具身智能未来不应继续沿用“大模型的语言中心范式”,而需要一套“先行动、再视觉、最后语言”的具身原生结构,以行动与感知为核心。智元机器人首席科学家罗剑岚则认为,具身智能的最终“大模型”不会是单体模型,而是由VLA、世界模型和RL组成的闭环系统。

在数据层面,多位嘉宾强调了真实数据的重要性,认为机器人必须在真实场景中学习真实性、多样性和规模化。王鹤指出,仿真数据是当前更现实的突破口,许多底层控制能力依赖大量强化学习,而这些训练在真实世界中几乎无法完成。王仲远则认为,视频数据是最容易大规模获取且最接近真实世界的数据形式,其价值类似于孩子通过视频认识世界,再通过真实交互提升技能。

当被问及“如果有100亿元推进具身智能会如何分配”时,多位嘉宾给出了不同答案。自变量创始人兼CEO王潜认为,第一优先级是吸纳顶尖人才,其次是算力和数据投入。加速进化创始人兼CEO程昊则表示,100亿元其实不够,更重要的是用愿景吸引全球科研人才。星海图联合创始人赵行提出要打造覆盖物理世界的最大数据引擎,张家兴则希望将资金用于打造属于具身智能的模型体系。

在另一场关于硬件的圆桌讨论中,嘉宾们围绕“人形机器人是否是具身智能的最终形态”展开辩论。多位嘉宾达成共识:模型与硬件并非相互定义,真正的决定要素是场景。星源智创始人兼CEO刘东认为,具身智能体系应分层构建,上层大模型可跨本体复用,但小脑层模型需根据硬件结构调整。北京人形机器人创新中心CTO唐剑直言,模型和硬件都无法单独定义对方,场景才是决定机器人形态的关键因素。

2025乌镇峰会启幕:聚焦10周年理念 共绘数智未来新蓝图
2025年世界互联网大会乌镇峰会今天(7日)上午在浙江乌镇开幕。今年峰会聚焦构建网络空间命运共同体理念提出10周年,在集中呈现全球互联网领域最新发展成果的同时,还将开展一系列新议题和新活动。 本届乌镇峰会以“…

2025-11-21

阿里“千问”出海竞逐,凭实力与生态优势挑战全球AI格局
谷歌前CEO埃里克·施密特警告说,美国最大的AI模型是闭源且收费的,而中国最大的AI模型却是开源且免费的,最终全球大多数国家可能会转去使用中国AI技术。在中美科技博弈的关键时刻,千问的背后不仅代表着中国AI的…

2025-11-21

李彦宏AI数字人亮相业绩会20分钟流畅英文介绍 百度AI应用再获新进展
在最新举办的百度三季度业绩电话会上,百度创始人李彦宏的AI数字人完成了近20分钟的全英文业绩介绍,语速流畅,停顿自然,全场没有分析师察觉。北京某互联网人士对记者分析说,倘若AI数字人在百度业绩交流会上“跑通”…

2025-11-21

微博15亿参数小模型VibeThinker:7800美元成本,数学赛场逆袭“大块头”
需要说明的是,VibeThinker目前发布的版本尚处于实验性版本,其研发重点主要集中于极大强化小模型复杂数学与竞赛编程等方面的能力,其在日常聊天等能力还没有做过针对性训练优化,所以暂不适合作为日常聊天工具…

2025-11-21