在人工智能领域,世界模型正成为新的焦点。随着技术发展,具身智能行业迎来关键转折点,传统视觉-语言-动作模型(VLA)的局限性逐渐显现,而世界模型正以独特优势崭露头角。英伟达在GTC大会上提出Physical AI概念,预测工业与机器人市场规模可达50万亿美元;红杉AI峰会上,英伟达机器人负责人Jim Fan更直言行业重心正从VLA转向世界动作模型(World Action Models)。这些动向表明,让AI真正理解物理世界已成为技术演进的核心方向。
VLA技术虽在分拣、仓储搬运等结构化场景中验证了价值,但其数据依赖性强、泛化能力不足、缺乏记忆机制等问题在复杂场景中愈发突出。例如,当物体、光照或布局发生变化时,模型往往需要重新采集数据;面对物理因果关系和长期后果预测时,稳定性难以保证;任务完成后也难以沉淀经验。这些问题促使行业重新思考:机器人仅能"看懂指令"远远不够,更需要具备理解世界运行规律、预测行动后果、持续修正认知的能力。
世界模型的价值正体现在此。它通过内部推演机制,让机器人在行动前模拟不同选择的结果:抓取杯子是否会倾倒?前行路线是否被障碍物阻挡?先开柜门再取物是否更高效?这种能力与人类过马路时的判断逻辑相似——无需精确计算所有变量,仅凭对世界运行规律的认知就能做出合理决策。这种心智模型的形成,正是当前具身智能突破的关键。
具脑磐石公司正沿着这条路径展开技术攻关。创始人朱森华将世界模型的技术路线拆解为五层架构:第一层视觉真实解决3D空间理解问题;第二层物理真实建模重力、摩擦等物理规律;第三层交互真实通过仿真强化学习积累经验;第四层抽象表征采用JEPA架构减少像素级依赖;第五层主动推理引入认知神经科学理论,实现"假设-预测-行动-修正"的闭环。这种分层设计既覆盖了从感知到认知的全链条,又突出了类脑智能的核心特征。
与纯学术研究不同,具脑磐石的技术路线具有鲜明的工程化导向。其认知世界模型在JEPA架构基础上,增加了感知、规划、行动、反馈等完整链路,形成面向具身落地的增强版解决方案。公司重点攻关四个方向:多模态感知编解码机制提升环境理解效率;动态预测机制模拟物理交互后果;终身学习机制实现经验沉淀;稀疏计算架构满足端侧部署需求。这些技术突破最终指向四个关键指标:低数据依赖、高场景泛化、持续学习能力、低功耗运行。
这家成立于2025年的公司,近日完成亿元级融资,由具备类脑与具身产业背景的顶尖资本领投。投资方看重的不仅是世界模型的热度,更是团队独特的复合背景:创始人朱森华兼具认知神经科学博士背景与华为云AI算法创新Lab主任的产业经验;联合创始人刘晋宇则带来AI机器人产品化与全球商业化的实战经验。核心团队覆盖清华、北大等顶尖院校,以及华为、旷视等头部企业,形成从理论研究到工程落地的完整能力链。
在商业化路径上,具脑磐石采取"模块复用+场景闭环"策略。公司优先开发具身技能学习、认知导航等可复用模块,通过真实场景验证形成数据与现金流闭环。目前已在国内外推进多个行业客户概念验证(PoC),并签约多家战略合作伙伴。产品规划上,公司提出"一脑多机、一脑多形"的演进路线:短期实现多机协作,中期探索单一模型适配不同本体,长期向行业开放通用具身大脑。这种务实策略既降低了技术落地门槛,又为持续迭代提供了数据支撑。