网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

宇树发布开源UnifoLM-VLA-0模型 推动通用人形机器人操作能力升级

2026-01-30来源:快讯编辑:瑞雪

近日,宇树科技宣布正式开源其最新研发的通用人形机器人操作大模型——UnifoLM-VLA-0。该模型基于视觉-语言-动作(VLA)架构,通过整合机器人操作数据与多模态预训练技术,实现了从传统图文理解向具备物理交互能力的"具身智能"的跨越式发展。

针对机器人操作场景中指令理解与空间感知的特殊需求,研发团队创新性地构建了包含2D/3D空间信息的预训练数据集。该数据集覆盖2D检测分割、任务层级分解、3D目标检测等八大维度,通过持续预训练使模型具备精准的空间位置推理能力。实验数据显示,在真机验证环节,单一策略网络即可完成包括抓取、放置、工具使用等在内的12类复杂操作任务。

技术实现层面,模型以Qwen2.5-VL-7B开源模型为基础,通过系统化清洗约340小时真机操作数据,构建了包含离散动作标注的动力学预测数据集。研发团队引入动作分块预测机制与双向动力学约束,使模型能够统一建模动作序列,显著提升对物理交互规律的理解能力。这种设计支持长时序动作规划,在零样本测试中展现出强大的任务泛化性能。

在性能评估方面,该模型在三个权威空间理解基准测试中均取得突破性进展。对比基线模型Qwen2.5-VL-7B,其空间感知能力提升达47%,在"no thinking"模式下更达到与Gemini-Robotics-ER 1.5相当的水平。特别在LIBERO仿真基准测试中,多任务处理性能接近理论最优值,验证了单模型通用化的可行性。

真机实验环节,基于宇树G1人形机器人平台构建的12类操作任务数据集发挥了关键作用。通过统一端到端训练策略,模型在单一策略checkpoint下实现全部任务稳定执行,即使在外部扰动条件下仍保持89%以上的任务成功率。这种抗干扰能力为机器人实际部署提供了重要保障。

目前,该项目已完整开源模型代码与训练数据集,开发者可通过项目主页(https://unigen-x.github.io/unifolm-vla.github.io/)获取技术文档,或访问GitHub仓库(https://github.com/unitreerobotics/unifolm-vla)参与社区开发。此次开源将推动具身智能领域的技术共享与生态建设,为通用人形机器人的商业化落地奠定基础。

REDMI Turbo 5 Max深度评测:2.5K价位新标杆 性能颜值双在线
全新的REDMI Turbo 5Max自公布之后,凭借全球首发天玑9500s平台、旗舰同款的6.83英寸M10发光材料的屏幕、还升级了1115F对称立体双扬声器,配合上REDMI Turbo家族的标识性涡轮…

2026-01-30

iPhone15Pro升级iOS26.2.1实测:续航提升信号改善,整体体验更出色
苹果这两天罕见的一次发布了6个iOS系统更新,那么大家最为关心的还是iOS26.2.1正式版了,很多果粉升级后表示这优化确实好,但也有用户十分纠结,到底要不要继续升级呢? iPhone15Pro从iOS26.…

2026-01-30

头戴式耳机怎么选?十大品牌全维度测评,从音质到舒适度一网打尽!
它出自拥有30年声学研发经验的团队,品牌一直走“轻奢性价比”路线,不搞铺天盖地的广告营销,全靠硬核技术和能打的音质圈粉。 总的来说,漫友H20Pro就是款无短板的“六边形战士”,音质、降噪、舒适、续航、智能化…

2026-01-29