网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

蚂蚁灵波科技开源世界模型LingBot-World,长时生成稳定交互能力直逼谷歌Genie 3

2026-01-30来源:快讯编辑:瑞雪

蚂蚁灵波科技近日宣布,其自主研发的世界模型LingBot-World正式开源,并同步发布技术报告。这一专为交互式场景设计的开源框架,通过高保真模拟环境与实时交互能力,为具身智能领域提供了新的技术路径。其核心模块LingBot-World-Base能够生成逻辑连贯的虚拟场景,在视频质量、动态表现及长时序一致性等关键指标上达到行业领先水平,部分性能已接近谷歌Genie 3的水准。

针对视频生成领域长期存在的“长时漂移”难题,LingBot-World通过多阶段训练架构与并行化加速技术,实现了近10分钟的稳定输出。在极端测试中,即使镜头移开60秒后返回,场景中的车辆、建筑等物体仍能保持结构完整,动态环境下的物体形态一致性表现尤为突出。该模型支持16帧/秒的实时生成吞吐量,端到端交互延迟控制在1秒以内,用户可通过键盘、鼠标或文本指令即时操控虚拟角色与场景元素,例如调整天气、切换画面风格或触发特定事件,所有操作均能在维持场景几何关系稳定的前提下完成。

为解决交互数据稀缺问题,研发团队采用混合采集策略:一方面从海量网络视频中筛选多样化场景,另一方面通过游戏引擎与虚幻引擎(UE)合成管线,直接提取无界面干扰的纯净画面数据,并同步记录操作指令与相机参数。这种数据构建方式使模型具备强大的零样本泛化能力——仅需输入单张城市街景照片或游戏截图,即可生成对应的可交互视频流,无需针对特定场景重新训练,显著降低了部署成本。

在具身智能应用层面,LingBot-World通过数字世界模拟物理规律,为智能体提供了低成本、高保真的训练环境。其支持光照变化、物体位置调整等场景多样化生成功能,可有效提升算法在真实环境中的适应能力。例如,模型能模拟机器人穿越复杂城市街景的过程,通过动态调整场景参数训练其路径规划与障碍物规避能力。这种“想象物理世界”的能力,为解决真实场景中长程任务训练数据稀缺的问题提供了创新方案。

此次开源的LingBot-World框架包含完整代码库与预训练模型,开发者可通过Hugging Face、魔搭社区及GitHub获取资源。技术报告详细披露了模型架构设计与实验数据,为社区研究者提供了可复现的技术基准。随着该模型的广泛应用,世界模型有望成为连接生成式AI与实体交互的关键纽带,推动具身智能从封闭场景训练向开放环境适应的范式转变。

大模型算法实战全解析:从原理深潜到端侧智能落地的进阶之路
通往未来的道路并非坦途,从理解模型底层的数学原理,到训练出具备行业智慧的专用模型,再到将其稳定、高效地部署到实际业务中,这中间横亘着一条巨大的工程鸿沟。从原理到训练,再到严格的安全红队测试,这一完整闭环将构建…

2026-01-30

OpenAI推理大牛Jerry创业新征程:打造持续学习AI,目标筹集70亿资金
2019年加入OpenAI后,Jerry把这一路积累的方法论完整带进了大模型研究中,不仅主导了首个推理模型o1的研发,也深度参与了o3、GPT-4、ChatGPT、Codex等多条核心模型线的构建。 …

2026-01-30

王兴兴谈AI与机器人:用大模型造顶尖机器人 宇树科技将推新品
访谈中,王兴兴表示:在当前阶段,谁能最先用大模型技术成功制造出机器人,谁就是世界上最顶尖的AI公司。在王兴兴看来,这是最有意义的一件事情。 值得一提的是,近日,宇树科技还将与宸境科技达成联名合作,共同发布两…

2026-01-30

2026抖音旋律营销新洞察:从背景音到主基调,解锁品牌声量增长密码
其凭借听觉记忆留存久、能激发多巴胺分泌的特质,精准捕捉用户情绪,适配多元生活场景。 未来,旋律营销将更注重情绪共鸣与价值认同,AI 创作、场景化体验、文化融合成为核心趋势。品牌需把握旋律从感官刺激到情绪催化再…

2026-01-30

字节跳动2026年定调“勇攀高峰”:聚焦AI模型,提升人才密度共赴新程
此外,他还表示,在攀高峰的过程中,公司每个业务都有需要重点突破的地方,而重中之重,是 AI 模型能力要做到行业前列,并通过助手整合好已有业务,整体攀上新的高度。IT之家注意到,梁汝波还提到,要实现勇攀高峰就…

2026-01-30

七彩虹COLORFIRE MEOW R16 Pro评测:萌趣外观搭配强劲性能,PC42Q硬盘实力助攻
从调度上来说,该款MEOW R16 Pro在CPU+GPU同时负载的情况下选择了牺牲部分CPU性能,主保GPU的满功率运行,从实际角度上来说确实也更加贴近日常游戏中的首要满足显卡满血运行的需求,毕竟CPU在游…

2026-01-30