网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

北大与字节联合推出Open-o3 Video:显式时空证据嵌入,视频推理有迹可循

2025-11-05来源:快讯编辑:瑞雪

在人工智能领域,视频理解一直是极具挑战性的课题。近日,一支由北京大学与字节跳动联合组成的科研团队,成功研发出全球首个将显式时空证据嵌入视频推理全过程的开源模型——Open-o3 Video。该模型突破传统视频推理的局限,不仅能准确回答问题,还能在推理过程中同步标注关键事件的发生时间和具体位置,实现真正意义上的可追溯推理。

视频理解任务要求模型同时处理时间维度的动态变化与空间维度的场景交互。传统模型虽能识别画面中的物体和动作,却难以准确判断事件发生的具体时间和位置。Open-o3 Video通过创新性的技术架构,成功解决了这一难题。该模型采用非agent架构设计,避免了复杂的工具调用和多轮推理,在单次回复中即可完成"观察-思考-验证-回答"的完整闭环。实验数据显示,在多个视频推理测试中,其关键指标较现有模型提升最高达24.2%,性能表现超越GPT-4o和Gemini-2-Flash等闭源模型。

研发团队指出,实现视频推理的可解释性面临两大核心挑战:一是保持文本、时间戳和物体检测框在推理过程中的一致性;二是解决时空耦合监督数据的严重缺失问题。现有数据集要么仅提供时间标注,要么只有空间标注,缺乏统一的时空标注体系。为突破这一瓶颈,团队构建了首个面向显式时空推理的统一语料体系STGR,包含30万条监督微调数据和3.6万条强化学习数据,其中5900条高质量时空数据通过严格标注流程确保数据质量。

该模型采用独特的双阶段训练机制:首先通过监督微调阶段让模型掌握推理格式与输出规范,再通过基于GSPO的强化学习阶段优化时空对齐能力。研发团队特别设计了自适应时间临近性机制和时间门控机制,前者通过动态调整时间奖励的容忍范围实现从粗定位到精定位的收敛,后者确保空间奖励计算仅在时间预测准确时启动。这种创新训练方式使模型能够稳定高效地学习时空推理能力。

在基准测试中,Open-o3 Video展现卓越性能。在时空推理基准V-STAR上,其时间对齐和空间对齐指标分别提升14.4%和24.2%;在VideoMME、WorldSense等四个主流测试集中,模型在需要复杂推理的时空任务和传统视频识别任务中均表现突出。特别是在VideoMME-Long子任务中,模型准确率达到54.9%,较基线模型提升4.1个百分点。

消融实验验证了模型设计的有效性:双阶段训练机制使模型性能提升显著,关键奖励机制确保训练稳定性,统一时空标注数据对推理能力提升至关重要。可视化结果显示,模型在处理物体识别、动作分析和环境推理等任务时,不仅能给出准确答案,还能提供时间戳和目标框等可验证证据,使推理过程透明可信。

目前,该研究的论文、代码和模型已全部开源。这一突破性成果为视频多模态模型的发展开辟了新方向,有望推动人工智能从"能理解"向"能定位、能解释"的更高阶段迈进。科研团队表示,将持续完善时空推理数据与训练机制,为更长视频、更复杂场景下的问答任务提供可靠支撑。

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13