网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

北大与UCSD团队提出VideoOrion:Object Tokens解锁视频理解新维度

2025-11-28来源:快讯编辑:瑞雪

在视频理解领域,北大与UCSD联合团队提出了一项创新框架——VideoOrion,其论文被国际计算机视觉顶会ICCV 2025以高分接收。该研究针对现有Video-LLM模型依赖下采样或特征聚合导致细节丢失、语义纠缠的问题,提出将视频中前景物体的时空动态显式编码为“对象令牌”(Object Tokens),并与背景上下文令牌(Context Tokens)并行输入大语言模型(LLM),构建出兼具高效性与可解释性的视频理解系统。

传统方法通常将视频帧分割为空间网格或聚合特征生成令牌,但这种处理方式容易混淆不同物体的语义信息。VideoOrion的创新之处在于,它将视频中的对象及其跨帧演化视为独立语义单元,通过“检测-分割-跟踪”三步流水线提取对象动态。具体而言,系统首先利用通用检测模型GroundingDINO在关键帧生成候选框,再通过分割模型SAM细化对象掩码,最后用跨帧跟踪器XMem生成随时间变化的掩码序列。这些掩码经过特征池化与投影后,形成语义解耦的Object Tokens,每个令牌对应一个独立物体的动态信息。

在双分支编码架构中,Context Tokens分支采用CLIP或SigLIP模型对采样帧进行编码,生成承载背景与场景信息的上下文令牌;Object Tokens分支则通过上述流水线提取对象级动态。两类令牌被并行输入LLM进行融合推理,使模型既能捕捉全局场景信息,又能聚焦关键对象的细节变化。例如,在描述“红色三轮滑板车”时,模型不仅能识别其颜色与类型,还能解析“拖地组件”等细节;在分析动作场景时,可精确分解“黑色泳装跳板后空翻”中的动作要素。

实验表明,VideoOrion在MVBench、EgoSchema、Perception-Test等五大基准测试中全面超越同规模模型。以7B参数版本为例,其在MVBench上的准确率达63.5%,较VideoLLaMA2提升10.1%;在EgoSchema上得分65.1,涨幅达14.6%。特别在视频指代任务中,该框架展现出独特优势:通过在提示模板中填入目标对象对应的令牌,即可直接回答“这个物体在做什么”等问题。在VideoRef45K数据集上,经少量微调后,其BLEU@4、METEOR等指标均显著优于Artemis、Merlin等现有方法。

研究团队通过消融实验验证了设计合理性:移除对象分支会导致性能全面下降;预训练对象分支可提升模型表现,说明对象令牌需先学习基础语义再与文本对齐;令牌数量控制在64个时模型最稳定,过多会分散注意力。流水线组件替换实验显示,RAM++自适应分段策略与XMem跟踪器的组合效果最佳,较均匀分段或SAM2跟踪均有明显优势。

尽管VideoOrion在性能上取得突破,但研究也指出其局限性:引入专用视觉模型带来约38.5%的时延开销,低质量视频可能导致掩码不准确;当前仍依赖视频分支提供上下文,对象-场景融合机制需进一步优化。该框架通过结构化重写视频语义,为视频问答、机器人感知等任务提供了新范式,其双视角编码思路或推动多模态领域向更精细化的方向发展。

京东2025世界智能制造大会展实力,携手伙伴共启智能机器人规模化新程
作为以供应链为基础的技术与服务企业,京东携手宇树科技、众擎、云深处、鹿明、可以科技、蔚蓝、元萝卜等30余家全球顶尖机器人品牌联合亮相,全面展示其在零售供应链、AI生产力、智能物流、工业数智装备四大板块的前沿…

2025-11-28

一加Ace 6T全球首发第五代骁龙8,性能续航全面升级,11月27日揭秘更多
第五代骁龙8旗舰移动平台采用与第五代骁龙 8 至尊版相同工艺,最新旗舰 3nm 工艺;采用与第五代骁龙 8 至尊版相同的第三代 OryonCPU 架构,最新一代 Adreno GPU 和最新一代 NPU、…

2025-11-27

骁龙8 Gen5新机来袭!首发356W跑分+8000mAh+大电池太能打
新芯片采用跟骁龙 8 Elite Gen5 一样的 3nm(N3p)制程工艺,同样的高通第三代 Oryon CPU 定制架构跟 GPU架构... 这砍的比果子想象中狠啊,果子以为是 6MB 或者 8MB…

2025-11-27

华为Mate 80系列11月28日开售,性能影像升级,起售价4699元
拥有不少优势,比如硬核性能、新一代影像、无网通信、耐摔机身、鸿蒙AI等方面,新机的核心很明确,毕竟是年度旗舰机。华为现在的新机所具备的优势越来越明显,尤其是配置与系统,自研率逐步提升。华为Mate 80新机…

2025-11-27