网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌DeepMind突破AI长视频处理瓶颈:延迟降低35%,帧数与准确率双提升

2026-05-26来源:快讯编辑:瑞雪

当人工智能尝试理解一部两小时的电影时,它面临的挑战堪比人类在一秒钟内读完整本厚书。传统视频处理系统在面对长视频时,总会遭遇一道难以突破的计算瓶颈。谷歌DeepMind与首尔国立大学联合开发的新型视觉编码器Liteframe,为破解这一难题提供了全新思路。这项研究成果以预印本形式发布,编号为arXiv:2605.17260,标志着视频理解技术进入效率革命的新阶段。

主流视频AI系统普遍采用"视觉编码器+语言模型"的架构模式。视觉编码器像眼睛般逐帧扫描画面,将每帧图像转换为数字信号;语言模型则扮演大脑角色,对这些信号进行理解和推理。问题在于,视频帧数与计算量呈指数级增长关系——帧数翻倍时,视觉编码器和语言模型的工作量都会大幅增加,而语言模型处理复杂度更呈平方级上升。实验显示,现有系统如InternVL3-8B最多只能处理64帧画面,超过这个阈值系统性能就会急剧下降。

针对计算瓶颈问题,传统解决方案采用"事后削减"策略:先完整处理所有帧生成大量视觉令牌,再通过技术手段删减重复信息。这种方法虽减轻了语言模型负担,却将压力转移至视觉编码器。研究团队通过实验证明,在16倍压缩率条件下,语言模型处理时间显著降低,但视觉编码器耗时成为新的性能瓶颈。随着帧数增加,系统整体速度反而更慢,这种"头痛医脚"的解决方案暴露出根本性缺陷。

研究团队在系统测试中发现关键规律:AI理解能力与输入帧数呈对数正相关。在Video-MME、MLVU等主流测试集上,帧数增加始终能提升准确率,尽管边际效益逐渐递减。这一发现促使团队转变思路:若能在相同计算预算下处理更多帧数,就能显著提升系统性能。这种认知直接催生了Liteframe的核心设计理念。

在正式推出Liteframe前,研究团队先验证了加权平均池化(WAP)技术的有效性。该方法通过评估像素区域重要性进行差异化信息保留,在16倍压缩比条件下达到62.0%的平均准确率,显著优于传统采样方法。更重要的是,实验证实用压缩信息换取更多帧数的策略具有显著优势:在相同视觉令牌总量下,处理16倍压缩后的16倍帧数比处理原始帧数效果更好。这为Liteframe的诞生奠定了理论基础。

Liteframe的创新在于重构了视觉编码器的核心架构。这个仅8700万参数的轻量级模型(仅为传统模型的29%),通过两大关键设计实现效率飞跃:深度可分离一维时间卷积模块专门识别帧间重复信息,在对话场景等静态画面中可自动合并重复内容,计算成本比注意力机制降低60%;渐进式压缩机制在第4层和第8层插入步进卷积层,逐步缩减特征图分辨率,最终将每帧256个视觉令牌压缩至16个。这种"源头压缩"策略使视觉编码器耗时降低70%,彻底改变了传统处理流程。

训练这个"聪明眼睛"的关键在于压缩令牌蒸馏(CTD)技术。研究团队让大型教师模型生成完整视觉令牌后,用WAP技术压缩为精华令牌,再训练Liteframe直接预测这些精华信息。这种训练方式使模型内化了信息重要性判断能力,推理时无需额外计算即可输出高质量精简特征。对比实验显示,CTD训练的准确率比重构令牌蒸馏(RTD)高出1.3-2.6个百分点,证明明确指导信息筛选比让模型自主探索更有效。

为使语言模型适应新编码器输出,研究团队采用LoRA技术进行轻量级微调。在8块H100 GPU上训练数小时后,语言模型即可高效处理Liteframe输出的16个视觉令牌格式。实验发现,低秩设置(秩=4)比高秩设置效果更好,表明语言模型只需小幅调整即可适应新输入格式。这种高效适配机制确保了系统整体性能的提升。

综合测试显示,Liteframe在128帧条件下将端到端延迟从403.6毫秒降至272.6毫秒,准确率从62.2%提升至63.7%;处理256帧时,延迟降低34.6%的同时准确率微升0.4个百分点。与需要额外预筛选模块的AutoGaze方法相比,Liteframe在256帧条件下的延迟不足其十分之一,准确率却高出2.6个百分点。在高分辨率测试中,Liteframe通过分块处理策略实现零样本泛化,在2688像素、48帧配置下取得54.1分,超越需要3584像素和1024帧的AutoGaze方法。

消融实验清晰展示了各组件的贡献值:仅缩小模型规模会导致准确率下降2个百分点;加入压缩架构后准确率恢复至61.9%;采用深度可分离卷积使延迟进一步降低14.5%;CTD训练将准确率提升至62.8%;最终加上语言模型适配后,系统在87.4毫秒延迟下达到63.4%准确率,全面超越基准系统。这些数据验证了Liteframe设计理念的科学性。

研究团队同时指出当前工作的局限性:训练数据规模限制了模型处理超长视频的能力,未在静态图像测试集评估性能,更小规模模型训练存在不稳定问题。这些边界为后续研究指明了方向,而"内化压缩"理念已为视频AI效率提升开辟了全新路径。对于普通用户而言,这意味着未来的AI视频助手将具备更强的长视频处理能力,在监控分析、内容审核、智能问答等场景将发挥更大价值。技术细节可通过论文编号arXiv:2605.17260深入探究。

OPPO Reno16系列携3D悬浮美学登场 潮玩生态新品助力学生开启智慧新学期
本次发布会围绕年轻用户学习、创作、社交、直播、游戏全场景需求,以潮流美学、实况影像创新、AI 智慧体验、跨设备生态协同为核心,实现手机、平板、耳机无缝联动;同时推出学生专属购机补贴,为学生群体打造一站式入学…

2026-05-26

雷神ZERO Air 15“小轻龙”游戏本评测:轻薄机身搭配强劲性能与存储
主板还配备两个M.2固态硬盘插槽,一个2242和一个2280,标配一块1TB容量2242规格的长江存储PC42Q固态硬盘,这款OEM产品在国产品牌整机中比较常见,综合性能和采购成本方面有着较大的优势,224…

2026-05-26

三款热门耳夹式耳机深度测评:从音质到佩戴,哪款才是你的理想之选?
接下来就围绕大家最在意的佩戴舒适度、听歌音质、通话收音、日常漏音四大核心维度,进行全方位实测对比,直观理清各自优缺点,轻松帮大家精准选到适配自己需求的耳机。 实测结果一目了然:安静室内环境下,三款耳机通话清晰…

2026-05-26

兴民智通5月25日跌3.06%,业务多元布局,主力资金流出后市何去何从?
(免责声明:分析内容来源于互联网,不构成投资建议,请投资者根据不同行情独立判断)主营业务收入构成为:钢制车轮78.52%,边角料、车载信息服务等11.16%,智驾服务10.31%。 兴民智通所属申万行业为…

2026-05-26

具脑磐石获亿元级融资:类脑智能驱动,具身智能迈向认知新时代
这一从算法到系统的推进方式,也构成了具脑磐石对具身智能2.0的理解:不是让机器人在演示中完成更多动作,而是让机器人真正具备接近人类大脑的认知能力——从少量经验中学习抽象规律,在复杂环境中持续感知和记忆,并在…

2026-05-25