京东开源全球首个全栈实时视频视觉语言交互模型JoyAI-VL-Interaction 赋能多场景AI助手-网界

京东近日正式开源了全球首个全栈开源的实时视频视觉语言交互模型——JoyAI-VL-Interaction，并获得vLLM-Omni的day-0原生支持。这一创新模型标志着大模型交互方式从传统的“一问一答”模式向“边看边说”的动态交互迈出了重要一步，为开发者构建具备持续观察、自主判断和即时响应能力的实景AI助手提供了全新框架。

与传统模型依赖用户发起问题后才开始处理画面的被动模式不同，JoyAI-VL-Interaction具备主动判断能力。它能够持续观察视频流，自主分析场景变化，无需等待指令即可决定何时需要输出信息或保持沉默。这种特性在安防监控、老人看护等需要实时响应的场景中具有显著优势，避免了因延迟导致的风险或体验下降。

在实时性方面，该模型突破了传统视频理解需上传完整文件后再分析的限制。针对安防预警、实时翻译、直播解说等对时间敏感的场景，JoyAI-VL-Interaction可对正在发生的视频流进行即时处理，画面变化时立即响应，确保信息传递的时效性。例如，在直播带货场景中，模型能实时识别商品特征并生成解说内容，提升互动效率。

模型还引入了“适时智能体委托”机制，通过前后台协同优化任务处理效率。当遇到生成代码、复杂推理等需要高算力支持的任务时，前台模型可将任务委派给后台大模型或Agent，自身继续保持对现场的观察。任务完成后，结果无缝融入对话流程，实现观察与交互的并行处理。这种设计既保证了响应速度，又提升了复杂任务的处理能力。

在技术适配性上，JoyAI-VL-Interaction支持摄像头、直播流、监控流等多种视频输入方式，并兼容语音输入输出、可视化界面、长期记忆等功能。开发者可根据需求灵活替换ASR语音识别、TTS语音合成、后台模型等组件，甚至接入自定义业务系统或前端界面。这种模块化设计降低了技术整合门槛，加速了应用落地速度。

目前，该模型已在监控预警、实时计数、直播导览等58个真实流式场景中完成评测。对比豆包视频通话助手，JoyAI-VL-Interaction总体胜率达77.6%；与Gemini视频通话助手的对比中，胜率提升至87.9%。这些数据验证了模型在视觉触发响应和实时性方面的优势，为其在安防监控、电商导购、操作指导、AI眼镜、无障碍辅助等领域的商业化应用奠定了基础。