网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

京东全球首推全栈开源实时视频交互模型,助力开发者打造智能实景AI助手

2026-06-22来源:互联网编辑:瑞雪

京东近日宣布正式开源全球首个全栈实时视频视觉语言交互模型——JoyAI-VL-Interaction,并同步获得vLLM-Omni框架的初始原生支持。这一突破性成果标志着大模型应用从被动响应转向主动交互,开发者可基于该框架快速构建具备持续观察与实时决策能力的智能助手。

与传统模型依赖用户提问的被动模式不同,JoyAI-VL-Interaction通过持续分析视频流实现自主判断。例如在安防场景中,系统可主动识别异常行为并触发预警,无需等待人工指令;在直播解说场景中,能根据画面变化即时生成解说内容,响应延迟控制在毫秒级。这种主动交互能力源于模型内置的动态决策机制,使其能够区分需要即时响应的场景与可暂缓处理的情况。

该系统的另一核心创新在于多任务协同处理架构。当遇到复杂计算需求(如代码生成、逻辑推理)时,前台模型会智能委托后台大模型或专用Agent执行任务,期间保持对视频流的持续监控。任务完成后,系统能无缝衔接对话上下文,实现"观察-委托-反馈"的闭环交互。这种设计既保证了实时性,又突破了单模型处理能力的限制。

技术文档显示,JoyAI-VL-Interaction支持多模态输入输出,包括摄像头实时流、直播信号、监控视频等视频源,以及语音交互和可视化界面。其模块化设计允许开发者自由替换语音识别(ASR)、语音合成(TTS)、后台模型等组件,甚至可接入自定义业务系统。这种灵活性使其适用于安防监控、老年看护、电商导购、工业操作指导等20余个垂直领域。

在真实场景测试中,该模型展现出显著优势。对比豆包视频通话助手,在58个涉及实时响应的测试案例中取得77.6%的胜率;面对Gemini视频通话助手时,胜率更提升至87.9%。测试场景涵盖监控预警、实时计数、多语言翻译、时间感知等高要求任务,充分验证了模型在动态环境中的可靠性。

目前,京东已开放完整技术资源:代码库托管于GitHub平台,预训练模型及演示版本上传至Hugging Face社区,配套数据集也同步公开。开发者可通过以下链接获取完整开发套件:代码仓库(https://github.com/jd-opensource/JoyAI-VL-Interaction)、模型预览(https://huggingface.co/jdopensource/JoyAI-VL-Interaction-Preview)、数据集(https://huggingface.co/datasets/jdopensource/JoyAI-VL-Interaction)。

特斯拉新动向:Megapod商标申请,AI基建或迎“模块化”新势力
由此看来,眼下特斯拉的新动作,未必是要抢英伟达的GPU生意,更可能盯上的是AI数据中心的另一层生意:电力、储能、冷却、配电和模块化部署。 一边是SpaceX把AI算力变成可出租资产,另一边则是特斯拉用“me…

2026-06-22

苹果折叠屏iPhone再引关注,供应链称2026年秋季发布,多迹象表明上市在即
对此,一位苹果供应链公司人士表示,截至目前,其得到的目标指引是,首款折叠屏 iPhone 将于 2026 年秋季发布。 据此前报道,爆料人Sonny Dickson 本月初放出了一组折叠屏 iPhone 机…

2026-06-22