网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

全新架构打破模态壁垒!LongCat-Next开源,AI原生理解多模态世界成现实

2026-06-05来源:天脉网编辑:瑞雪

全球人工智能领域正掀起一场以“原生多模态”为核心的技术变革浪潮。传统大模型依赖“语言中心+外挂模块”的拼装模式,导致不同模态间存在天然隔阂。近日,一支顶尖研发团队推出开源模型LongCat-Next,通过构建统一的离散表示体系,使AI首次具备原生处理多模态信息的能力,这项突破被业界视为打破模态壁垒的关键里程碑。

该模型的核心创新在于DiNA(离散原生自回归)架构的提出。研究团队发现,在统一建模框架下可构建语义完备的离散表征,进而将图像、语音、文字统一转化为同源离散单元。这种设计使所有模态共享同一套参数空间,通过“下一Token预测”机制实现跨模态推理。相较于传统多模态模型需要分别投影再融合的复杂流程,新架构将计算复杂度降低60%,部署资源需求减少45%,真正实现了“轻量化与高性能的平衡”。

在视觉处理领域,团队研发的dNaViT技术开创了原生分辨率处理新范式。该分词器采用8层残差向量量化机制,在保持28倍像素压缩率的同时,通过双轨生成解码器确保信息保真度。实验数据显示,在处理医学影像、复杂工程图纸等高精度任务时,其细节还原准确率较传统方法提升37%。这种“图像-Token-图像”的闭环设计,使模型能够自主生成符合语义的视觉表征,而非简单模仿人类视觉模式。

针对离散化导致的信息损失难题,研究团队构建的SAE语义对齐编码器展现出强大能力。通过层级化特征拟合技术,该编码器在保持98.7%语义完整性的前提下,将连续表示压缩至离散空间。在基准测试中,以LongCat-Flash-Lite MoE(685亿总参数)为基座的模型,在OmniDocBench跨模态任务中同时超越Qwen3-Omni和专用视觉模型Qwen3-VL,特别是在图表解析、文档理解等细粒度任务中表现突出,彻底颠覆了“离散模型不擅长细节感知”的固有认知。

值得关注的是,该模型在保持跨模态优势的同时,语言核心能力未受任何影响。在MMLU-Pro专业领域测试中,其得分较前代模型提升12%;代码生成任务SWE-Bench中,通过率超越同类产品23个百分点。音频处理方面,模型支持中英文零延迟语音合成,误字率控制在0.3%以下,并实现个性化语音克隆功能,仅需3秒样本即可生成高度相似的语音输出。目前,该模型已在GitHub和HuggingFace平台全面开源,配套发布的开发工具包已吸引超过2.3万开发者下载使用。