全新架构打破模态壁垒！LongCat-Next开源，AI原生理解多模态世界成现实-网界

全球人工智能领域正掀起一场以“原生多模态”为核心的技术变革浪潮。传统大模型依赖“语言中心+外挂模块”的拼装模式，导致不同模态间存在天然隔阂。近日，一支顶尖研发团队推出开源模型LongCat-Next，通过构建统一的离散表示体系，使AI首次具备原生处理多模态信息的能力，这项突破被业界视为打破模态壁垒的关键里程碑。

该模型的核心创新在于DiNA（离散原生自回归）架构的提出。研究团队发现，在统一建模框架下可构建语义完备的离散表征，进而将图像、语音、文字统一转化为同源离散单元。这种设计使所有模态共享同一套参数空间，通过“下一Token预测”机制实现跨模态推理。相较于传统多模态模型需要分别投影再融合的复杂流程，新架构将计算复杂度降低60%，部署资源需求减少45%，真正实现了“轻量化与高性能的平衡”。

在视觉处理领域，团队研发的dNaViT技术开创了原生分辨率处理新范式。该分词器采用8层残差向量量化机制，在保持28倍像素压缩率的同时，通过双轨生成解码器确保信息保真度。实验数据显示，在处理医学影像、复杂工程图纸等高精度任务时，其细节还原准确率较传统方法提升37%。这种“图像-Token-图像”的闭环设计，使模型能够自主生成符合语义的视觉表征，而非简单模仿人类视觉模式。

针对离散化导致的信息损失难题，研究团队构建的SAE语义对齐编码器展现出强大能力。通过层级化特征拟合技术，该编码器在保持98.7%语义完整性的前提下，将连续表示压缩至离散空间。在基准测试中，以LongCat-Flash-Lite MoE（685亿总参数）为基座的模型，在OmniDocBench跨模态任务中同时超越Qwen3-Omni和专用视觉模型Qwen3-VL，特别是在图表解析、文档理解等细粒度任务中表现突出，彻底颠覆了“离散模型不擅长细节感知”的固有认知。

值得关注的是，该模型在保持跨模态优势的同时，语言核心能力未受任何影响。在MMLU-Pro专业领域测试中，其得分较前代模型提升12%；代码生成任务SWE-Bench中，通过率超越同类产品23个百分点。音频处理方面，模型支持中英文零延迟语音合成，误字率控制在0.3%以下，并实现个性化语音克隆功能，仅需3秒样本即可生成高度相似的语音输出。目前，该模型已在GitHub和HuggingFace平台全面开源，配套发布的开发工具包已吸引超过2.3万开发者下载使用。