网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里通义团队开源Qwen3-Next:混合架构+极致稀疏MoE,推理性价比飙升

2025-09-12来源:机器之心Pro编辑:瑞雪

阿里通义团队近日宣布,正式推出并开源新一代大语言模型架构Qwen3-Next,标志着大模型技术进入全新发展阶段。这款总参数量达800亿的模型通过创新架构设计,仅需激活30亿参数即可实现与千亿级模型相当的性能,在计算效率与推理速度上取得突破性进展。

核心技术创新方面,Qwen3-Next采用混合注意力机制与高稀疏度MoE架构的组合方案。通过将75%的神经网络层替换为Gated DeltaNet线性注意力模块,配合25%的标准注意力层,模型在保持长序列处理能力的同时,将计算复杂度从二次方降至线性水平。实验数据显示,这种混合架构在上下文学习任务中显著优于纯线性或标准注意力方案。

在参数效率优化上,研发团队构建了包含512个专家模块的极致稀疏MoE架构。每次推理仅需激活10个路由专家中的3个,配合1个共享专家,实现3.7%的参数激活率。这种设计使800亿参数模型在推理时仅需调动30亿参数,却能达到Qwen3旗舰版2350亿参数模型的性能水平,同时训练成本降低90%以上。

针对长文本处理场景,模型引入多项针对性优化。通过扩展注意力头维度至256、优化旋转位置编码策略,以及采用Zero-Centered RMSNorm归一化方法,有效提升了32K以上超长上下文的推理稳定性。在4K文本长度下,预填充阶段吞吐量较前代模型提升7倍,解码阶段提升4倍;当上下文扩展至32K时,两项指标均实现10倍以上增长。

多token预测(MTP)机制的引入进一步强化了模型效率。该技术通过同步预测多个连续token,使推测解码(Speculative Decoding)的接受率显著提升。在编程能力评测LiveCodeBench v6中,指令调优版本Qwen3-Next-Instruct超越前代旗舰模型;在数学推理基准AIME25测试中,思考增强版本Qwen3-Next-Thinking取得87.8分,全面领先Gemini2.5-Flash-Thinking等同量级模型。

开发团队透露,混合架构的研发历经近一年实验验证。通过系统化对比滑动窗口注意力、Mamba2等方案,最终确定Gated DeltaNet与标准注意力的最优混合比例。在模型初始化阶段,团队采用参数归一化技术确保专家模块均衡激活,配合权重衰减策略有效控制数值稳定性问题。

目前,Qwen3-Next的指令调优版和思考增强版已通过HuggingFace、Kaggle等平台开源,并在Qwen.ai官网提供交互服务。第三方平台anycoder的实时编程测试显示,新模型在代码生成质量与响应速度上均有显著提升。该架构的突破为大规模模型的高效部署提供了全新范式,特别适用于资源受限场景下的高性能AI应用。

百度世界大会发布文心大模型5.0 多项能力达全球领先水平
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-15

李彦宏2025百度世界大会发声:AI跨越临界点,百度成果引领产业新变革
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度智能云发布新芯与超节点,持续布局AI算力助力企业AI能力内化
百度智能云今年已经点亮了昆仑芯三万卡集群,可同时支撑多个千亿参数大模型训练,打造了国产AI算力集群的一大里程碑。未来,百度智能云将持续优化软硬件协同效果,通过百舸AI计算平台,将昆仑芯单一集群的规模从三万卡进…

2025-11-13

李彦宏2025百度世界大会发声:AI迈向效果涌现 产业构建倒金字塔生态
11月13日举办的2025百度世界大会上,百度创始人李彦宏围绕 AI 技术发展阶段与产业生态发表观点,指出 AI正从技术演示走向实际应用,产业结构也在发生根本性转变。 在 AI 产业结构层面,李彦宏表示该领…

2025-11-13

AI从“智能涌现”迈向“效果涌现”,李彦宏:百度引领AI产业结构新变革
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-13