网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里通义团队开源Qwen3-Next:混合架构+极致稀疏MoE,推理性价比飙升

2025-09-12来源:机器之心Pro编辑:瑞雪

阿里通义团队近日宣布,正式推出并开源新一代大语言模型架构Qwen3-Next,标志着大模型技术进入全新发展阶段。这款总参数量达800亿的模型通过创新架构设计,仅需激活30亿参数即可实现与千亿级模型相当的性能,在计算效率与推理速度上取得突破性进展。

核心技术创新方面,Qwen3-Next采用混合注意力机制与高稀疏度MoE架构的组合方案。通过将75%的神经网络层替换为Gated DeltaNet线性注意力模块,配合25%的标准注意力层,模型在保持长序列处理能力的同时,将计算复杂度从二次方降至线性水平。实验数据显示,这种混合架构在上下文学习任务中显著优于纯线性或标准注意力方案。

在参数效率优化上,研发团队构建了包含512个专家模块的极致稀疏MoE架构。每次推理仅需激活10个路由专家中的3个,配合1个共享专家,实现3.7%的参数激活率。这种设计使800亿参数模型在推理时仅需调动30亿参数,却能达到Qwen3旗舰版2350亿参数模型的性能水平,同时训练成本降低90%以上。

针对长文本处理场景,模型引入多项针对性优化。通过扩展注意力头维度至256、优化旋转位置编码策略,以及采用Zero-Centered RMSNorm归一化方法,有效提升了32K以上超长上下文的推理稳定性。在4K文本长度下,预填充阶段吞吐量较前代模型提升7倍,解码阶段提升4倍;当上下文扩展至32K时,两项指标均实现10倍以上增长。

多token预测(MTP)机制的引入进一步强化了模型效率。该技术通过同步预测多个连续token,使推测解码(Speculative Decoding)的接受率显著提升。在编程能力评测LiveCodeBench v6中,指令调优版本Qwen3-Next-Instruct超越前代旗舰模型;在数学推理基准AIME25测试中,思考增强版本Qwen3-Next-Thinking取得87.8分,全面领先Gemini2.5-Flash-Thinking等同量级模型。

开发团队透露,混合架构的研发历经近一年实验验证。通过系统化对比滑动窗口注意力、Mamba2等方案,最终确定Gated DeltaNet与标准注意力的最优混合比例。在模型初始化阶段,团队采用参数归一化技术确保专家模块均衡激活,配合权重衰减策略有效控制数值稳定性问题。

目前,Qwen3-Next的指令调优版和思考增强版已通过HuggingFace、Kaggle等平台开源,并在Qwen.ai官网提供交互服务。第三方平台anycoder的实时编程测试显示,新模型在代码生成质量与响应速度上均有显著提升。该架构的突破为大规模模型的高效部署提供了全新范式,特别适用于资源受限场景下的高性能AI应用。

赛彼思获阿里飞猪数千万战略投资 深耕AI直播赋能电商文旅行业
赛彼思公司自2024年2月成立以来,已为电商、文旅等多个行业客户提供定制化AI直播解决方案,助力企业提升直播效率与用户体验。 据悉,赛彼思已与多家知名电商平台、文旅企业建立合作关系,未来将围绕"AI+直播"…

2025-10-23

微信AI机器人客户管理系统:黑名单功能如何设置?管理策略有哪些?
黑名单功能允许企业将某些客户标记为不希望继续互动的对象,这在处理恶意骚扰、低质量互动或不符合企业服务标准的客户时非常有用。 在实际应用中,黑名单功能可以与ChatWave的其他功能相结合,如自动回复、客户分类…

2025-10-22

企业级AI大模型落地全解析:现状挑战、架构方法与未来趋势
现状方面,2025年国内AI市场规模预计超7000亿元,备案大模型超500个,覆盖通用与垂直领域,政务、金融、制造等行业渗透率较高,部署模式分私有化、混合云、公有云API,其中金融、医疗等强监管行业偏好私有化…

2025-10-22

马斯克:xAI研发的Grok 5有10%概率实现AGI 且概率持续上升
特斯拉与SpaceX首席执行官埃隆·马斯克在社交平台上发布预测,称其旗下人工智能公司xAI正在研发的Grok5大型语言模型有10%的概率实现通用人工智能(AGI),且该概率呈持续上升趋势。 这一目标与xAI…

2025-10-21