网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里发布Qwen3-Max-Thinking:超万亿参数刷新纪录,推理性能与Agent能力双飞跃

2026-01-27来源:快讯编辑:瑞雪

阿里云正式推出其迄今为止规模最大、性能最强的千问系列推理模型——Qwen3-Max-Thinking。该模型总参数量突破万亿级,预训练数据规模达36T Tokens,在多项核心指标上实现全球领先,标志着国产大模型技术迈入新阶段。

在性能突破方面,Qwen3-Max-Thinking通过参数规模扩展与强化学习优化,在19项国际权威基准测试中刷新纪录。该模型不仅在数学推理领域斩获AIME 25和HMMT 25国内首个双满分,更在复杂推理、指令遵循、人类偏好对齐等维度达到国际顶尖水平。特别是在启用工具的"人类最后测试"(HLE)中,以58.3分超越GPT-5.2-Thinking(45.5分)和Gemini 3 Pro(45.8分),创下当前所有模型最高分。

技术架构创新方面,模型引入全新测试时扩展机制,通过"经验提炼-自我迭代"的推理范式,显著提升计算效率。传统推理路径常出现重复推导现象,而新机制可对历史推理结果进行结构化提炼,在相同上下文窗口内实现多轮智能迭代。这种突破使模型在保持高性能的同时,推理成本降低30%以上,为大规模商业化应用奠定基础。

针对智能体(Agent)应用场景,模型特别强化了原生工具调用能力。在QwenChat交互界面中,用户可直观体验模型自主选择搜索、个性化记忆、代码解释器等核心工具的能力。通过规则奖励与模型奖励联合训练体系,模型能根据任务需求智能组合工具使用策略,回答准确率提升40%,幻觉问题减少25%,在专业领域表现接近人类专家水平。

开发者可通过QwenChat平台免费体验模型能力,企业用户可登陆阿里云百炼平台获取API服务。千问官方APP即将完成模型接入升级,届时所有用户均可通过PC端、网页端及移动端免费使用。目前平台已开放数学推理、代码生成、多轮对话等场景的测试接口,支持中文、英文等多语言交互。

2026IT互联网活动模板精选:脑力大挑战+幸运翻牌,精准避坑高效营销
但很多商家实操时频繁踩雷:模板科技感不足不贴合行业属性、题目/奖品设置脱离目标用户、数据无法对接内部系统、推广渠道适配差导致流量流失……这份干货指南帮你精准避坑,精选6个适配IT互联网行业的活动模板工具,按核…

2026-01-27

OpenAI开启Codex发布月 多款新品助力AI编程革新 引领软件产业新潮流
作为OpenAI深耕智能编程领域的核心生态,Codex已从最初的API接口迭代为集模型、工具与工作流于一体的“AI软件工程师”,其演进速度与市场认可度持续攀升。 此次发布月的产品矩阵将围绕企业级需求与开发者…

2026-01-27

阿里发布Qwen3-Max-Thinking模型:超万亿参数,太空部署与开源成绩亮眼
目前,开发者可在QwenChat上免费体验Qwen3-Max-Thinking模型,企业可通过阿里云百炼获取新模型API服务,普通用户也可通过千问PC端和网页端试用模型。 此前,预览版Qwen3-Max-T…

2026-01-27

微博×益普索:2026冬奥热点趋势洞察,社交互动与消费新机遇并存
2026年米兰科尔蒂纳冬奥会开幕在即,微博与益普索联合发布的《2026冬奥热点趋势洞察白皮书》上篇,基于社交大数据与消费者调研,揭示了冬奥相关的社交热点趋势与消费机遇。 调研显示,60.1%的用户会通过社交…

2026-01-27

国产小众厂商“复活”4.7寸mini手机,致敬iPhone8,配置能否打动你?
近日,蓝狐BLUEFOX在社交平台上宣布,旗下代号为“蓝狐 β”的4.7英寸mini新机,首批主板已经制造完成,该机预计在6月初正式上市。 此前蓝狐BLUEFOX的官方预热,揭晓了该机的一些参数:屏幕为4.…

2026-01-27

2026款大众朗逸自动得逸版登场!1.5L动力+丰富配置,入门之选的新标杆
2026款大众朗逸自动得逸版上市,提供1.5L自然吸气发动机,指导价12.09万元,配置丰富,兼顾实用性与科技感,是入门级大众车型的新选择。

2026-01-27