网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

阿里云峰会重磅发布Qwen3.7-Max,国产大模型性能跃升开启智能体新纪元

2026-05-20来源:互联网编辑:瑞雪

在2026阿里云峰会上,阿里巴巴正式推出新一代千问旗舰大模型Qwen3.7-Max,引发行业高度关注。这款模型在第三方机构Arena全球大模型盲测中表现卓越,不仅超越Kimi-K2.6、DeepSeek-v4-pro等国产模型,更与GPT、Claude、Gemini等国际顶尖模型比肩,稳居国产模型榜首位置。

Qwen3.7-Max的突破性进展体现在多个维度。在编程能力方面,该模型在SWE-Pro、SWE-Multilingual等权威测评中取得领先成绩,Terminal Bench 2.0-Terminus得分达69.7,超越DeepSeek-v4-pro-Max、Claude-Opus4.6等模型。其编程能力覆盖从前端原型开发到复杂多文件工程的全流程,在SWE-bench系列测评和SciCode编程测评中较前代模型实现显著提升,展现出资深工程师级的代码编写与自我纠错能力。

通用智能体性能同样表现亮眼。在MCP-Atlas、MCP-Mark等现实能力测试中,Qwen3.7-Max超越GLM5.1、Kimi-K2.6等模型,创下国产新高。该模型在Kernel Bench L3测试中展现出强大的GPU内核优化能力,在GPQA Diamond、HLE等推理核心测评中均超越Claude-Opus4.6及所有国产模型。多语言能力方面,其在指令遵循IFBench评测中取得79.1分突破性成绩,在WMT24++、MAXIFE等翻译评测中保持领先优势。

最引人注目的是Qwen3.7-Max在长程复杂任务中的自主迭代能力。在平头哥真武M890芯片这一全新硬件平台上,该模型通过持续35小时的自主编程,完成1158次工具调用和432次内核评估,最终实现推理内核10倍加速。测试轨迹显示,模型在运行超30小时后仍能发现优化点,甚至主动发起架构重设计,这种长周期自主迭代能力为AI模型进化开辟了新路径。

在企业级应用场景中,Qwen3.7-Max通过MCP集成和多智能体协作,在SpreadSheetBench-v1办公自动化基准测试中斩获87分。以往需要专业团队耗时1-2周的复杂项目,现在由该模型驱动的智能体可在数小时内完成端到端交付。这种效率提升得益于其跨框架泛化能力,能在Claude Code、OpenClaw、Qwen Code等多种智能体框架下稳定运行。

阿里云同步宣布技术体系全面升级,推出"芯-云-模型-推理"一体化解决方案。Qwen3.7-Max模型API即将登陆阿里云百炼平台,同时将推出具备多模态推理和视觉理解能力的Qwen3.7-Plus等版本,构建覆盖编程智能体与视觉智能体的全能基座,为Agentic时代提供核心技术支持。

谷歌DeepMind“人才收购”新动作:1亿美元引20余名研究人员并获技术授权
Alphabet旗下谷歌的人工智能研究子公司Google DeepMind已敲定一项协议,将从人工智能初创公司ContextualAI引进20多名研究人员,并获得其技术的授权。 “人才收购”(Acquih…

2026-05-20

智元机器人:低调跨过万台量产门槛,务实探索商业化新路径
但无论谁才是真正意义上的“第一”,有一点已经越来越明确:在人形机器人仍普遍依赖融资输血的盲目阶段,智元与宇树都已经率先跨过了“商业化生存线”,形成了明显领先于行业其他玩家的“双雄格局”。 2024年,宇树首…

2026-05-20

iOS 26.6与iOS 27测试版发布时间预测,新功能亮点抢先看
热衷于参与苹果系统测试、抢先尝鲜的小伙伴,可能已经在期待接下来的两件事了:一个是 iOS 26.6 的开发者测试版,另一个就是苹果即将在WWDC 26 上发布的全新 iOS 27 系统。如果苹果今年继续遵照…

2026-05-20

vivo S60系列新机官宣定档5月29日!影像续航双升级,亮点抢先看
vivo新机开始预热,定档在5月29日发布,机型自然是vivoS60系列,倾向于中高端机市场,同样以影像为主,而且实况照片进一步提升,比如原生实况、4K Live直出、星光 Live等。 vivo S60…

2026-05-20

2026全能旗舰新标杆!OPPO Find X9s Pro影像续航性能全解析
这套组合确保了Find X9s Pro不仅能满足当前大型手游(如某开放世界手游实测5小时持久流畅)的高帧率需求,其超前的硬件和深度的系统优化也为未来三到四年的流畅使用打下了坚实基础,有效回应了用户对安卓旗舰…

2026-05-20