网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

通义DeepResearch重磅登场:性能比肩海外旗舰,模型框架方案全开源赋能研究

2025-09-18来源:机器之心Pro编辑:瑞雪

阿里巴巴旗下通义团队近日宣布推出全新AI研究工具——通义DeepResearch,标志着人工智能从基础交互向深度研究能力的跨越式发展。该模型在Humanity's Last Exam、BrowseComp等七大权威基准测试中刷新最佳成绩,30B参数版本实现与海外旗舰模型持平甚至超越的表现,同时以完全开源策略打破技术壁垒,覆盖模型架构、训练框架及解决方案全链条。

通义DeepResearch模型架构示意图

技术突破的核心在于创新的数据工程体系。研究团队构建了三级数据生成管道:首阶段通过知识图谱与爬虫数据构建实体锚定知识库,生成覆盖200余种场景的问答对;中段开发动作合成引擎,自动生成规划、推理、决策三类动作数据,消除对商业API的依赖;终段采用模糊化策略与集合论建模,系统提升问题复杂度。该方案使数据质量超越人工标注,支持从网页遍历到学术检索的全场景训练。

在强化学习领域,团队提出GRPO优化算法框架,通过token级策略梯度损失与留一法优势估计,将方差降低40%。基础设施层面,搭建离线维基百科模拟环境与工具沙盒系统,使训练效率提升3倍。自动数据管理系统通过动态漏斗机制,实时优化训练集构成,形成"数据生成-模型训练"的正向循环。这种全栈式解决方案使30B参数模型在复杂推理任务中展现出博士级研究能力。

模型提供双模式推理架构:标准ReAct模式支持128K上下文窗口,适用于高频交互场景;深度模式(Heavy Mode)采用IterResearch范式,将任务解构为多轮研究周期。每轮通过核心报告提炼机制,保持认知焦点的同时提升推理质量。研究显示,该模式使长期任务成功率提升65%,特别在需要跨学科知识整合的场景中表现突出。

IterResearch范式工作机制示意图

实际应用层面,高德出行Agent成为首个落地案例。通过整合地图导航与本地生活服务工具,该系统可处理"周末亲子游+餐厅预订+交通规划"等复合需求。法律领域推出的通义法睿平台,集成案例检索、合同审查等五大功能,在答案要点完整性、法条匹配精准度等维度达到行业领先水平。目前模型已开放Hugging Face与ModelScope双平台下载,配套发布11篇技术论文,详细披露从持续预训练到强化学习的全流程实现细节。

研究团队强调,合成数据质量与训练环境稳定性是项目成功的关键因素。实验表明,纯合成数据训练的模型在BrowseComp测试集上表现优于混合数据方案23%。这种发现为AI Agent训练提供了新范式,特别是在需要处理动态环境与复杂推理的场景中具有重要指导意义。随着30B-A3B模型的全面开源,深度研究能力将加速向各行业渗透。

阿里巴巴“通义”App升级更名“千问”,AI战略转向消费级市场新布局
根据官方消息,“千问”定位为阿里旗下最重要的大模型应用入口,其核心能力基于阿里自研的大模型体系Qwen(千问)。 分析人士指出,阿里此前在To B市场和模型研发侧拥有技术基础,但在消费端应用分发层面还未形成…

2025-11-15

Dexmal原力灵机获近10亿融资 阿里蔚来资本助力具身智能研发落地
IT之家 11 月 14 日消息,具身智能公司 Dexmal 原力灵机今日宣布完成数亿元 A+ 轮融资,阿里巴巴为独家投资方。IT之家注意到,该公司 A 轮融资由蔚来资本领投,洪泰基金、联想创投、锡创投和正…

2025-11-14

百度世界大会发布文心大模型5.0 参数量2.4万亿能力达全球领先
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13