网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

豆包大模型开源Multi-SWE-bench,多语言“自动修Bug”能力能否更上一层楼?

2025-04-10来源:ITBEAR编辑:瑞雪

字节跳动旗下的豆包大模型团队近日传来重要消息,他们正式推出了首个多语言软件错误修正(SWE)数据集——Multi-SWE-bench。这一创新工具旨在评估和提升大型语言模型在自动修复代码错误方面的能力。

Multi-SWE-bench是在原有SWE-bench的基础上拓展而来,其最大亮点在于覆盖了除Python外的七种主流编程语言,包括Java、Go、Rust、C、C++、Type以及再次提及的Java(此处原文可能有误,或为其他语言,如Typescript,但为保持原文信息完整性,按原文转述)。这一数据集真正实现了面向“全栈工程”的评测基准,为开发者提供了更为全面的评估工具。

据悉,Multi-SWE-bench共包含1632个实例,这些实例均源自GitHub上的issue,且经过严格的测试标准和专业开发者的精心筛选。每个样本都确保了问题描述的清晰性、修复补丁的正确性以及可复现的运行测试环境,从而保证了数据集的高质量。

豆包大模型团队表示,他们希望Multi-SWE-bench能够成为大型语言模型在多种主流编程语言与真实代码环境中的系统性评测基准。这一工具将推动自动编程能力向更加实用、更加工程化的方向发展,为开发者带来实质性的帮助。

与以往主要聚焦于Python单语言任务的数据集相比,Multi-SWE-bench更加贴近现实中的多语言开发场景。它不仅能够更准确地反映当前模型在“自动化软件工程”方向上的实际能力边界,还为开发者提供了更为全面、更为实用的评测工具。

阿里巴巴“通义”App升级更名“千问”,AI战略转向消费级市场新布局
根据官方消息,“千问”定位为阿里旗下最重要的大模型应用入口,其核心能力基于阿里自研的大模型体系Qwen(千问)。 分析人士指出,阿里此前在To B市场和模型研发侧拥有技术基础,但在消费端应用分发层面还未形成…

2025-11-15

Dexmal原力灵机获近10亿融资 阿里蔚来资本助力具身智能研发落地
IT之家 11 月 14 日消息,具身智能公司 Dexmal 原力灵机今日宣布完成数亿元 A+ 轮融资,阿里巴巴为独家投资方。IT之家注意到,该公司 A 轮融资由蔚来资本领投,洪泰基金、联想创投、锡创投和正…

2025-11-14

百度世界大会发布文心大模型5.0 参数量2.4万亿能力达全球领先
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13