谷歌近日宣布,旗下AI模型Gemini 3迎来重大升级,推出专为复杂任务设计的推理模式"Deep Think"。这一突破性进展标志着AI在科学工程领域的应用迈入新阶段,其性能在多项国际顶级学术测试中达到人类顶尖水平,引发科技界广泛关注。
在数学与编程领域,Deep Think展现出惊人实力。该模型在Codeforces竞技编程平台获得3455分,相当于全球排名第八的程序员水平,较此前OpenAI o3模型的2727分(第175名)实现质的飞跃。更令人瞩目的是,其在2025年国际数学奥林匹克竞赛模拟测试中达到金牌标准,在ARC-AGI-2测试中取得84.6%的突破性成绩,经ARC Prize基金会验证创下新高。在"人类终极考试"基准测试中,Deep Think以48.4%的准确率刷新SOTA纪录,且全程未使用任何外部工具。
成本效益的革命性提升成为另一大亮点。数据显示,Deep Think在ARC-AGI-1测试中每任务成本仅7.17美元,较OpenAI o3-preview版本约2000-3000美元的成本降低280至420倍。这种指数级下降的成本结构,为大规模科研应用开辟了可行路径。谷歌工程师透露,模型通过优化算法架构,在保持精度的同时将计算效率提升了三个数量级。
跨学科应用能力同样令人惊叹。在化学领域,Deep Think在2025年国际化学奥林匹克竞赛笔试部分取得金牌成绩;物理方面,其在凝聚态理论基准测试CMT-Benchmark中达到50.5%的准确率。更突破性的是,该模型已展现出将二维草图自动转化为3D打印文件的工程能力,罗格斯大学团队利用其成功识别出高能物理论文中的逻辑缺陷,杜克大学实验室则借助其优化出新型半导体材料制备工艺。
技术实现层面,Deep Think创新性地融合了科学理论框架与工程实践。谷歌DeepMind团队介绍,模型通过构建多层次推理引擎,既能处理抽象数学证明,又能解决实际工程问题。这种"理论-实践"双轮驱动的设计,使其在处理未见过的问题类型时表现出色,例如在ARC-AGI测试中,模型需自主理解任务规则并推导出解决方案。
目前,Deep Think已通过Gemini应用向Google AI Ultra订阅用户开放,同时通过API向部分科研机构和企业提供服务。教育领域已出现早期应用案例:麻省理工学院将模型引入量子计算课程,帮助学生验证复杂算法;剑桥大学材料系则利用其加速新型超导体研发周期。随着更多专业用户参与,这场由AI驱动的科研革命正在改写人类探索未知的边界。
