网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌Gemini 3 Deep Think新模型上线 编程实力超群 清华姚顺宇参与研发

2026-02-13来源:快讯编辑:瑞雪

谷歌近日宣布,旗下AI模型Gemini 3迎来重大升级,推出专为复杂任务设计的推理模式"Deep Think"。这一突破性进展标志着AI在科学工程领域的应用迈入新阶段,其性能在多项国际顶级学术测试中达到人类顶尖水平,引发科技界广泛关注。

在数学与编程领域,Deep Think展现出惊人实力。该模型在Codeforces竞技编程平台获得3455分,相当于全球排名第八的程序员水平,较此前OpenAI o3模型的2727分(第175名)实现质的飞跃。更令人瞩目的是,其在2025年国际数学奥林匹克竞赛模拟测试中达到金牌标准,在ARC-AGI-2测试中取得84.6%的突破性成绩,经ARC Prize基金会验证创下新高。在"人类终极考试"基准测试中,Deep Think以48.4%的准确率刷新SOTA纪录,且全程未使用任何外部工具。

成本效益的革命性提升成为另一大亮点。数据显示,Deep Think在ARC-AGI-1测试中每任务成本仅7.17美元,较OpenAI o3-preview版本约2000-3000美元的成本降低280至420倍。这种指数级下降的成本结构,为大规模科研应用开辟了可行路径。谷歌工程师透露,模型通过优化算法架构,在保持精度的同时将计算效率提升了三个数量级。

跨学科应用能力同样令人惊叹。在化学领域,Deep Think在2025年国际化学奥林匹克竞赛笔试部分取得金牌成绩;物理方面,其在凝聚态理论基准测试CMT-Benchmark中达到50.5%的准确率。更突破性的是,该模型已展现出将二维草图自动转化为3D打印文件的工程能力,罗格斯大学团队利用其成功识别出高能物理论文中的逻辑缺陷,杜克大学实验室则借助其优化出新型半导体材料制备工艺。

技术实现层面,Deep Think创新性地融合了科学理论框架与工程实践。谷歌DeepMind团队介绍,模型通过构建多层次推理引擎,既能处理抽象数学证明,又能解决实际工程问题。这种"理论-实践"双轮驱动的设计,使其在处理未见过的问题类型时表现出色,例如在ARC-AGI测试中,模型需自主理解任务规则并推导出解决方案。

目前,Deep Think已通过Gemini应用向Google AI Ultra订阅用户开放,同时通过API向部分科研机构和企业提供服务。教育领域已出现早期应用案例:麻省理工学院将模型引入量子计算课程,帮助学生验证复杂算法;剑桥大学材料系则利用其加速新型超导体研发周期。随着更多专业用户参与,这场由AI驱动的科研革命正在改写人类探索未知的边界。

硬派越野SUV大比拼!五款实力车型,伴你无畏探索山川湖海的每一程
面对复杂地形,一款真正可靠的越野SUV才是你的最佳伙伴。这些配置让车辆在沙漠、岩石和泥泞中依然能保持稳定。有人可能就要问了:‘现代科技是否已经取代了传统机械结构?全地形反馈系统+空气悬挂,让它在沙地、泥地和岩…

2026-02-13

石头科技再获新专利:柔轮设计赋能谐波减速器,推动智能清洁新发展
这种设计使得柔轮在谐波减速器中的应用实现了轻量化,从而提升了设备的整体性能。这一创新无疑将为智能清洁设备的普及和升级提供有力支持。 总的来说,石头科技的“柔轮、谐波减速器、机械臂和清洁设备”专利是其在智能清洁…

2026-02-13

vivo iQOO 15价格再降,16GB+1TB大存储+7000mAh电池,入手正当时
它搭载的是一块高达7000mAh大容量电池,虽说它的电池容量并不上荣耀WIN系列和一加Ace6系列,但是从小愚对这款手机的续航测评来看,在智能省电技术的加持下,它应对我们用户一天的重度使用,基本上不成问题的。…

2026-02-13

雷军亲驾新一代SU7测试 倾注心血确保品质 4月上市引期待
站长之家(ChinaZ.com)2月12日 消息:今日,小米科技创始人雷军在个人微博上晒出了新一代SU7测试车的照片,并配文“开始一天的工作了”,瞬间引发网友热议。照片中,雷军亲自驾驶测试车,展现出对自家汽车…

2026-02-13

美T-Mobile推出测试版实时翻译服务,无需安装App即可畅聊超50种语言
IT之家 2 月 12 日消息,美国运营商 T-Mobile 昨天宣布推出实时翻译服务,目前以 Beta 测试的形式免费提供。据介绍,这项服务直接集成在 T-Mobile 网络中,因此只要是能接入蜂窝网络的…

2026-02-13