网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌Gemini 3 Flash上线“智能体视觉”:AI像人一样主动“观察思考”解图像难题

2026-01-28来源:快讯编辑:瑞雪

谷歌DeepMind团队近日宣布,在Gemini 3 Flash模型中引入了一项突破性的“智能体视觉”功能。这一创新旨在解决传统AI模型在图像处理中的固有局限,通过主动调查的方式提升视觉理解的准确性。

传统AI模型在处理图像时,往往仅进行一次静态扫描。这种方式容易遗漏关键细节,例如芯片序列号或远处路牌上的信息,导致模型只能依赖猜测生成答案。Gemini 3 Flash的新功能则通过模拟人类的“思考、行动、观察”循环,将视觉理解转化为一个动态过程。模型不再被动接收信息,而是主动制定计划、操作图像并验证结果,从而确立答案的视觉证据。

“智能体视觉”的核心机制是一个闭环系统。在“思考”阶段,模型分析用户查询和初始图像,制定多步操作计划;随后进入“行动”阶段,模型生成并执行Python代码,对图像进行裁剪、旋转或标注等操作,或进行边界框计算等分析;最后在“观察”阶段,变换后的图像被追加到模型的上下文窗口中,供进一步验证。这一过程使模型能够利用更新后的数据和更佳的语境进行二次检查,最终生成基于事实的回复。

引入代码执行能力后,Gemini 3 Flash在多项视觉基准测试中的表现显著提升,质量提高了5%至10%。例如,在建筑图纸验证平台PlanCheckSolver.com上,该功能通过代码裁剪并分析屋顶边缘等高分辨率细节,使准确率提升了5%。在处理视觉数学问题时,模型不再依赖概率猜测,而是通过编写代码识别原始数据并调用Matplotlib库绘制精确图表,有效解决了多步视觉算术中常见的“幻觉”问题。

目前,Gemini 3 Flash已能够隐式决定何时放大细节以获取更准确的信息。谷歌DeepMind团队表示,未来版本将进一步优化,无需用户显式提示即可自动执行旋转图像或视觉运算等操作,从而提供更智能、更高效的视觉理解服务。

2月4日iQOO 15 Ultra携骁龙8至尊版登场,电竞科技双赋能引期待
官方已预热多方面,比如冰穹风冷散热系统、自研电竞芯片、全新灯效、机身外观等方面,不愧是iQOO的游戏手机,均倾向于电竞方面。同时,新机还搭载了自研电竞芯片Q3,在部分手游中,成功实现“2K原画超分+120帧超…

2026-01-28

谷歌Gemini会议排期新功能上线,智能协调日程让会议安排更高效
在创建会议时,用户可以点击"建议时间"选项,Gemini将查看人们在日历上标记的可用性和潜在冲突。 A:在创建会议时,用户点击"建议时间"选项,Gemini会查看与会者在日历上标记的可用性和潜在冲突,然后提…

2026-01-28