网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌新研究:大模型破除“幻觉”困境,元认知成开启可靠AI新钥匙

2026-06-03来源:快讯编辑:瑞雪

谷歌研究院与特拉维夫大学联合完成的一项研究,为人工智能领域对抗“幻觉”问题提供了全新思路。这项被ICML 2026 Position Track接收的论文指出,当前行业试图通过扩充知识储备或强制拒答来消除AI幻觉的路径,可能从根本方向上存在偏差。研究者提出,与其追求让AI掌握所有知识,不如重点培养其感知并表达自身不确定性的能力。

所谓AI幻觉,指模型输出事实性错误内容时,仍以不容置疑的方式呈现给用户。这种特性在医疗、法律等高风险场景中尤为危险。传统应对策略分为两类:一类是通过扩大训练数据提升模型知识储备,另一类是设置拒答机制规避错误输出。但两种方案都存在明显缺陷——前者无法穷尽所有知识,后者则会导致AI实用性大幅下降。研究将这种实用性损失定义为"实用性税",指出当AI错误率为25%时,若要将错误率压至5%,现有模型需要拒绝回答超过52%的正确问题。

研究团队通过区分"校准"与"判别力"两个概念,揭示了问题的本质。校准衡量的是AI整体自信水平与正确率的匹配度,而判别力则反映模型区分具体答案对错的能力。实验数据显示,主流大模型在知识问答任务中的判别力指标AUROC普遍在0.70-0.85区间,这意味着即使将判别力提升至理论极限,仍需放弃近30%的正确回答。对SimpleQA Verified基准测试的分析进一步证实,现有模型要么答错率高,要么拒答率高,尚未出现既能多答又少错的理想模型。

该研究的核心突破在于重新定义了幻觉的本质。研究者提出,真正需要解决的问题不是"AI说错话",而是"AI在不确定时伪装确定"。基于这种认知,研究提出了"忠实不确定性"概念——要求AI的语言表达与其内部认知状态保持一致。这种能力通过对比模型对同一问题的重复回答来衡量:若多次回答一致则表明内部确定,反之则不确定。实验表明,这种对应关系比追求绝对正确更易实现,因为它不依赖外部知识验证,仅需模型保持内部状态一致性。

在AI代理(Agent)应用场景中,这种元认知能力显得尤为重要。当AI具备调用搜索引擎等外部工具的能力时,它需要持续判断:是否需要搜索?搜索结果是否可信?如何处理内部知识与外部信息的冲突?缺乏不确定性感知的AI代理,就像没有仪表盘的飞行员,无法做出合理决策。现有搜索增强型AI普遍存在工具滥用问题,正是由于模型无法准确评估自身知识边界。

实现这一目标仍面临多重挑战。首先是"自举悖论"——用静态数据训练动态认知能力,可能导致模型学会"假装不确定"。其次是RLHF等对齐训练会削弱模型原有的不确定性信号,因为人类偏好确定性的回答。更深层的难题在于如何区分"真正的元认知"与"对元认知的表演",这需要开发新的评估体系。研究建议,评估反幻觉方法时应绘制完整的"实用性-错误率权衡曲线",并检测其在推理、编程等任务中的附带影响。

牧原集团牵手阿里云:AI赋能养猪业 智能应用破解行业难题
双方将依托牧原积累的海量养殖数据与专家经验,结合千问大模型及阿里云智算算力,共同打造智能养猪大模型,推动人工智能在饲料营养、种猪育种、养殖管理、兽医健康等核心领域落地。 据介绍,牧原集团的猪病诊断智能体可综合…

2026-06-03

松下跃灵F10开放式耳挂耳机来袭:无感佩戴,多场景适配新体验
【CNMO科技消息】6月3日,CNMO科技注意到,松下正式推出旗下首款开放式耳挂耳机跃灵F10。该耳机凭借高颜值外观、无感佩戴、安全听音体验及均衡的综合性能,精准适配通勤、学习、运动等多场景使用需求,为开放式…

2026-06-03

科创人工智能ETF广发(588760)午盘涨0.70%!重仓股有涨有跌市场波动显
2026年6月2日,科创人工智能ETF广发(588760)在午间收盘时表现出色,涨幅达到0.70%,报0.858元,成交额也高达1.87亿元,显示出市场对该基金的关注度持续上升。基金经理曹世宇在管理该基金时,…

2026-06-03

卫星互联网:打破空间桎梏,开启“天地一张网”新生活
值得关注的是,这颗卫星主要用于验证手机宽带直连卫星、天地网络融合等技术。手机宽带直连卫星,意味着普通智能手机不依赖地面基站,就能直连卫星互联网,实现高速上网;天地网络融合,旨在实现卫星网络与地面5G/6G网络…

2026-06-03

OPPO新品爆料不断:万级大电池中端机将至,Find X10系列影像升级引期待
就此来看,OPPO将在接下来推出万级大电池新机,这也在此前出现过相关曝光。关于全新一代的OPPO Find X10系列,目前也已经出现了不少的相关消息。 其中没有提到具体的品牌信息,但相关推测认为OPPO…

2026-06-03

微星EdgeMesa N AI+迷你电脑亮相:NVIDIA RTX Spark驱动 适配多行业场景
EdgeMesa N AI+具有几个主要特点:针对AI模型开发和实时推理优化的先进架构;为生成式 AI 和 LLM 工作负载量身定制的高AI计算性能;用于大型数据集和AI模型的统一内存架构;可扩展平台,支持…

2026-06-03