谷歌新推FACTS Grounding基准，大语言模型能否摆脱“幻觉”困扰？-网界

近日，谷歌DeepMind团队发布了一项名为FACTS Grounding的全新基准测试，旨在提升大型语言模型（LLMs）的事实准确性，增强用户的信任感，并拓宽其应用边界。该测试的核心在于评估LLMs能否根据给定材料准确作答，同时避免产生“幻觉”，即不捏造信息。

在数据集层面，FACTS Grounding数据集精心编制了1719个涵盖金融、科技、零售、医疗和法律等多个领域的示例。每个示例均包含一篇文档、一条要求LLM基于文档的系统指令以及相应的提示词。这些文档的长度各异，最长的文档包含约20000字的内容，确保了数据集的丰富性和多样性。用户请求的类型多样，包括摘要、问答生成和改写等，但不涉及需要创造力、数学或复杂推理的任务。

数据集被巧妙地分为860个“公共”示例和859个“私有”示例。目前，公共数据集已公开发布，供研究人员和开发者进行评估使用。而私有数据集则用于排行榜评分，这一设计旨在防止基准污染和排行榜作弊，确保评估的公正性和准确性。

在评估方案上，FACTS Grounding基准测试采用了Gemini 1.5 Pro、GPT-4o和Claude 3.5 Sonnet三款先进的模型作为评委，它们将共同评估答案的充分性、事实准确性和文档支持性。这一多模型评估体系能够更全面、客观地反映LLMs在事实准确性方面的表现。

评估过程分为两个阶段。首先，评委们会判断响应是否符合资格，即是否充分回答了用户请求。接着，他们会评估响应的事实准确性，即是否完全基于所提供的文档，没有产生“幻觉”。最终，基于模型在所有示例上的平均得分，计算出每个LLM在FACTS Grounding基准测试中的表现。

值得注意的是，在FACTS Grounding基准测试中，谷歌自家的Gemini模型在事实准确的文本生成方面脱颖而出，取得了最高分。这一成绩不仅展示了Gemini模型在事实准确性方面的卓越表现，也验证了FACTS Grounding基准测试的有效性和可靠性。

百度AI成果井喷：从智能涌现到效果涌现，产业结构迈向健康倒金字塔

李彦宏在大会上表示，“我们用AI重构搜索结果页，不是简单地在搜索结果中插入AI摘要，而是把搜索从一个以文字内容和链接为主的互联网应用，转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来，AI数字…

2025-11-15

中芯国际全年销售收入或超90亿美元，2025年业绩增长态势强劲

2025-11-15

百度世界大会：李彦宏携AI“军火库”全面开放，开启应用新篇章

现场演示连线数字人罗永浩环节上，出现了“翻车”这一尴尬现象时，李彦宏的情绪也并没有太多波动，而是感觉“有点遗憾”，并表示“其实我们在之前演练的过程当中觉得这个效果还是非常令人惊艳的”。还有大模型层面上的文…

2025-11-15

上海国际贸易中心建设加速：外贸新动能集聚，制度型开放亮点频现

2025-11-14

铠侠2025财年第二财季营收环比大增，未来业绩与新品规划前景向好

2025-11-14

百度世界大会发布AI新成果：文心5.0等亮相，李彦宏畅谈AI内化生产力变革

2025-11-13

百度“文心杯”第三届落幕：8支团队获千万投资，李彦宏力推AI应用普及

李彦宏表示，我们看到越来越多的创业者在各种场景发现AI的新能力、新效果，希望更多的人能够加入这个发现之旅，也正基于此，百度连续三年举办“文心杯”创业大赛。第三届“文心杯”创业大赛8支优胜团队共获得数千万元…

2025-11-13

涅槃重生！瑞幸积极推进重返美国上市，全球门店近3万营收将破500亿

2025-11-13

2025百度世界大会聚焦AI发展：成果发布，内化能力引领新质生产力变革

本届大会以“效果涌现”为主题，聚焦国产芯片最新进展、大模型升级、AI应用创新与全球出海，呈现了百度作为中国人工智能领军企业，如何将AI技术内化为产业发展的原生动能，为加快形成新质生产力提供可落地的“百度方案”…

2025-11-13