网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

谷歌新研究:微量数据训练,大型语言模型精准度大幅提升

2025-08-26来源:生活车对话编辑:瑞雪

谷歌最新研究揭示了大型语言模型训练的新策略,该策略专注于通过一种创新的主动学习筛选流程,大幅度减少微调所需的训练数据量。据实验数据显示,这一方法成功地将数据量削减至原先的万分之一,同时显著提升了模型判断与人类专家的一致性,增幅高达65%。

在广告内容分类、金融数据安全分析等实际应用场景中,对高质量训练数据的需求尤为迫切。然而,筛选出符合标准的数据不仅技术难度高,而且成本也相当可观。谷歌的新方法针对这一挑战,从零样本或少样本的初始模型出发,用户通过具体提示来定义目标内容,例如判断广告是否为“点击诱饵”。初始模型会对广告进行分类,并生成一个庞大的标记数据集。但这一初始数据集通常存在严重的类别不平衡问题,影响了模型的准确识别能力。

为了克服这一难题,研究者对模型标记的内容进行了细致分组,发现部分组之间存在显著重叠,这意味着模型在这些内容上容易判断失误。于是,研究者从这些重叠组中精心挑选样本对,交由专家进行进一步判断。这种做法不仅有效控制了审核成本,还确保了所选样本对具有多样性和代表性,覆盖了多种可能的错误情形。

在模型微调阶段,专家提供的标注被分为两个独立组:一组用于评估模型与人类专家判断的一致性,另一组则直接用于模型的微调。这一过程循环进行,直至模型的表现达到与人类专家相近的水平。谷歌的实验采用了Gemini Nano-1和Nano-2两款模型,并针对两个不同复杂度的任务进行了测试。每个任务都使用了约10万条众包标注数据,尽管这些数据存在严重的不平衡性。

实验结果显示,专家之间的判断高度一致,而众包标签与专家判断的一致性则相对较低。通过应用新方法,一个拥有32.5亿参数的模型在低难度任务上的表现得到了显著提升,所使用的数据量仅为250至450条,与原先的10万条数据相比大大减少,但仍能取得令人满意的效果。这一成果表明,在确保专家标注一致性超过0.8的情况下,大型模型仅需少量高质量数据就能在训练时展现出色性能。

谷歌的这一创新策略为大型语言模型的训练提供了新的视角,证明了在数据稀缺和类别不平衡的情况下,通过精细的主动学习和专家标注,依然能够实现模型性能的大幅提升。

马斯克xAI被曝融资150亿美元
据CNBC从知情人士处获悉,埃隆·马斯克掌舵的人工智能企业xAI于最新一轮融资中斩获约150亿美元资金,公司估值随之攀升至约2000亿美元。这一融资规模不仅远超市场此前预期,更成为近期科技领域备受瞩目的资本动作。

2025-11-14

李彦宏2025百度世界大会发声:AI内化驱动产业革新,成果加速出海
当前,百度搜索已成为全球AI化改造最激进的搜索引擎,用AI重构搜索结果页,转型成以富媒体为主的AI应用。大会上,李彦宏再次强调AI应用创新的价值。 “过去一年,我们看到模型能力逐步走出聊天机器人的范畴,数字…

2025-11-14

李彦宏:跨越临界点,AI“效果涌现”时代,内化能力引爆生产力革命
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-14

李彦宏2025百度世界大会:AI内化驱动产业变革 开启智能生产力新纪元
“当下非常重要的问题是,企业如何内化AI能力”——李彦宏介绍,这有三个代表性的应用方向: 李彦宏指出,百度是全球所有搜索引擎中AI化改造最激进的,用AI重构搜索结果页,而非简单插入AI摘要,“把搜索从一个以…

2025-11-13

百度2025世界大会发布文心5.0大模型 参数量达2.4万亿 持续推升智能新高度
文心5.0基础能力全面升级,在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出,拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式,文心5.0的技术路…

2025-11-13

相芯科技携AI数字人成果亮相乌镇峰会,展现浙江科技新实力
该平台深度融合人工智能与建模、驱动、交互等核心技术,实现了数字人从生产到应用的全流程效率革新。作为浙江人工智能产业发展的先行力量,相芯科技未来将继续深化AI与数字人的融合创新,推动更高效、智能的数字人应用场景…

2025-11-13