谷歌新研究：微量数据训练，大型语言模型精准度大幅提升-网界

谷歌最新研究揭示了大型语言模型训练的新策略，该策略专注于通过一种创新的主动学习筛选流程，大幅度减少微调所需的训练数据量。据实验数据显示，这一方法成功地将数据量削减至原先的万分之一，同时显著提升了模型判断与人类专家的一致性，增幅高达65%。

在广告内容分类、金融数据安全分析等实际应用场景中，对高质量训练数据的需求尤为迫切。然而，筛选出符合标准的数据不仅技术难度高，而且成本也相当可观。谷歌的新方法针对这一挑战，从零样本或少样本的初始模型出发，用户通过具体提示来定义目标内容，例如判断广告是否为“点击诱饵”。初始模型会对广告进行分类，并生成一个庞大的标记数据集。但这一初始数据集通常存在严重的类别不平衡问题，影响了模型的准确识别能力。

为了克服这一难题，研究者对模型标记的内容进行了细致分组，发现部分组之间存在显著重叠，这意味着模型在这些内容上容易判断失误。于是，研究者从这些重叠组中精心挑选样本对，交由专家进行进一步判断。这种做法不仅有效控制了审核成本，还确保了所选样本对具有多样性和代表性，覆盖了多种可能的错误情形。

在模型微调阶段，专家提供的标注被分为两个独立组：一组用于评估模型与人类专家判断的一致性，另一组则直接用于模型的微调。这一过程循环进行，直至模型的表现达到与人类专家相近的水平。谷歌的实验采用了Gemini Nano-1和Nano-2两款模型，并针对两个不同复杂度的任务进行了测试。每个任务都使用了约10万条众包标注数据，尽管这些数据存在严重的不平衡性。

实验结果显示，专家之间的判断高度一致，而众包标签与专家判断的一致性则相对较低。通过应用新方法，一个拥有32.5亿参数的模型在低难度任务上的表现得到了显著提升，所使用的数据量仅为250至450条，与原先的10万条数据相比大大减少，但仍能取得令人满意的效果。这一成果表明，在确保专家标注一致性超过0.8的情况下，大型模型仅需少量高质量数据就能在训练时展现出色性能。

谷歌的这一创新策略为大型语言模型的训练提供了新的视角，证明了在数据稀缺和类别不平衡的情况下，通过精细的主动学习和专家标注，依然能够实现模型性能的大幅提升。

外资精准押注亏损股天际股份：借六氟磷酸锂周期，博弈困境反转机遇

2025-11-15

2025“万企出海”深圳启幕山东新能源储能企业借势拓展全球市场

2025-11-15

国潮出海：以文化为帆创新为桨驶向国际市场新蓝海

2025-11-14

马斯克xAI被曝融资150亿美元

据CNBC从知情人士处获悉，埃隆·马斯克掌舵的人工智能企业xAI于最新一轮融资中斩获约150亿美元资金，公司估值随之攀升至约2000亿美元。这一融资规模不仅远超市场此前预期，更成为近期科技领域备受瞩目的资本动作。

2025-11-14

李彦宏2025百度世界大会发声：AI内化驱动产业革新，成果加速出海

当前，百度搜索已成为全球AI化改造最激进的搜索引擎，用AI重构搜索结果页，转型成以富媒体为主的AI应用。大会上，李彦宏再次强调AI应用创新的价值。 “过去一年，我们看到模型能力逐步走出聊天机器人的范畴，数字…

2025-11-14

李彦宏：跨越临界点，AI“效果涌现”时代，内化能力引爆生产力革命

“当下非常重要的问题是，企业如何内化AI能力”——李彦宏介绍，这有三个代表性的应用方向：李彦宏指出，百度是全球所有搜索引擎中AI化改造最激进的，用AI重构搜索结果页，而非简单插入AI摘要，“把搜索从一个以…

2025-11-14

李彦宏2025百度世界大会：AI内化驱动产业变革开启智能生产力新纪元

2025-11-13

百度2025世界大会发布文心5.0大模型参数量达2.4万亿持续推升智能新高度

文心5.0基础能力全面升级，在多模态理解、指令遵循、创意写作、事实性、智能体规划与工具应用等方面表现突出，拥有强大的理解、逻辑、记忆和说服力。不同于业界多数的多模态模型采用后期融合的方式，文心5.0的技术路…

2025-11-13

相芯科技携AI数字人成果亮相乌镇峰会，展现浙江科技新实力

该平台深度融合人工智能与建模、驱动、交互等核心技术，实现了数字人从生产到应用的全流程效率革新。作为浙江人工智能产业发展的先行力量，相芯科技未来将继续深化AI与数字人的融合创新，推动更高效、智能的数字人应用场景…

2025-11-13