谷歌AI负责人Jeff Dean近日点赞了一项突破性研究,这项由清华姚班校友钟沛林团队提出的新范式——嵌套学习(Nested Learning,NL),为大语言模型领域长期存在的灾难性遗忘问题提供了创新解决方案。研究论文已被NeurIPS 2025接收,其核心成果Hope模型在多项基准测试中超越了Transformer等主流架构。
传统深度学习模型依赖堆叠网络层数和扩大参数规模提升性能,但这种模式已逐渐触及瓶颈。研究团队指出,大语言模型普遍存在“顺行性遗忘”问题:预训练完成后难以吸收新知识,仅能依赖有限上下文窗口或固化参数,无法像人类一样动态积累知识。嵌套学习通过模拟人脑认知机制,将模型重构为多层级的优化系统,每个层级拥有独立的上下文流和更新频率,实现信息的高效处理与存储。
论文揭示,当前广泛使用的Transformer架构本质上是嵌套学习的简化版本。其线性层结构仅保留了NL的多层级协同中的单一层级,未能充分发挥分层记忆的优势。研究团队提出的Hope模型基于NL范式,在语言建模和长上下文记忆任务中表现优异,参数规模从760M到1.3B的版本均显著超越Transformer、RetNet等基线模型,在Wiki文本困惑度、物理常识推理等指标上展现出更强的语言理解和推理能力。
该研究的核心创新包含三大模块:深度优化器通过预处理机制识别梯度性质,用神经网络替代传统线性记忆,实现灵活调参;自我修改模型允许架构在训练中自主调整参数,无需人工干预即可适配新领域数据;连续记忆系统将传统二元记忆结构升级为多尺度记忆链,不同模块按不同频率更新,分别存储短期细节与长期规律。这些创新使模型具备类似人类的分层记忆管理能力。
这项研究的领军人物钟沛林2016年毕业于清华姚班,2021年获得哥伦比亚大学计算机博士学位后加入谷歌纽约研究院。他的学术轨迹始于中学时期的竞赛生涯:2012年代表雅礼中学夺得国际信息学奥林匹克竞赛金牌,与同校发小艾雨青并称“双子星”,两人均保送至清华姚班。如今,这对昔日搭档已先后入职meta,分别担任AI科学家与软件工程师,继续在人工智能领域深耕。


