网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

OpenAI新研究:训练稀疏模型 借「小型电路」解锁语言模型内部机制

2025-11-21来源:快讯编辑:瑞雪

在人工智能领域,大语言模型的内部运作机制长期被视为“黑箱”,即便是专业研究人员也难以完全掌握其计算逻辑。为破解这一难题,OpenAI近期发布了一项新研究,通过训练结构更简单的小型稀疏模型,探索提升模型可解释性的可行路径。这类模型的神经元连接更少,计算过程更透明,为理解模型行为提供了新思路。

与传统稠密模型不同,OpenAI设计的稀疏模型在训练阶段强制大部分权重为零,限制神经元之间的连接数量。这种结构使得每个神经元仅与下一层的少数神经元交互,形成更清晰的计算路径。研究团队发现,通过剪枝技术保留执行特定任务所需的最小神经元子集,可以提取出独立且易于理解的“电路模块”。例如,在代码补全任务中,模型能准确识别字符串的起始引号类型,并在结尾复现相同符号,其计算过程可分解为四个清晰步骤:编码引号类型、检测任意引号、定位前一个引号、复制引号类型。

论文核心贡献者指出,稀疏模型的独特优势在于其解耦性。在Python代码的引号匹配任务中,模型仅需五个残差通道、两个多层感知机神经元以及少量注意力机制通道即可完成任务。实验表明,移除其他部分后,该电路仍能独立运行,且删除关键连接会导致功能失效。这种模块化设计不仅降低了理解难度,还为调试模型错误提供了直接切入点。

研究团队进一步验证了稀疏模型在变量绑定等复杂任务中的表现。例如,在跟踪变量类型时,模型通过注意力机制将变量名从定义位置复制到使用位置,形成可追溯的信息流。尽管部分电路仍难以完全解析,但研究人员已能提供阶段性解释,并预测模型行为模式。这种部分可解释性为后续研究奠定了基础。

当前研究仍存在局限性。稀疏模型的规模远小于前沿大模型,且大部分计算过程尚未被解释。为突破瓶颈,OpenAI提出两条优化路径:一是从现有稠密模型中提取稀疏电路,提升部署效率;二是开发面向可解释性的专用训练技术,降低资源消耗。尽管无法保证该方法适用于所有场景,但早期实验结果已展现出潜力——通过扩大模型规模,可在不显著牺牲性能的前提下提升可解释性。

该研究为理解神经网络提供了新范式。相比传统的事后分析方法,稀疏模型从设计阶段便融入可解释性考量,为构建更透明、更可控的AI系统开辟了道路。相关论文已公开,详细技术方案可参阅OpenAI官方文档。

马斯克预言引热议:超级AI时代或将加速来临,人类准备好了吗?
更高一级的是人工通用智能(Artificial General Intelligence, AGI),即具备与人类相当的认知能力——能学习、推理、决策、解决问题,且无需为每个新任务重新训练。这种“场景化、有…

2025-11-21

谷歌Gemini 3模型发布引市场热捧,Alphabet股价飙升创年内新高
Alphabet股价周三飙升5%,投资者看好谷歌最新发布的Gemini 3人工智能模型带来的竞争优势。 D.A.Davidson分析师在周二的研报中称,Gemini 3是"真正强大的模型",在初步测试和AI…

2025-11-21

罗福莉官宣加盟小米MiMo团队!AGI愿景下或发力世界模型与具身智能
智东西11月12日消息,今天上午,原DeepSeek核心成员、被业内称为“天才少女”的罗福莉在朋友圈正式官宣加盟XiaomiMiMo团队,并宣告“全力奔赴心中的AGI(通用人工智能)”。 罗福莉一条简单的…

2025-11-21

马斯克xAI新突破:Grok 4.1智商情商双提升,团队华人力量引关注
马斯克在近日最新访谈中回应,“作为迈向通用人工智能(AGI)的关键一步,Grok5预计拥有约6万亿参数,其训练和优化需要巨大的计算能力,并将成为世界上最智能的人工智能。 整体来看,本次Grok 4.1的发…

2025-11-21

2025世界互联网大会现场:外骨骼装备助力摄像记者轻松“减负”
2025年世界互联网大会的现场,一项前沿科技的亮相吸引了很多人的目光。记者肩上扛着沉重的摄像设备包,在人群中穿梭,却丝毫不见吃力。 走近一看,原来他身上穿着一套造型炫酷的外骨骼设备。当他背起重的器材包时,外…

2025-11-21

vivo多款新机爆料来袭,X300系列与S50系列配置亮点抢先看
结合评论区和相关爆料,该博主文中提到的应该是vivo X300 Ultra,有望在影像配置上更进一步。 他表示,希望给 vivo S50 系列手机的芯片、影像、体验三个方向都提供极致的旗舰体验,所以这次上了…

2025-11-21

文远知行-W午前涨超3% 获阿布扎比L4级自动驾驶运营许可 业务前景可期
来源:智通财经网文远知行-W(00800)午前涨超3%,截至发稿,涨3.06%,报19.21港元,成交额1108.21万港元。消息面上,近日,阿布扎比交通局下属的综合交通中心(ITC)宣布正式启动L4级完全自…

2025-11-21

石头科技11月19日融资动态:融资净买入65.37万 融券余量与余额均处低位
融券方面,石头科技11月19日融券偿还200.00股,融券卖出1000.00股,按当日收盘价计算,卖出金额15.89万元;融券余量1.78万股,融券余额282.64万元,低于近一年10%分位水平,处于低位。…

2025-11-21