OpenAI新开源模型：99.9%权重为零，稀疏性技术或改写大模型未来-网界

OpenAI近期低调开源了一款仅有0.4亿参数的特殊语言模型，其核心架构中99.9%的权重参数被强制归零。这项名为Circuit Sparsity的技术突破，通过极端稀疏化的设计路径，试图破解传统大模型难以解释的"黑箱"困境。研究人员宣称，这种改造后的Transformer架构能让AI决策过程像电路图般透明可追踪。

传统大模型的神经网络如同纠缠的毛线团，数以亿计的参数在密集连接中传递信息，导致决策路径难以拆解。而新模型通过L0范数约束技术，在训练阶段就强制切断99.9%的无效连接，仅保留千分之一的活性通道。这种设计使信息流沿固定路径传输，每个神经元都承担特定功能模块——就像电路中的电阻、电容各司其职。

实验数据显示，在预训练损失相当的情况下，稀疏模型的任务专属电路规模仅为稠密模型的1/16。以Python引号闭合任务为例，其核心电路仅由2个MLP神经元和1个注意力头构成，包含专门的引号检测器和类型分类器。研究人员证实，这些模块具有严格的必要性：移除任一节点都会导致任务失败，确保了计算路径的可验证性。

这项技术对当前主流的混合专家模型（MoE）构成挑战。MoE通过门控网络将任务分配给多个专家子网络，但存在两个根本缺陷：其一，专家间信息协同依赖复杂的负载均衡机制，容易导致特征流形割裂；其二，专家功能边界模糊，无法实现微观机制的精准拆解。相比之下，Circuit Sparsity通过超高维度特征投射和严格激活限制，从设计层面确保每个特征的单义性和正交性，从根源上避免了信息干扰。

然而极端稀疏化也带来显著代价。该模型的训练和推理计算量达到传统稠密模型的100-1000倍，目前尚无法达到顶尖大模型的性能水平。作为对比，MoE架构在算力效率与模型性能的平衡上已形成成熟方案，短期内仍将是工业界的主流选择。研究团队承认，这项工作仅是可解释性探索的早期尝试，未来计划向更大规模模型扩展。

针对训练效率问题，研究人员提出两条优化路径：一是从现有稠密模型中提取稀疏电路，通过复用基础框架降低成本；二是持续改进原生稀疏模型的训练机制，在保持可解释性的同时提升计算效率。这些探索或许能为破解大模型黑箱问题提供新的技术范式。

2025传播与国家治理论坛举办蓝皮书首发聚焦网络治理新态势

卢家银介绍，蓝皮书由总报告和18篇专题研究组成，紧扣人工智能时代互联网治理的深刻变革，聚焦技术迭代与制度创新交织的治理新态势，运用质化与量化相结合的多种研究方法，系统探讨了人工智能治理、数据跨境流动、网络内…

2025-12-14

知情人士回应“豆包手机被约谈”传闻：系不实信息，豆包助手连发声明呼吁规则明晰

2025-12-14

离开小冰后，李笛携“群体智能”新理念再战大模型赛道

但就在奇绩路演的几天前，李笛非常激昂地对虎嗅谈及了他做大模型的梦想、初衷，以及在他设想中，大模型应该是什么样子。这是一个在当前国内大模型语境下仍然相对陌生的概念：真正能解决复杂问题的，不是一个参数更大的模…

2025-12-14

红米新机入网！疑似Turbo 5 Pro或春节前登场，配置激进性能大跨越

最近小米有一款新机入网。如上图所见，小米有一款型号为2602BRT18C的新机通过无线电核准，有爆料称其对应REDMI Turbo 5 Pro，按照之前消息，这款新机预计春节前发布，也就是2026年1月或2…

2025-12-13

豆包与智谱双路径探索：AI手机生态大战谁能率先突围？

2025-12-13

扎克伯格煲汤挖OpenAI人才碰壁，OpenAI凭独特文化与技术战略稳住核心

更有意思的是，OpenAI首席研究官MarkChen压根没怂，直接“以彼之道还施彼身”，也给Meta看中的人才送汤，甚至计划带核心团队去学烹饪，准备打一场“送饭持久战”。两年多前更绝，行业主流都觉得预训练…

2025-12-13

华为千元新机畅享70X尊享版来袭，巨鲸电池加卫星消息，性价比拉满

影像系统往往是千元机的“软肋”，但华为畅享70X尊享版却给出了诚意十足的配置。这颗1/1.56英寸的大底传感器是华为旗舰机型下放的技术，RYYB阵列设计能显著提升进光量，配合QPD全像素精准对焦技术，使得手…

2025-12-13