谷歌第8代TPU震撼登场：训练周期大幅缩短，推理成本减半性能跃升-网界

谷歌近日正式推出第8代TPU，这款专为智能体（Agent）时代设计的芯片在训练与推理性能上实现重大突破，引发科技界与资本市场的广泛关注。其采用“训推分离”策略，推出TPU 8t与TPU 8i两款物理结构完全不同的芯片，分别针对模型训练与推理场景优化，标志着谷歌在AI硬件领域迈出关键一步。

针对推理场景的TPU 8i则以“低延迟”为核心目标。谷歌重构底层推理栈，将288GB高带宽内存与384MB片上SRAM集成至芯片，内存容量为上一代的3倍，减少数据搬运等待时间。系统效率层面，引入自研Axion CPU架构，服务器CPU主机数量翻倍，并通过NUMA隔离优化协同效率。针对MoE混合专家模型，互连带宽提升至19.2 Tb/s，Boardfly架构将网络路径长度缩短一半以上。新增的片上集体加速引擎（CAE）将全局操作移至芯片内部，延迟最高降至原来的1/5，每美元性能提升约80%，同等成本下服务能力接近翻倍。

谷歌选择“训推分离”的背后，是对智能体时代需求的精准洞察。训练场景强调“快”，推理场景则需“稳”，单一芯片难以同时满足两者。第8代TPU的成功，离不开谷歌对全栈技术的深度掌控。从这一代开始，TPU与谷歌自研Axion CPU形成深度协同，CPU-TPU配合方式可根据AI任务需求定制，最大化挖掘性能潜力。能源优化方面，谷歌将范围扩展至整个链路：从芯片到网络，再到数据中心，均围绕“省电”重新设计。例如，将网络连接集成至计算芯片，减少数据搬运；通过统一电源管理动态分配电力；数据中心与TPU协同设计，结合第四代液冷技术，使算力在更高能效区间稳定运行。这些优化使8t与8i的每瓦性能较上一代提升近2倍，数据中心单位电力算力五年内提升6倍。

开发者生态方面，谷歌将全栈能力开放给用户。8t与8i原生支持PyTorch、JAX、vLLM等主流框架，提供裸机访问权限，开发者可直接调用硬件真实性能。配合MaxText、Tunix等开源工具，模型训练到部署的路径进一步简化。谷歌此次明确提出“面向Agent时代的基础设施”定位，从硬件到生态的布局已初见雏形。

第8代TPU的发布，也引发对AI芯片竞争格局的讨论。此前，英伟达CEO黄仁勋在播客中回应“TPU威胁论”时表示，TPU仅在特定赛道取得突破，而英伟达通过CUDA生态覆盖AI、数据处理、科学计算等全场景，市场机会更广。他强调，英伟达的系统支持所有类型应用，客户可在任何场景建立需求。然而，随着AI算力需求持续膨胀，TPU的重要性正被重新评估——至少特斯拉CEO马斯克已公开表达对TPU潜力的认可。这场硬件竞赛的走向，或许将取决于技术突破与生态建设的双重博弈。