百灵Ling-2.6-flash正式登场：高效低耗，API开放还有限时免费试用-网界

蚂蚁百灵近日正式发布了一款名为 Ling-2.6-flash 的 Instruct 模型，该模型以“Token 效率”为核心优势，总参数量达 104B，激活参数为 7.4B。在保持高智能水平的同时，Ling-2.6-flash 在速度、成本和实际应用方面表现出色，尤其适合大规模真实场景部署。

根据第三方权威评测机构 Artificial Analysis 的数据，Ling-2.6-flash 在输出 15M tokens 的情况下，取得了 26 分的 Intelligence Index，展现了卓越的 Token 效率。与一些依赖更长输出以换取更高分数的模型相比，Ling-2.6-flash 在智能表现和输出成本之间实现了更优的平衡。

对于开发者和企业用户而言，Ling-2.6-flash 的效率优势体现在多个方面：推理开销更低、首字响应更快、整体生成时延更短，从而带来更流畅的交互体验。这些特点使其能够满足真实部署环境下对速度、成本和用户体验的综合需求。

在架构设计上，Ling-2.6-flash 延续了 Ling 2.5 的混合线性架构，采用高度稀疏化的 MoE 架构，在硬件性能上表现突出。在 4 卡 H20 条件下，其推理速度最快可达 340 tokens/s，Prefill 吞吐量是 Nemotron-3-Super 的 2.2 倍。在 Output Speed 测评中，Ling-2.6-flash 以 215 tokens/s 的稳定输出速度跻身同参数级别模型的第一梯队。

从 Token 消耗来看，Ling-2.6-flash 的智效比显著提升。在 Artificial Analysis 的完整测评中，其总消耗仅为 15M tokens，而 Nemotron-3-Super 等模型则达到或超过 110M tokens。这意味着 Ling-2.6-flash 仅用约 1/10 的 Token 消耗就完成了同类评测任务。

Ling-2.6-flash 还针对 Agent 场景进行了定向优化，在控制 Token 消耗的前提下，依然保持了强大的任务执行能力。该模型在 BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-eval、PinchBench 等 Agent 相关基准测试中达到同尺寸模型的 SOTA 水平。同时，它在通用知识、数学推理、指令遵循及长文本解析等维度也保持了优秀表现。

在 API 定价方面，Ling-2.6-flash 提供了极具竞争力的价格：输入每百万 tokens 定价 0.1 美元，输出 0.3 美元。目前，该模型的 API 已正式向用户开放，并提供为期一周的限时免费试用。用户可以通过 OpenRouter 或百灵大模型 tbox 获取服务。据悉，蚂蚁数科后续将发布 Ling-2.6-flash 的商业版本 LingDT，面向全球开发者及中小企业提供服务。

值得一提的是，一周前，Ling-2.6-flash 的匿名测试版本“Elephant Alpha”已在 OpenRouter 上线。自上线以来，其调用量持续增长，连续多日位居 Trending 榜首，日均 tokens 调用量达 100B 级别，周增长率超过 5000%。