在新加坡国家人工智能计划(AISG)的最新进展中,一项具有里程碑意义的合作引发了全球关注。该计划宣布,其最新研发的国家级大语言模型“海狮”(Sea-Lion v4)将彻底摒弃美国技术路线,转而以阿里的通义千问Qwen3-32B开源模型为核心构建。这一决定标志着中国开源大模型在全球技术竞争中迈出了关键一步,尤其是在“主权AI”和“多语言适配”领域展现出强劲实力。
回溯至2023年12月,新加坡启动了一项耗资7000万新元(约5200万美元)的计划,旨在建立多模态大型语言模型的研究与工程能力,其中核心项目便是开发覆盖东南亚语言的Sea-Lion。然而,这一拥有6亿人口、数字经济规模接近万亿美元的市场,长期被西方AI技术忽视。以meta Llama 2为代表的主流模型中,东南亚语言内容占比不足0.5%,导致早期基于Llama2训练的Sea-Lion在区域常识测试中表现堪忧,甚至将南美洲国家委内瑞拉误列为东盟成员国。
语言与文化的隔阂进一步放大了西方模型的局限性。东南亚地区普遍存在“语码转换”现象,即在英语中混入方言,如新加坡式英语(Singlish)或马来西亚式英语(Manglish)。这种复杂的语言环境对标准美式AI模型构成挑战,而Llama2等模型在处理泰语、缅甸语等非拉丁语系文字时效率低下,暴露了其“英语中心主义”的基因缺陷。
面对这些痛点,AISG开始重新评估技术路线。他们发现,阿里的Qwen3模型在预训练阶段已通过36万亿个token的数据覆盖全球119种语言和方言,具备原生多语言能力。这种底层逻辑上的语言理解优势,显著降低了后续训练的门槛。例如,Qwen-Sea-Lion-v4采用字节对编码(BPE)分词器,精准切分泰语、缅甸语等无空格文字,不仅提升了翻译准确度,还大幅优化了推理速度。
商业落地的现实需求也推动了合作深化。东南亚中小企业普遍缺乏高端算力资源,而Qwen-Sea-Lion-v4经过优化后,可在配备32GB内存的消费级笔记本电脑上流畅运行。这一特性使得印尼开发者仅凭一台高配电脑即可本地部署国家级模型,精准切中了区域算力稀缺的痛点。
此次合作并非单向技术输出,而是双向融合的典范。阿里提供通用推理底座,AISG则贡献其清洗后的1000亿个东南亚语言token,这些数据版权风险低且区域内容浓度高达13%,是Llama2的26倍。通过“高级后训练”技术,阿里将这些区域知识注入模型,使其能精准捕捉当地文化细节。效果立竿见影——在Sea-Helm评估榜单上,搭载阿里技术的Sea-Lion v4迅速登顶同量级开源模型。
从AWS到阿里云,从Llama到Qwen,新加坡Sea-Lion项目的演变折射出全球AI格局的微妙变化。长期以来,美国垄断着全球技术基础设施,但中国企业在多语言环境理解和性价比优化上的突破,正使其成为“全球南方”国家构建主权AI的首选伙伴。这一趋势不仅体现在新加坡,此前硅谷大佬Chamath Palihapitiya选择Kimi替代OpenAI,美国Vercel、Windsurf等平台接入智谱模型,以及爱彼迎CEO对阿里Qwen的认可,均印证了中国开源模型的全球竞争力。