网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

AMD集成DeepSeek-V3模型至MI300X GPU,AI推理能力再升级!

2025-01-25来源:ITBEAR编辑:瑞雪

AMD近期宣布了一项重大进展,成功将经过优化的DeepSeek-V3模型集成到其Instinct MI300X GPU上。这一模型通过SGLang进行了强化,专为AI推理设计,旨在提升性能。

事实上,早在去年12月26日,AMD已在Github上发布了支持DeepSeek-V3模型的SGLang v0.4.1版本,为这一集成奠定了基础。

据AMD透露,DeepSeek V3是目前性能最强的开源大型语言模型(LLM),其表现甚至超越了GPT-4。这一成就得益于SGLang与DeepSeek团队的紧密合作,使得DeepSeek V3在发布首日便能在英伟达和AMD的GPU上顺利运行。AMD还特别感谢了美团搜索与推荐算法平台团队以及DataCrunch提供的GPU资源支持。

DeepSeek-V3模型采用了混合专家(MoE)架构,总参数量高达6710亿,每个token激活370亿参数,展现出强大的处理能力。为了实现高效推理和高经济效益的训练,该模型引入了多头潜在注意力(MLA)和DeepSeekMoE架构。

DeepSeek-V3开创性地采用了一种无辅助损失的负载平衡策略,并设置了多标记预测训练目标,进一步提升了模型的性能。这使得开发人员能够利用高级模型,同时处理文本和视觉数据,从而广泛获取先进功能,并享受更多功能带来的便利。

AMD Instinct GPU加速器与DeepSeek-V3的结合,为AI模型的运行带来了显著改善,特别是在推理方面。AMD表示,ROCm中广泛的FP8支持有助于解决内存瓶颈和高延迟等关键问题。这使得平台能够在相同的硬件限制下处理更大的模型或批处理,从而提高了训练和推理过程的效率。

FP8降低精度计算减少了数据传输和计算中的延迟。AMD ROCm扩展了其对FP8的支持,从框架到库,全面提升了性能和效率。这一技术革新为AI模型的高效运行提供了有力保障。

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13