网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

DeepSeek再放大招!高效FP8矩阵乘法库DeepGEMM正式开源

2025-02-26来源:ITBEAR编辑:瑞雪

DeepSeek公司在近期举行的开源周活动中,持续推动其技术开放步伐,继MLA解码核FlashMLA和DeepEP代码库之后,再度迈出重要一步,正式对外公布了DeepGEMM代码库。

DeepGEMM是一款专为高效FP8通用矩阵乘法(GEMM)设计的工具库,其核心目标是强化V3/R1训练和推理任务的处理能力。该库不仅支持传统的矩阵运算,还特别针对专家混合(MoE)分组的GEMM运算进行了优化,全部采用CUDA语言编写。

据悉,DeepGEMM的一大亮点在于其安装流程的便捷性。用户无需进行繁琐的编译操作,而是依靠运行时的轻量级即时编译模块,动态生成所需的内核代码。这一设计极大地提升了使用的便利性。

目前,DeepGEMM主要适用于英伟达Hopper架构的硬件环境。为了解决FP8张量核心累加过程中可能出现的精度问题,该库创新性地采用了两级累加方法,确保能够充分利用CUDA核心的性能优势。DeepGEMM的代码设计极为精简,其核心功能高度集成在一个内核函数中,整个代码库的总代码量仅为约300行。

尽管体积小巧,但DeepGEMM在计算性能上的表现却不容小觑。经过DeepSeek团队的严格测试,该库在不同矩阵形状下的计算性能均表现出色,甚至能够与经过深度优化的专业库相媲美或超越。特别是在H800 GPU上使用NVCC 12.8编译器进行全面评估时,DeepGEMM的计算性能最高可达1358 TFLOPS,内存带宽峰值为2668 GB/s。与基于CUTLASS 3.6的优化实现相比,其性能提升幅度最高可达2.7倍。在分组GEMM(MoE模型)的连续性布局和掩码布局下,DeepGEMM的性能提升同样显著,可达1.2倍以上。

值得注意的是,使用DeepGEMM还需满足一定的环境要求。硬件方面,需要支持Hopper架构(sm_90a);操作系统则需安装Python 3.8或更高版本;CUDA版本需为12.3及以上(推荐使用12.8);同时,还需配备PyTorch 2.1及以上版本以及CUTLASS 3.6及以上版本。这些要求确保了DeepGEMM能够在最佳状态下运行,发挥出其卓越的计算性能。

百度AI成果井喷:从智能涌现到效果涌现,产业结构迈向健康倒金字塔
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-15

百度世界大会:李彦宏携AI“军火库”全面开放,开启应用新篇章
现场演示连线数字人罗永浩环节上,出现了“翻车”这一尴尬现象时,李彦宏的情绪也并没有太多波动,而是感觉“有点遗憾”,并表示“其实我们在之前演练的过程当中觉得这个效果还是非常令人惊艳的”。 还有大模型层面上的文…

2025-11-15

百度世界大会发布AI新成果:文心5.0等亮相,李彦宏畅谈AI内化生产力变革
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-13

百度“文心杯”第三届落幕:8支团队获千万投资,李彦宏力推AI应用普及
李彦宏表示,我们看到越来越多的创业者在各种场景发现AI的新能力、新效果,希望更多的人能够加入这个发现之旅,也正基于此,百度连续三年举办“文心杯”创业大赛。 第三届“文心杯”创业大赛8支优胜团队共获得数千万元…

2025-11-13

2025百度世界大会聚焦AI发展:成果发布,内化能力引领新质生产力变革
本届大会以“效果涌现”为主题,聚焦国产芯片最新进展、大模型升级、AI应用创新与全球出海,呈现了百度作为中国人工智能领军企业,如何将AI技术内化为产业发展的原生动能,为加快形成新质生产力提供可落地的“百度方案”…

2025-11-13