网界
网络资讯 网界财经 科技人物 数据洞察 行业动态 智能出行 智能手机 数码极客 商业资讯

安谋科技“周易”NPU新突破:DeepSeek-R1模型端侧部署,速度飙升至40 tokens/s

2025-02-14来源:ITBEAR编辑:瑞雪

安谋科技近日宣布,其新一代“周易”NPU处理器已成功在端侧部署并运行DeepSeek-R1系列模型,不仅性能表现出色,而且成本效益显著。

这款“周易”NPU专为AI大模型设计,架构上进行了深度优化。据悉,其Beta测试版本已在2024年末向部分早期用户开放,预计今年上半年将正式面世。

DeepSeek-R1系列中的1.5B和7B蒸馏版本推出后,“周易”NPU迅速在Emulation平台上完成了部署与优化,并在FPGA平台上成功演示了端到端应用。测试结果显示,在标准测试环境下,“周易”NPU在首字计算阶段的算力利用率超过40%,解码阶段的有效带宽利用率更是高达80%以上。

该NPU的带宽利用率展现出高线性特性,能够灵活适应从16GB/s到256GB/s的系统带宽需求。在7B版本、上下文长度为1024的场景下,“周易”NPU的最高处理速度可达每秒40 tokens,并支持动态长度的模型推理输入。

安谋科技的软件栈对大模型的支持和优化也达到了成熟水平,通过动态推理优化和硬件算力潜力的挖掘,显著提升了推理速度和吞吐量。目前,该软件栈已支持Llama、Qwen、DeepSeek、ChatGLM、MiniCPM等多种主流大模型,并提供了与Hugging Face模型库的对接工具链,方便用户直接部署主流模型。

在硬件层面,“周易”NPU采用先进的7nm工艺制造,单Cluster算力最高可达80 TOPS,能够轻松应对超过16K上下文长度的大模型部署需求。同时,其对外带宽提升至256GB/s,有效解决了大模型计算的带宽瓶颈问题。

“周易”NPU还支持FP16数据精度计算,完整支持INT4软硬量化加速,并具备多核算力扩展能力,满足端侧模型的低首字延迟需求。它还拥有强大的多任务并行处理能力,通过细粒度的任务调度和优先级资源分配,实现了多任务灵活切换,确保了传统语音、视觉业务与大模型应用的高效协同。

阿里通义App焕新升级更名千问 5.0.0版本携三大核心能力强势登场
今日,阿里旗下通义App今日发布更新,名称正式变更为千问App,版本号为5.0.0。 在版本 5.0.0中,千问强调其核心能力包括:“对话问答”“智能写作”“全能相机”三大模块。 据知情人士透露,阿里巴巴计…

2025-11-15

谷歌前工程师再创业!AI数据分析新锐WisdomAI获英伟达等3.55亿融资
WisdomAI面向企业客户推出了AI驱动的对话式商业智能(BI)平台,提供AI数据分析业务,用户只需用自然语言提问便可获取分析后的答案。 WisdomAI称:“过去的BI只提供被动的、静态的仪表板,而Ag…

2025-11-15

百度世界大会发布AI新成果:文心5.0、昆仑芯升级,萝卜快跑领跑全球
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

百度世界大会亮点频出:文心5.0等成果发布,AI重构业务引领生产力革新
李彦宏在大会上表示,“我们用AI重构搜索结果页,不是简单地在搜索结果中插入AI摘要,而是把搜索从一个以文字内容和链接为主的互联网应用,转化为一个以图片视频等富媒体内容为主的AI应用。” 在李彦宏看来,AI数字…

2025-11-14

乌镇峰会:前沿科技碰撞,共绘网络空间命运共同体数智新蓝图
“非洲互联网之父”、加纳科网董事长尼·奎诺表示,像乌镇峰会这样的平台为发展中国家提供了宝贵的发声机会和参与空间;世界知识产权组织总干事邓鸿森表示,乌镇峰会为我们提供全球对话与合作的契机,这种对话与合作不仅是…

2025-11-13