欢迎登录浙江旭鑫信息系统有限公司网站,供应戴尔服务器、超聚变服务器、H3C服务器等。定制解决方案。 网站地图 | 戴尔服务器 | 超聚变服务器
    杭州戴尔服务器代理
  • $
您的位置:首页 > 信息动态  > 新闻中心 > 行业动态
浪潮元脑R1服务器适配新开源框架,单机DeepSeek 671B并发过千
来源:www.it-solution.com.cn 发布时间:2025年02月22日

浪潮信息元脑R1推理服务器已完成对开源框架SGLang新版本的深度适配,成功实现在单机高性能运行DeepSeek R1 671B模型时可支持超过1000路的用户并发访问。




浪潮元脑R1推理服务器NF5688G7原生搭载FP8计算引擎,针对DeepSeek R1 671B模型部署速度快且无精度损失,1128GB HBM3e高速显存满足671B模型 FP8精度下不低于800GB显存容量的需求,单机支持全量模型推理情况下,仍保留充足的KV缓存空间。显存带宽高达4.8TB/s,契合DeepSeek R1模型"短输入长输出、显存带宽敏感"的技术特征,在推理解码阶段可实现加速。在通信方面,GPU P2P带宽达900GB/s,保障单机部署张量并行通讯性能。

SGLang是新兴的开源推理框架项目,其得到活跃的社区支持,并在工业界获得了广泛应用。SGlang的核心特性包括:快速的后端运行时、灵活的前端语言、广泛的模型支持等。尤其值得关注的是,SGLang针对MLA注意力机制开展了针对性的工程优化,并在框架上对MoE架构的推理做了优化设计。SGLang也是适配DeepSeek v3和R1的推理框架之一。

目前,浪潮元脑R1推理服务器 NF5688G7已完成SGLang新版本 0.4.3的适配优化工作。通过硬件调优、算子优化、混合并行、多token预测等多方面的工程实践,在元脑R1推理服务器 NF5688G7上运行DeepSeek 671B R1模型,成功实现了单用户解码33 tokens/s及用户并发超1000的性能表现。



返回列表