浪潮推出元脑CPU推理服务器,可运行DeepSeek和千问QwQ等新一代大推理模型。元脑CPU推理服务器NF8260G7和NF8480G7设计采用4颗高性能通用CPU和多通道内存系统,通过张量并行策略和AMX加速技术,单机即可运行DeepSeek-R1 32B和QwQ-32B推理模型,单用户性能超20 tokens/s。
元脑CPU推理服务器NF8260G7和NF8480G7基于通用处理器架构进行软硬协同优化,已经完成与DeepSeek-R1 32B和QwQ-32B等大模型的深度适配和优化。元脑CPU推理服务器通过采用张量并行策略和AMX加速技术,业界主流企业级大模型推理服务框架,实现多处理器并行计算,并使用AWQ(激活感知权重量化)技术,进一步提升推理解码性能,成功实现单用户20tokens/s的性能,为企业的AI大模型部署应用带来流畅体验。
面对CPU服务器部署大模型面临算力和带宽方面的挑战,元脑CPU推理服务器采用了多项创新技术。