当前位置：首页 > Deepseek最新资讯 > 正文内容

精度无损，成本减半！KunLun AI Space基于昇腾实现DeepSeek

1周前 (10-29)Deepseek最新资讯72

　　在AI技术飞速迭代的今天，大模型的“高效部署”已成为企业落地的核心痛点 —— 既要保证推理精度，又要控制硬件成本，如何平衡两者？

　　近期发布的 DeepSeek V3.1 大模型，因搭载了FP8精度格式（UE8M0 FP8）引发业界关注。这个被称为大模型“新宠”的 FP8，到底好在哪？简单来说，它是一种“更聪明的计算格式”：

　　对比传统的FP16/BF16精度，FP8能让模型的显存需求直接减半，大幅降低服务器硬件压力；

　　对比常见的INT8量化精度，FP8的推理精度更高、数据表示范围更广，完美解决了“降成本”与“保效果”的矛盾。

　　但长期以来，FP8 精度的原生支持高度依赖海外芯片，国内企业想用上这项技术，要么受限于硬件，要么需要复杂的格式转换，严重制约了自主落地。

　　正是看到这一痛点，河南昆仑技术有限公司（简称“昆仑技术”）基于昇腾AI灵活易用的Ascend C算子编程语言deepseek，研发出软FP8解决方案。这不仅为大模型部署提供了更经济、自主的技术路径，还让昇腾平台能快速兼容后续新出的FP8权重模型，进一步丰富了昇腾AI生态的应用场景。

　　一方面，将FP8权重模型输入昇腾硬件，通过精准的反量化算子，转化为BF16格式参与计算，既保障了计算过程的准确性，又为后续新FP8权重模型的快速适配预留了灵活空间，无需权重格式的多次转换；

　　另一方面，在模型精度几乎无损的前提下，单台KunLun G8600即可流畅运行满血版DeepSeek V3.1模型；即便在KunLun G5500V2、KunLun G5580等标卡机型上，也能实现模型参数规模翻番，同时大幅提升并发处理能力，让不同硬件配置的用户都能享受到FP8推理的技术红利。

　　首创Kernel内动态反量化方案，自主研发高性能FP8 Matmul / GroupedMatmul算子，计算精度与原生浮点无差异；通过混合精度计算策略，在保证算子精度的同时，大幅降低Vector核计算负载，实现性能与精度的双重优化；将Vector与Cube两部分算子进行融合，高效调度两类核上的计算任务，通过调优矩阵分块策略、数据预取机制等手段，彻底消除计算流水线气泡，充分释放硬件潜能。

　　通过PyTorch的Meta函数注册实现，使得自研FP8反量化算子整体入图下发，避免了单个算子依次下发带来的性能开销；同时，利用模型特征的智能感知，实现计算路径的动态调整，端到端推理效率再提升32%。

　　KunLun AI Space软FP8解决方案全面兼容DeepSeek V3.1、DeepSeek-V3/R1、Qwen3等主流FP8量化模型，为用户提供灵活多样的模型选择。同时，该方案具备很好的扩展性，可以快速支持后续新出的模型。

　　在FP8低精度类型已成为大模型主流选择的当下，KunLun AI Space凭借自研软FP8解决方案，在精度和性能几乎无损的情况下，大幅降低了大模型部署的算力门槛和成本，为大模型私有化部署提供了更加可行的方案。

　　昆仑技术与昇腾的探索脚步并未就此停歇。目前，软FP4的方案已经在紧锣密鼓地研发当中，预计不久后就将与大家见面。展望未来，昆仑技术将持续携手昇腾等伙伴深入挖掘AI芯片的算力潜能，推动大模型私有化部署从“可用”走向“普惠”，让AI技术真正惠及千行万业。原文出处：精度无损，成本减半！KunLun AI Space基于昇腾实现DeepSeek V3.1 FP8推理，感谢原作者，侵权必删！

标签: deepseek