DeepSeek突破H800性能上限,FlashMLA重磅开源,算力成本还能降

近日,DeepSeek在开源周第一天推出了一项重大技术——FlashMLA,这一创新解码内核专门针对Hopper GPU进行了优化,能够显著提升计算性能并降低算力成本。据官方介绍,使用FlashMLA后,H800 GPU的内存带宽可达3000GB/s,计算性能达到580TFLOPS。

FlashMLA的核心在于其多头潜在注意力机制(MLA),这是一种创新的注意力架构,通过低秩联合压缩技术将键和值矩阵投影到低维空间,大幅减少了内存占用。相比传统的MHA架构,MLA将显存占用降至5%-13%,推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

https://www.jiqizhixin.com/articles/2025-02-24-2

本站文章通过互联网转载或者由本站编辑人员搜集整理发布,如有侵权,请联系本站删除。

本文链接:https://www.ttsai.com.cn/news/3345.html

滚动至顶部