DeepSeek突破H800性能上限，FlashMLA重磅开源，算力成本还能降 - 天天学术AI写作系统专注学术论文写作的工具|毕业论文|期刊投稿|开题报告|任务书www.ttsai.com.cn

近日，DeepSeek在开源周第一天推出了一项重大技术——FlashMLA，这一创新解码内核专门针对Hopper GPU进行了优化，能够显著提升计算性能并降低算力成本。据官方介绍，使用FlashMLA后，H800 GPU的内存带宽可达3000GB/s，计算性能达到580TFLOPS。

FlashMLA的核心在于其多头潜在注意力机制（MLA），这是一种创新的注意力架构，通过低秩联合压缩技术将键和值矩阵投影到低维空间，大幅减少了内存占用。相比传统的MHA架构，MLA将显存占用降至5%-13%，推理成本仅为Llama 370B的1/7、GPT-4 Turbo的1/70。

https://www.jiqizhixin.com/articles/2025-02-24-2

本站文章通过互联网转载或者由本站编辑人员搜集整理发布，如有侵权，请联系本站删除。

Related Posts