FlashMLA：DeepSeek开源周的第一天

著者：ネオヤン時間：2025/02/24 読む： 6517

今天是DeepSeek开源周的第一天，它开源了FlashMLA。 FlashMLA是什么？ FlashMLA 是一种专为 NVIDIA Hopper GPU 架构设计的解码内核，旨在优化变长序列的处理效率。 FlashM […]

今天是DeepSeek开源周的第一天，它开源了FlashMLA。

FlashMLA是什么？

FlashMLA 是一种专为 NVIDIA Hopper GPU 架构设计的解码内核，旨在优化变长序列的处理效率。

FlashMLA 是硬件与算法协同优化的产物，特别针对大型语言模型的解码阶段进行了深度定制。

FlashMLA主要是用来提升大语言模型在推理阶段的性能。

主要表现在：

更高效地处理动态输入（在对话等场景中，序列长度往往不固定）。

更长上下文：让模型在有限的硬件资源的前提下处理更长的输入。

充分发挥硬件潜能，提高吞吐量。

FlashMLA的优势主要在两个方面：

这样一来，就减少了硬件的使用量，自然就降低了成本。

或许你会觉得，FlashMLA会让市场上对硬件的需求量下降。

但，很有可能，FlashMLA会让市场对硬件的需求量上升，甚至是大幅度上升。

开源、成本的降低，会导致市场出现更多的免费和低价的AI应用，这会让更多的人使用AI，从而，大规模提升对算力的需求量。进而导致市场对卡的需求量上升。

FlashMLA的开源，是件好事，会让我们用上更便宜的AI应用。

GitHub：https://github.com/deepseek-ai/FlashMLA

关注我的微信公众号