MInference:通过动态稀疏注意力加速长上下文 LLM 的预填充
地址
https://github.com/microsoft/MInference
论文
https://hqjiang.com/minference.html
介绍
论文介绍了一种名为 MInference 的动态稀疏注意力方法,用于解决长上下文 LLM 推理中的问题,并通过多种实验和测试展示了其效果。
重要亮点
-
MInference 的提出背景:长上下文 LLM 推理面临预填充阶段注意力延迟长、KV 缓存存储和传输成本高等挑战,之前方法难以低成本在单个 A100 GPU 实现百万级标记提示的可接受延迟,MInference 应运而生。
-
MInference 的工作原理:利用动态稀疏注意的静态空间聚合模式,离线确定每个头的最佳动态稀疏模式,在推理中动态近似动态稀疏索引,使用优化的 GPU 内核执行高效计算,显著减少预填充阶段延迟。
-
MInference 的主要贡献:加速长上下文 LLM 的预填充阶段多达 10 倍;将动态稀疏注意力分为三种模式并设计搜索算法;引入在线近似方法和优化内核,提出最佳推理代码库;通过四个基准测试评估,在成本效率和系统延迟方面表现出色。
-
长上下文基准测试中的实验结果:在问答、编码、基于检索等一系列任务中测试 MInference,有效保留或扩展实际上下文窗口处理能力,在不同模型和方法对比中性能良好。
-
内核中的延迟细分和稀疏模式:展示三种注意力模式和 FlashAttention 的微基准测试结果,Vertical-Slash 虽慢但仍有显著加速,还展示了 Vertical-Slash 头部 kernel 中的稀疏索引。
大约 2 分钟