网站首页
编程语言
数据库
系统相关
其他分享
编程问答
workspaceOffsets
2024-06-12
基于Ascend C的FlashAttention算子性能优化最佳实践
本文分享自华为云社区《基于AscendC的FlashAttention算子性能优化最佳实践》,作者:昇腾CANN。LLM的Attention部分处理给计算系统带来巨大的计算和访存压力。业界先后出现FlashAttention、FlashAttention2等算法,通过计算等价和切分有效降低HBM数据访问量。昇腾异构计算架构CANN针