• 2024-06-12基于Ascend C的FlashAttention算子性能优化最佳实践
    本文分享自华为云社区《基于AscendC的FlashAttention算子性能优化最佳实践》,作者:昇腾CANN。LLM的Attention部分处理给计算系统带来巨大的计算和访存压力。业界先后出现FlashAttention、FlashAttention2等算法,通过计算等价和切分有效降低HBM数据访问量。昇腾异构计算架构CANN针