Stanford CS149 -- Assignment 4: NanoGPT149

时间：2024-10-14 21:23:55浏览次数：10

标签：缓存 Fused -- Assignment Attention times NanoGPT149 ms text

作业描述及代码参见：cs149gpt

Warm-Up：访问张量

张量/数组都是按行存储的，四维数组可以看作元素为三维数组的数组，元素大小即为三维数组内元素总数，以此类推。

第 1 部分：简单（但不太高效）的注意力机制实现

主要实现两个矩阵乘法和一个 softmax 运算。

part1

第 2 部分：块矩阵乘法和 Unfused Softmax

通过对矩阵进行分块，有效提高缓存的利用率，减少 miss。

N=1024 时，块大小设为 $8 \times 8$、$16 \times 16$、$32 \times 32$、$64 \times 64$ 对应的时间为 $185.069ms$、$154.328ms$、$159.785ms$、$170.758 \text{ms}$，缓存行的大小为 $64B$，float 类型的大小为 $4B$，因此块大小为 $16 \times 16$ 时，一个缓存行恰好可以装下块内的一行。

part2

第 3 部分：Fused Attention

Fused Attention 使得 $N \times N$ 的临时矩阵减小为长度为 $N$ 向量，虽然因为多线程要使用的多个长度为 $N$ 向量，但线程数往往远小于 $N$，因此减少了内存占用。

注释掉 #pragma omp ... 语句后，时间为 $217.351 \text{ms}$。在单线程的情况下，Fused Attention 虽然减小了内存占用，但性能有所降低，同时对缓存的利用率也比第 2 部分的低很多。

与第 1 部分相比，由于使用 Fused Attention，可并行化的循环变成了 $3$ 个：batch、head、row 易于并行计算。

part3

第 4 部分：Flash Attention

第 4 部分的内存使用最少。Flash Attention 是对 Fused Attention 的改进，在减少内存使用的同时，通过分块，提高了对缓存的利用。第 4 部分的性能比之前各部分要慢，但比单线程的 Fused Attention 稍快。

目前的 Flash Attention 可以通过使用多线程、使用 CPU 向量化硬件单元等方式提高性能。

part4

ISPC加速

使用 ISPC 对各部分加速效果如下：

part1：运行时间在 $60 \text{ms}$ 左右
part2：运行时间在 $85 \text{ms}$ 左右
part3：运行时间大致在 $$15-55 \text{ms}$$
part4：运行时间在 $55 \text{ms}$ 左右

主要使用 ISPC 加速了矩阵乘法，实现主要参考 ISPC Examples。

optimized part1

optimized part2

optimized part3

optimized part4

标签：缓存,Fused,--,Assignment,Attention,times,NanoGPT149,ms,text
From： https://www.cnblogs.com/bienboy/p/18466165

Mybatis的Mapper映射文件中常用标签及作用
MyBatis的Mapper映射文件是一种XML格式的配置文件，它用于定义SQL语句和Java对象之间的映射关系。以下是一些常用的标签及其作用。！DOCTYPEmapperPUBLIC#定义文档类型和公共标识符，用于XML文档的开头。<mapper>#根标签，定义一个映射文件。<namespace>#定义映射文件的命......
Mybatis的Mapper映射文件中常用标签及作用
1、<mapper>：根元素，表示一个Mapper接口的配置。2、<select>：用于编写sql查询语句。3、<insert>：用于编写sql插入数据的<details>4、<update>：用于编写sql更新数据的语句。5、<delete>：用于编写sql删除数据的语句。6、<resultMap>：定义了如何将数据库中的列与Java对象的属......
Mybatis的Mapper映射文件中常用标签
select点击查看代码<selectid="selectPerson"parameterType="int"parameterMap="deprecated"resultType="hashmap"resultMap="personResultMap"flushCache="false"useCache="true"time......
实验二
任务一:源代码:`#include<stdio.h>include<stdlib.h>include<time.h>defineN5defineN1397defineN2476defineN321intmain(){intcnt;intrandom_major,random_no;srand(time(NULL));cnt=0;while(cnt<N){random_major=rand(......
基于RBF神经网络的非线性系统识别（Matlab代码实现）
......
[NOI2014] 动物园——KMP 倍增
[NOI2014]动物园题目描述近日，园长发现动物园中好吃懒做的动物越来越多了。例如企鹅，只会卖萌向游客要吃的。为了整治动物园的不良风气，让动物们凭自己的真才实学向游客要吃的，园长决定开设算法班，让动物们学习算法。某天，园长给动物们讲解KMP算法。园长：“对于一个字符串$S$，它......
增强型PID-自适应-前馈-神经网络控制研究（Matlab代码实现）
......
洛谷P1381单词背诵
单词背诵题目描述灵梦有$n$个单词想要背，但她想通过一篇文章中的一段来记住这些单词。文章由$m$个单词构成，她想在文章中找出连续的一段，其中包含最多的她想要背的单词（重复的只算一个）。并且在背诵的单词量尽量多的情况下，还要使选出的文章段落尽量短，这样她就可以用尽量短的......
K-means 算法、层次聚类、密度聚类对鸢尾花（Iris）数据进行聚类
目录1.基础知识1.1 K-Means算法1.2 层次聚类（HierarchicalClustering）1.3 密度聚类（DBSCAN）1.4 距离和相似度度量方法1.5总结：2.K-means算法对鸢尾花（Iris）数据进行聚类2.1导入所需的模块2.1.1代码片段：2.1.2实现目的：2.1.3代码解释：2.2加载并标准化鸢尾花数据......
【无人机路径规划】实现有效的水陆两栖无人机任务规划和执行（Matlab实现）（含粒子群优化和
......