网站首页
编程语言
数据库
系统相关
其他分享
编程问答
NanoGPT149
2024-10-14
Stanford CS149 -- Assignment 4: NanoGPT149
作业描述及代码参见:cs149gptWarm-Up:访问张量张量/数组都是按行存储的,四维数组可以看作元素为三维数组的数组,元素大小即为三维数组内元素总数,以此类推。第1部分:简单(但不太高效)的注意力机制实现主要实现两个矩阵乘法和一个softmax运算。第2部分:块矩阵乘法和UnfusedSof