• 2024-10-17CUTLASS: NVIDIA的高性能CUDA线性代数库
    CUTLASS简介CUTLASS(CUDATemplatesforLinearAlgebraSubroutines)是NVIDIA开发的一个开源CUDAC++模板库,用于实现高性能的矩阵乘法(GEMM)和相关计算。它采用了类似cuBLAS和cuDNN的分层分解和数据移动策略,将这些"移动部件"分解为可重用的模块化软件组件,通过C++模板类进行
  • 2024-10-07从硬件的视角看GEMM
    从硬件的视角看GEMM1.分块乘法的内存层次架构分块矩阵乘法,如图6-28所示,通过将矩阵分块拆分,能够在处理器的Cache和寄存器内存放进行快速计算,计算完成后写回主存。图6-28分块矩阵乘法首先,所有的数据都在主内存中,如图6-29所示。图6-29所有的数据都在主内存中然后,在分块
  • 2024-06-22高性能并行计算华为云实验一:MPI矩阵运算
    目录一、实验目的二、实验说明三、实验过程3.1创建矩阵乘法源码3.1.1实验说明3.1.2实验步骤3.2创建卷积和池化操作源码3.2.1实验说明3.2.2实验步骤3.3创建Makefile文件并完成编译3.4建立主机配置文件与运行监测四、实验结果与分析4.1矩阵乘法实验4.1.1
  • 2023-11-16最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
    前言 近年来,Transformer已经成为了NLP和CV等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在2019年12月和2021年6月分别推出了高效推理和训练引擎LightSeq,大大加速了Transformer系列模型的训练和推理,也打通了Transformer从训练到推理
  • 2022-11-03implict GEMM
    0x00baseofim2colhttps://zhuanlan.zhihu.com/p/4913073280x01baseofimplictGEMMhttps://zhuanlan.zhihu.com/p/372973726sofar,0x00重点看im2col,0x01重点
  • 2022-10-12[caffe解读] caffe从数学公式到代码实现5-caffe中的卷积
    今天要讲的就是跟卷积相关的一些layer了im2col_layer.cppbase_conv_layer.cppconv_layer.cppdeconv_layer.cppinner_product_layer.cpp01im2col_layer.cpp这是caffe里面的重
  • 2022-09-25不同的二叉搜索树的种数数量 C/C++ 动态规划
    #if 0class Solution {public:    int numTrees(int n) {        vector<int> s(n+1);   // 取值范围有n个数,取n个数范围内的任意一个树做根