- 2024-06-22高性能并行计算华为云实验一:MPI矩阵运算
目录一、实验目的二、实验说明三、实验过程3.1创建矩阵乘法源码3.1.1实验说明3.1.2实验步骤3.2创建卷积和池化操作源码3.2.1实验说明3.2.2实验步骤3.3创建Makefile文件并完成编译3.4建立主机配置文件与运行监测四、实验结果与分析4.1矩阵乘法实验4.1.1
- 2023-11-16最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
前言 近年来,Transformer已经成为了NLP和CV等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在2019年12月和2021年6月分别推出了高效推理和训练引擎LightSeq,大大加速了Transformer系列模型的训练和推理,也打通了Transformer从训练到推理
- 2022-11-03implict GEMM
0x00baseofim2colhttps://zhuanlan.zhihu.com/p/4913073280x01baseofimplictGEMMhttps://zhuanlan.zhihu.com/p/372973726sofar,0x00重点看im2col,0x01重点
- 2022-10-12[caffe解读] caffe从数学公式到代码实现5-caffe中的卷积
今天要讲的就是跟卷积相关的一些layer了im2col_layer.cppbase_conv_layer.cppconv_layer.cppdeconv_layer.cppinner_product_layer.cpp01im2col_layer.cpp这是caffe里面的重
- 2022-09-25不同的二叉搜索树的种数数量 C/C++ 动态规划
#if 0class Solution {public: int numTrees(int n) { vector<int> s(n+1); // 取值范围有n个数,取n个数范围内的任意一个树做根