背景
在探索新的深度学习算法的时候,我们可能会遇到PyTorch提供的算子不能满足需求的情况,这时候就需要自定义PyTorch算子,将我们的算法集成到PyTorch的工作流中。同时,为了提高运算效率,算子往往都需要使用CUDA实现。所幸,PyTorch及很多其他Python库都提供了简化这一过程的方法,完全不需要PyTorch库源文件等其他代码(Tensorflow:
标签:自定义,idx,int,dst,gather,PyTorch,CUDA,算子 From: https://www.cnblogs.com/YuanZiming/p/17675072.html