• 2024-11-14Cuda 驱动安装
    Author:ACatSmilingSince:2024-11-13CUDA(ComputeUnifiedDeviceArchitecture):是NVIDIA推出的一种并行计算平台和编程模型,它允许开发者利用NVIDIAGPU(图形处理器)的强大计算能力进行通用计算,而不仅仅局限于图形处理。简单来说,CUDA提供了一种方式,让程序员可以像编写CPU
  • 2024-11-12CUDA开始的GPU编程 - 第六章:thrust库
    第六章:thrust库使用CUDA官方提供的thrust::universal_vector虽然自己实现CudaAllocator很有趣,也帮助我们理解了底层原理。但是既然CUDA官方已经提供了thrust库,那就用他们的好啦。#include<cuda_runtime.h>#include<thrust/universal_vector.h>//trusth库
  • 2024-11-10ECE 4122/6122 CUDA program
    ECE4122/6122Lab4:CUDA-basedJohnConway’sGameofLife(100pts)Category:CUDADue:TuesdayNovember8th,2024by11:59PMObjective:ImplementaC++CUDAprogramtoruntheGameofLife.GameDescription:TheGameofLife(anexampleofacellulara
  • 2024-11-09手把手教你搭建Windows+YOLO11+CUDA环境,以EMA注意演示如何改进YOLO11, 训练自定义数据集,小白也能看得懂的!
    YOLOv11目标检测创新改进与实战案例专栏文章目录:YOLOv11创新改进系列及项目实战目录包含卷积,主干注意力,检测头等创新机制以及各种目标检测分割项目实战案例专栏链接:YOLOv11目标检测创新改进与实战案例文章目录YOLOv11目标检测创新改进与实战案例专栏前言本
  • 2024-11-09RT DETR v2 TensorRT C++ 部署详解
    RT-DETRv2TensorRTC++部署详解概述随着深度学习技术的发展,目标检测算法在各种应用场景下展现出了卓越的表现。RT-DETRv2(Real-TimeDetectionTransformerv2)作为一款高效的实时目标检测模型,其结合了Transformer架构的优势与传统卷积神经网络(CNNs)的速度,为开发者提供了在
  • 2024-11-08Ubuntu安装Nvidia驱动与Cuda Toolkit详细教程 | 步骤解析与环境配置 - 幽络源
    步骤概述步骤1:检查是否安装Nvidia驱动步骤2:查询显卡匹配的驱动版本步骤3:安装Nvidia驱动步骤4:检查Nvidia是否安装并加载步骤5:禁用nouveau步骤6:重新加载nvidia驱动并检查步骤7:下载cudatoolkit步骤8:安装cudatoolkit到指定目录步骤9:配置cudatoolkit环境变量步骤10:测试cudatool
  • 2024-11-08(一)安装 NVIDIA 显卡驱动、CUDA、CUDNN
  • 2024-11-07CUDA开始的GPU编程 - 第四章:C++封装GPU上的数组
    第四章:C++封装GPU上的数组std::vector的秘密:第二模板参数**你知道吗?**std::vector作为模板类,其实有两个模板参数:std::vector<T,AllocatorT>那为什么我们平时只用了std::vector呢?因为第二个参数默认是std::allocator。也就是std::vector等价于std::vector<T,s
  • 2024-11-07GPU 环境搭建指南:如何在裸机、Docker、K8s 等环境中使用 GPU
    本文主要分享在不同环境,例如裸机、Docker和Kubernetes等环境中如何使用GPU。跳转阅读原文:GPU环境搭建指南:如何在裸机、Docker、K8s等环境中使用GPU1.概述仅以比较常见的NVIDIAGPU举例,系统为Linux,对于其他厂家的GPU设备理论上流程都是一样的。省流:对于裸
  • 2024-11-06cuda、cudnn、zlib 深度学习GPU必配三件套(Ubuntu)
    跨大版本不推荐,到处是坑、坑、坑~。tensorrt10、cuda12、cudnn9是目前最新的大版本,但是对于一般的老显卡(1050等),太新可能提醒一些错误(主要是tensorrt太新导致的)。为了不折腾,使用如下版本:tensorrt8.6.1、cuda11.8、cudnn8.9.7默认已经安装了英伟达显卡的最新版本驱动。系统Ubuntu22
  • 2024-11-04ubuntu安装cuda及cudnn
    准备查看显卡驱动版本nvidia-smi若未安装显卡驱动,则先去安装对应的显卡驱动输出右上角的CUDAVersion即为可安装的最高CUDA版本下载去官网下载自己需要的版本CUDAToolkit-FreeToolsandTraining|NVIDIADeveloper下面教程以11.3为例安装CUDAsudobashc
  • 2024-11-01Ubuntu20.04版本安装pytorch(宝宝级攻略)
     前言在学习深度学习时,安装pytorch是必要的,现在想出一个宝宝级的攻略,希望能够帮助大家节约时间。如果大家通过我的攻略安装成功,请在评论区打出“好用“希望能够帮助到更多人。1.安装前的准备1.检查你的Ubuntu是否安装了显卡驱动程序Ubuntu20.04版本的NVIDIA显卡驱动程序
  • 2024-10-31nvidia存档
    解决火狐不能打开网页问题方法一输入sudogedit/etc/resolv.conf将nameserverx.x.x.x部分改成nameserver8.8.8.8保存原文件#Thisis/run/systemd/resolve/stub-resolv.confmanagedbyman:systemd-resolved(8).#Donotedit.##Thisfilemightbesymlinkedas/e
  • 2024-10-30在Windows环境下使用AMD显卡运行Stable Diffusion
    现在用的电脑是21年配的,当时并没有AI相关的需求,各种各样的原因吧,抉择后选择了AMD的显卡,但在2024年的今天,使用AI进行一些工作已不再是什么罕见的需求,所以我也想尝试一下,但发现AMD显卡却处处碰壁,研究后发现,经过各方面的努力,AMD显卡在AI方面的支持已经有了很大的进步,
  • 2024-10-29Linux更改符号链接
    目录1.删除旧链接2.创建新的符号链接例如我的电脑上有两个版本的cuda,11.8和12.41.删除旧链接rmcuda2.创建新的符号链接ln-s/usr/local/cuda-11.8//usr/local/cuda
  • 2024-10-29vins-fusion gpu, docker, opencv4.5.4(cuda) 复现
    代码:https://gitee.com/zheng-yongjie/vins-fusion-gpu-cv4?skip_mobile=true硬件:jetsonxaviernx,系统20.04nvcc-V可查看cuda版本本文在docker里面复现1.opencvcuda安装root@ubuntu:~#pwd/rootwget-Oopencv-4.5.4.ziphttps://github.com/opencv/opencv/archi
  • 2024-10-28图像处理领域的加速算子收集
    1、Simd库——CPU指令集加速算子 SimdLibraryDocumentation.部分算子截图: 2、VPI库——CPU、GPU(CUDA)加速算子 VPI-VisionProgrammingInterface:Algorithms部分算子截图: 3、CV-CUDA库算子 CV-CUDA—CV-CUDABetadocumentation部分算子截图: 
  • 2024-10-282024最新最全【CUDA Toolkit 12.3】下载安装零基础教程【附安装包】_cuda12.3下载
    官网地址:这里CUDA是英伟达公司开发的一种并行计算平台和编程模型。它利用GPU的强大计算能力,加速各种数学和科学计算、数据分析、机器学习、计算机视觉等任务。CUDA包括CUDA编程语言、CUDA运行时库、NVIDIA显卡等组件。CUDA的编写方式分为两种:CUDAC/C++和CUDAFortran。开
  • 2024-10-27【已解决,含泪总结】非root权限在服务器Ubuntu18.04上配置python和torch环境,代码最终成功训练(二)
    配置torch环境pip升级因为一些包安装不成功可能和pip版本有关,所以先升级pip吸取之前python有多个版本的经验,所以我指定了Python版本的pip进行升级就是python3.8版本:/home/某某/Python3.8/bin/python3.8(要换成你实际的python位置)/home/某某/Python3.8/bin/python3.8-
  • 2024-10-27CUDA编程学习 (3)——内存和数据定位
    1.CUDAMemories1.1GPU性能如何所有thread都会访问globalmemory,以获取输入的矩阵元素在执行一次浮点加法时,需要进行一次内存访问,每次访问传输4字节(即32位浮点数)1FLOP(浮点运算)对应4字节的内存带宽假设的GPU性能:该GPU的峰值浮点计算能力为1,600GFL
  • 2024-10-27CUDA编程学习 (4)——thread执行效率
    1.Warp和SIMD硬件1.1作为调度单位的Warp每个block分为32-threadwarp在CUDA编程模型中,虽然warp不是显式编程的一部分,但在硬件实现上,每个block会被自动划分成若干个包含32个线程的warp。warp作为SM中的调度单元:SM(StreamingMultiprocessor)会以warp
  • 2024-10-27PyTorch深度学习框架与编程环境的安装
     摘要图 1 PyCharm安装 pycharm是一个用于计算机编程的集成开发环境,主要用于python语言开发。 Windowsx64(exe)是为基于x86-64架构的64位Windows操作系统设计的。这种安装程序可以在大多数主流PC上运行,包括使用英特尔和AMD处理器的电脑。WindowsARM6
  • 2024-10-27CUDA编程基本使用
    文章目录获取设备相关信息helloWorld线程和块的索引并行计算前期回顾:CUDA编程入门介绍获取设备相关信息在CUDA编程中获取设备相关信息至关重要,体现在设备兼容性和可用性检查以及性能优化和资源合理利用两方面,包括确保CUDA支持、确定设备ID以获取属性、了解硬件能力