GPU

2025-01-23simpleP2P
simpeP2P#include<stdlib.h>#include<stdio.h>#include<cuda_runtime.h>template<typenameT>voidcheck(Tresult,charconst*constfunc,constchar*constfile,intconstline){if(result){fprintf(
2025-01-22时代巨响——也谈DeepSeek从V3到R1
过去的2024年AI大模型领域热搜不断，国内国外都是一样。从OpenAI发布了GPT-4o，到月之暗面成为国内大模型赛道估值最高的“独角兽”引发股权资本争议；从推理型模型和视觉模型的新秀竞出，到市场竞争加剧致使“百模大战”逐渐退潮。一年时间虽短，剧情跌宕起伏。这里想着重提及的有两
2025-01-21GPU介绍之GPU监控中，如何确定GPU忙碌程度
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可
2025-01-18Python_CUDA入门教程学习记录
这是本人21年读书时学习CUDA基础知识保留的一些笔记，学习时的内容出处和图片来源不记得了，仅作为个人记录！CUDA编程关键术语：host:cpudevice:GPUhostmemory:cpu内存devicememory:gpuonboard显存kernels:调用CPU上的在GPU执行的函数devicefunction:只能在GP
2025-01-17Arc B570：英特尔的中端“战锤”能否撼动 200 美元显卡市场？
前言：新晋“挑战者”，中端GPU市场一夜变天？“200美元显卡市场已经死气沉沉？”或许在2024年底之前，真相并非如此。继ArcB580以出乎意料的高性价比拿下口碑与销量后，英特尔又锻造了一把新的“战锤”——ArcB570。它的目标非常明确：在NVIDIA和AMD低端产品线尚未更新、空当
2025-01-16深入对比：PyTorch与TensorFlow的异同及应用场景分析
引言在人工智能（AI）领域，尤其是深度学习中，PyTorch与TensorFlow是两大最流行的框架。它们都为研究人员和工程师提供了构建神经网络模型的强大工具，但二者的设计理念、使用方法以及适用场景却存在显著差异。了解这些差异能够帮助开发者根据具体需求选择合适的框架。本文将从多个角
2025-01-16onnxruntime-gpu 进行推理，限制GPU显存大小
1.显存问题使用onnxruntime-gpu进行推理，运行时间久了，显存被拉爆2.C++/Python配置运行时，配置provder,gpu_mem_limit参数来进行限制，比如2G显存21474836482*1024*1024*1024Pythonproviders=[ ( "TensorrtEx
2025-01-15GPU选型指南
TIP:星海算力平台支持多种高性能GPU，以满足不同用户的计算需求。我们深知GPU选择对于优化性能和降低成本的重要性。本文档将指导您根据应用场景和个性化需求，精准选择最适合的GPU型号。一、GPU选型基础在选择GPU时，需要考虑以下几个因素：模型大小：大模型需要更高的GPU算力和显存
2025-01-141 Culling 部分
知乎：Ref.UECulling疑问1：既然现代GPU已经有Early-Z，甚至在mobileGPU上还有HSR，为什么还需要OC呢？（实际是描述OC的必要性）：减少工作负载:Early-Z和HSR主要是在GPU渲染管线中工作，其作用是减少像素着色器的调用次数。然而，这些技术仍然要求几何数据通过顶点着色器阶段，并且仍需在Raster
2025-01-14windows下安装yolov11的GPU版本
在CSDN下搜索了一圈，给yolov11配置环境，已经有很多博主写了详细的文章。刚好我自己的笔记本电脑需要安装yolov11，把配置过程记录下。1、配置思路使用miniconda作为包管理工具，先单独安装pytorch、torchvision，再安装yolov11，最后通过condainstall安装cudatoolkit。2、安装流程
2025-01-13nvidia gpu结构简介和cuda编程入门
0.前言最近本人在写硕士大论文，需要写一些GPU相关的内容作为引言，所以在此总结一下。1.NVIDIAGPU线程管理CUDA的线程模型如上图，在调用一个CUDA函数时，需要定义grid和block的形状：func<<<grid,block>>>();在程序里定义的grid和block都是dim3类型的变量。当调用一个函数时，该函
2025-01-13使用 Podman Desktop 在 Windows 11 WSL2 环境中启动宿主机的 GPU 进行深度学习
使用PodmanDesktop在Windows11WSL2环境中启动宿主机的GPU进行深度学习概述本文将指导您如何利用PodmanDesktop安装时提供的WSL2环境，来启动宿主机的GPU进行深度学习任务。前提条件确保您的Windows11已经启用了WSL2和虚拟化功能，并且安装了最新版本的NVIDI
2025-01-13NVIDIA GPU Operator
NVIDIAGPUOperator是一个用于在Kubernetes集群上自动化部署、配置和管理NVIDIAGPU及相关硬件资源的工具。它通过KubernetesOperator框架来实现自动化管理，简化了在Kubernetes环境中使用GPU的过程。以下是NVIDIAGPUOperator的主要功能和组件：###主要功能1.**自
2025-01-12数据密集型应用系统设计PDF、EPUB免费下载
适读人群：所有后端开发者英国剑桥大学分布式系统研究员力作，微软CTO联袂力荐，EMC资深架构师亲译。带你跨越从分布式理论到工程实践的鸿沟！电子版仅供预览，支持正版，喜欢的请购买正版书籍点击原文去下载书籍信息作者:MartinKleppmann出版社:中国电力出版社原作名:Designin
2025-01-11从PyTorch入门到项目实战 | 基础知识篇 | 工欲善其事，必先利其器！详解PyTorch安装与环境配置
从PyTorch入门到项目实战
2025-01-11使用 Baseten 部署和服务机器学习模型
在现代机器学习的应用场景中，将模型成功部署到生产环境往往比模型训练本身更加复杂和重要。Baseten是一个强大的平台，它提供了部署和服务机器学习模型所需的所有基础设施。作为LangChain生态系统中的一个供应商，Baseten当前集成了一个组件：LLMs（大型语言模型），并且计划扩展更多
2025-01-10无需昂贵GPU：本地部署开源AI项目LocalAI在消费级硬件上运行大模型
无需昂贵GPU：本地部署开源AI项目LocalAI在消费级硬件上运行大模型随着人工智能技术的快速发展，越来越多的AI模型被广泛应用于各个领域。然而，运行这些模型通常需要高性能的硬件支持，特别是GPU（图形处理器），这往往导致较高的成本门槛。为了打破这一限制，开源AI项目LocalAI提供了一种
2025-01-09无需昂贵GPU：本地部署开源AI项目LocalAI你在消费级硬件上运行大模型
前言本文主要介绍如何在本地服务器部署无需依托高昂价格的GPU，也可以在本地运行离线AI项目的开源AI神器LoaclAI，并结合cpolar内网穿透轻松实现远程使用的超详细教程。随着AI大模型的发展，各大厂商都推出了自己的线上AI服务，比如写文章的、文字生成图片或者视频的
2025-01-09CUDA_VISIBLE_DEVICES
CUDA_VISIBLE_DEVICESflyfishCUDA_VISIBLE_DEVICES是一个环境变量，它用于控制哪些GPU设备对CUDA应用程序可见。通过设置这个环境变量，可以指定应用程序可以使用的特定GPU，而忽略其他。当你在命令行中使用exportCUDA_VISIBLE_DEVICES=0,1,2,3或者exportCUDA_VISIB
2025-01-09CPU、MCU、MPU、SOC、DSP、ECU、GPU、FPGA傻傻分不清楚？一文讲清它们的区别
前言在电子领域中，我们经常提到CPU、MCU、MPU、SOC、DSP、ECU、GPU、FPGA等，它们都是常见的芯片或处理器类型，但是却在结构、功能和应用场景上存在着显著的差异。有些朋友可能不太能区分，今天我们就来依次介绍一下。一、定义与功能1、CPU（CentralProcessingUnit，中央处理器）定义：是
2025-01-09解锁新应用：探索GPU扩展是如何提升渲染农场的工作效率
渲染农场是一种基于计算机GPU集群的渲染解决方案，主要用于分布式渲染。它将渲染任务分发到多个计算机（渲染节点）上，通过GPU并行计算和协同工作，实现大规模的3D渲染任务，从而提高渲染效率和速度。渲染农场广泛应用于影视制作、三维动画、游戏开发、广告设计、建筑可视化设计等领域。联瑞
2025-01-08C# 调用YoloSharp.Gpu，调用Microsoft.ML.OnnxRuntime.Gpu出错126
今天使用C#调用YoloSharp.Gpu，加载onnx模型，然后检测，代码很简单。//LoadtheYOLOpredictorpredictor??=newYoloPredictor(@"pathtoyour.onnx");//Runmodelvarresult=predictor.Detect(@"pathtoyourimage");一运行就爆错ONNXRuntimeError:1:FAIL:LoadL
2025-01-08GPU介绍之CUDA
关注我，持续分享逻辑思维&管理思维&面试题；可提供大厂面试辅导、及定制化求职/在职/管理/架构辅导；推荐专栏《10天学会使用asp.net编程AI大模型》，目前已完成所有内容。一顿烧烤不到的费用，让人能紧跟时代的浪潮。从普通网站，到公众号、小程序，再到AI大模型网站。干货满满。学成后可
2025-01-08深度学习的加速器：Horovod，让分布式训练更简单高效！
什么是Horovod？Horovod是Uber开发的一个专注于深度学习分布式训练的开源框架，旨在简化和加速多GPU、多节点环境下的训练过程。它以轻量级、易用、高性能著称，特别适合需要快速部署分布式训练的场景。Horovod的名字来源于俄罗斯传统舞蹈“Хоровод”，寓意多个计算单元
2025-01-08一文彻底搞懂英伟达PCIE和Nvlink版本的显卡怎么选？
英伟达针对企业级服务器推出了两种不同版本的显卡，一种是Nvlink版本，另一种是PCIE版本，这两种究竟有何区别，我们用于ai训练的时候又该如何选择呢？首先我们来看看PCIE版本的，PCIe版显卡对于PCIE版本的GPU而言，仅能通过桥接器与相邻的GPU相连，如下图的GPU1只能直接访问GPU2，而不能直接