• 2024-11-21MagicQuill,AI动态图像元素修改,AI绘图,需要40G的本地硬盘空间,12G显存可玩,Win11本地部署
    最近由magic-quill团队开源的MagicQuill项目十分引人瞩目,这个项目可以通过定制的gradio客户端针对不同的图像元素通过提示词进行修改,从而生成新的图像。值得一提的是,这个项目相当亲民,只需要20步迭代模型预测,甜品卡10秒钟就可以获取图片的修改效果,但是代价是至少需要40个G左
  • 2024-11-21【深度学习】模型训练时减少GPU显存占用
    训练过程中,显存的主要占用来自:激活值(Activations):前向传播过程中存储的中间计算结果。梯度存储:用于反向传播。权重和偏置参数。一、梯度检查点(GradientCheckpointing)在深度学习中,反向传播需要保留前向传播过程中生成的中间激活值(activations)来计算梯度。GradientCheckp
  • 2024-11-18LLM的不同精度详解和显存占用,FP16,FP32,BF16
    目录前言1、FP162、BF163、FP324、不同精度的显存占用5、不同精度之间的转换总结前言本文主要介绍LLM的三种不同精度FP16,FP32,BF16的概念和计算,并用pytorch进行演示;不同精度下的显存占用,以及不同精度的相互转换。1、FP16FP16也叫 float16,全称是Half-precisionflo
  • 2024-11-16LLM-面试题
    LLM推理和训练占用显存https://blog.csdn.net/weixin_44292902/article/details/133767448https://www.53ai.com/news/finetuning/2024083051493.html推荐,讲解训练和推理时的显存占用,lora和qlora。如果模型参数量为X(fp16),推理一般占用2X(模型参数+各种激活值,beams
  • 2024-11-13写给设计师的ComfyUI教程——FLUX工作流
    吐槽下,AI时代,知识更迭会越来越快,每个月,就会有一些技术迭代。各种营销号今天出一个技术就吊打xx,明天出一个技术就吊打xx,展示的全都是优点,缺点是一点不提。就拿Flux为例,控制网除了挺多了,就很少有人告诉你目前的控制都没有那么好用。很多东西需要自己测试才知道。每个技术都有
  • 2024-11-12【运维】如何在不同操作系统上获取计算机硬件信息
    目录引言一、Windows操作系统1.1获取CPU信息1.2获取内存信息1.3获取硬盘信息1.4获取显卡信息1.5获取显存信息二、macOS操作系统2.1获取CPU信息2.2获取内存信息2.3获取硬盘信息2.4获取显卡信息2.5获取显存信息三、Linux操作系统3.1获取CPU信息3.2
  • 2024-11-11Transformers显存优化策略
    (原创)Transformers显存优化简易策略(本教程目标:4G显存也能跑BERT-Large)
  • 2024-11-10Stable diffusion的SDXL模型,针不错!(含实操)
    与之前的SD1.5大模型不同,这次的SDXL在架构上采用了“两步走”的生图方式:以往SD1.5大模型,生成步骤为Prompt→Base→Image,比较简单直接;而这次的SDXL大模型则是在中间加了一步Refiner。Refiner的作用是什么呢?简单来说就是能够自动对图像进行优化,提高图像质量和清晰度,减
  • 2024-11-10写给设计师的ComfyUI教程| FLUX工作流
    吐槽下,AI时代,知识更迭会越来越快,每个月,就会有一些技术迭代。各种营销号今天出一个技术就吊打xx,明天出一个技术就吊打xx,展示的全都是优点,缺点是一点不提。就拿Flux为例,控制网除了挺多了,就很少有人告诉你目前的控制都没有那么好用。很多东西需要自己测试才知道。每个技术都有
  • 2024-11-09OpenGL 纹理采样 在GPU中哪个部件完成
    OpenGL纹理采样主要在GPU的流式多处理器(StreamingMultiprocessor,SM)中完成。SM内部包含多个用于执行计算的核心(Core)以及纹理缓存(TextureCache)等部件,这些部件协同工作来实现纹理采样。具体过程如下:纹理数据获取:当需要进行纹理采样时,首先会从纹理内存(通常是显存中的一块区
  • 2024-11-09流处理器与其他部件协同工作的过程
    流处理器与其他部件协同工作的过程如下:与CPU的协同:任务分配与指令传输:CPU负责整体的系统控制和任务调度。在图形渲染等需要大量并行计算的场景中,CPU将相关的图形数据处理任务分配给GPU。例如在运行3D游戏时,游戏的逻辑部分(如玩家的移动、游戏规则的判断等)由CPU处理,而
  • 2024-11-09GPU 架构是图形处理器
    GPU架构是图形处理器(GPU)的内部设计和组织方式,它决定了GPU的性能、功能和效率。以下是GPU架构的一些主要组成部分和相关特点:流处理器(StreamingProcessor)或着色器核心(ShaderCore):这是GPU中最基本的计算单元,负责执行图形渲染和计算任务中的各种计算操作,例如顶点着色、像
  • 2024-11-09OFA-Sys/chinese-clip-vit-base-patch16 占用显存测试
    model.get_image_features(inputs) 64batch_size2096MB取消withtorch.no_grad():后8GB占满16batch_size3886MB AutoModel.from_pretrained(MODEL_NAME)执行慢,原因是需要启用网络代理,否则总是卡在验证阶段 DataLoader增加num_workers后torch.cuda.OutOf
  • 2024-10-31大模型训练优化方法_大模型调优
    写在前面在训练模型尤其是大模型的时候,如何加快训练速度以及优化显存利用率是一个很关键的问题。本文主要参考HF上的一篇文章:https://huggingface.co/docs/transformers/perf_train_gpu_one,以及笔者在实际训练中的一些经验,给出一些比较实用的方法。先看一个总览的表:方法
  • 2024-10-30大模型低资源部署策略
    文章目录解码效率分析大模型训练后量化方法经验性分析与相关结论    由于大模型的参数量巨大,在解码阶段需要占用大量的显存资源,因而在实际应用中的部署代价非常高。在本文中,我们将介绍一种常用的模型压缩方法,即模型量化(ModelQuantization),来减少大模型的显
  • 2024-10-29一文讲明白大模型分布式逻辑(从GPU通信原语到Megatron、Deepspeed)
    1.背景介绍如果你拿到了两台8卡A100的机器(做梦),你的导师让你学习部署并且训练不同尺寸的大模型,并且写一个说明文档。你意识到,你最需要学习的就是关于分布式训练的知识,因为你可是第一次接触这么多卡,但你并不想深入地死磕那些看起来就头大的底层原理,你只想要不求甚解地理解分
  • 2024-10-272024/10
    27日今天是,十月二十七日,星期日十点起床,我是不是太健康了先把昨天的ds实验交了然后开始干实验室有点搞心态,下载了一个小时才发现下错模型了一小时两块钱,血亏两元然后是各种问题,先是build爆内存于是只好从师兄哪儿贺过来然后复制一半又爆硬盘,不得不
  • 2024-10-09大模型训练显存需求分析指南:从SFT到RLHF的实践之路
    引言随着大模型技术的快速发展,越来越多的研究者和开发者开始尝试自己训练或微调大模型。然而,大模型训练最大的门槛之一就是算力资源,特别是GPU显存的需求。本文将从实践角度出发,详细分析大模型训练中的显存需求,帮助读者更好地规划自己的训练资源。显存需求概览在大模型训
  • 2024-09-29GPT-SoVITS语音合成模型实践
    1.概述GPT-SoVITS是一款开源的语音合成模型,结合了深度学习和声学技术,能够实现高质量的语音生成。其独特之处在于支持使用参考音频进行零样本语音合成,即使没有直接的训练数据,模型仍能生成相似风格的语音。用户可以通过微调模型,进一步提升其性能,以适应特定的应用需求。2.内容2.1
  • 2024-09-25【基础岛·第2关】8G 显存玩转书生大模型 Demo
    目录创建开发机环境配置CliDemo部署InternLM2-Chat-1.8B模型创建开发机我们选择10%的开发机,镜像选择为Cuda-12.2。在输入开发机名称后,点击创建开发机环境配置在/root/share/pre_envs中配置好了预置环境icamp3_demo可以通过如下指令进行激活:condaactivate/root
  • 2024-09-25大模型面试百问百答
    大家好,这里是大模型八哥。今天分享大模型面试相关知识点,持续更新。1.RAG技术体系的总体思路数据预处理->分块(这一步骤很关键,有时候也决定了模型的效果)->文本向量化->query向量化->向量检索->重排->query+检索内容输入LLM->输出2.使用外挂知识库主要为了解决什么问
  • 2024-09-24【ComfyUI工作流】神级AI文生图Flux.1本地一键部署整合包,6G显存NSFW版本​
    FLUX.1是由BlackForestLabs精心研发的AI图像生成模型,其强大的文本到图像的转换能力,让梦想变得触手可及。然而,FLUX.1模型对硬件的要求极为苛刻,尤其是显存需求高达42GB,这使得大多数普通用户难以直接运行该模型。为了解决这一难题,开发者们推出了FLUX.1GGUF版本。GGUF(GPT-Generated
  • 2024-09-24腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行
    腾讯混元文生图开源模型推出小显存版本,仅需6G显存即可运行7月4日,腾讯混元文生图大模型(混元DiT)宣布开源小显存版本,仅需6G显存即可运行,对使用个人电脑本地部署的开发者十分友好,该版本与LoRA、ControlNet等插件,都已适配至Diffusers库;并新增对Kohya图形化界面的支持,让开发者可
  • 2024-09-20为大模型提供服务需要多少 GPU 显存?
    在几乎所有的LLM面试中,有一个问题总是会被提及:“**为大模型提供服务需要多少GPU显存?**”这不仅仅是一个随机的问题——它是一个关键指标,反映了你对这些强大模型在生产环境中部署和可扩展性的理解程度。当你使用GPT、LLaMA或任何其他LLM时,了解如何估算所需的GPU内存是至