FP32

2025-01-03深度学习基础理论————训练加速（单/半/混合精度训练）/显存优化（gradient-checkpoint）
主要介绍单精度/半精度/混合精度训练，以及部分框架（DeepSpeed/Apex）不同精度训练单精度训练（single-precision）指的是用32位浮点数（FP32）表示所有的参数、激活值和梯度半精度训练（half-precision）指的是用16位浮点数（FP16或BF16）表示数据。（FP16是IEEE标准，BF16是一种更适合AI计算的
2025-01-01如何在梯度计算中处理bf16精度损失：混合精度训练中的误差分析
如何在梯度计算中处理bf16精度损失：混合精度训练中的误差分析在现代深度学习训练中，为了加速计算并节省内存，越来越多的训练任务采用混合精度（MixedPrecision）技术，其中常见的做法是使用低精度格式（如bf16或fp16）进行前向传播和梯度计算，而使用高精度格式（如fp32）进行参数更新
2025-01-01DeepSpeed训练得到checkpoint如何像Huggingface模型一样评测evaluation？zero_to_fp32.py有什么用？怎么用？
DeepSpeed训练得到checkpoint如何像Huggingface模型一样评测evaluation？具体步骤首先看一个样例：这是我用open-instruct框架，使用DeepSpeed训练1728个steps得到的一个checkpoint。请注意，下文我演示用的例子是基于step_1152，主要方法和step_1728这个名字没有任何区别。在使
2024-12-14转载：【AI系统】训练后量化与部署
本文将会重点介绍训练后量化技术的两种方式：动态和静态方法，将模型权重和激活从浮点数转换为整数，以减少模型大小和加速推理。并以KL散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。训练后量化的方式训练后量化的方式主要分为动态和静态两种。动态离线量化动态
2024-12-13转载：【AI系统】TVM 实践案例
在本文我们探讨一下，如何利用AI编译器在新的硬件上部署一个神经网络，从算法设计到实际运行，有哪些需要考虑的地方？本文将以TVM为例，首先介绍一下TVM的工作流：导入模型。TVM可以从TensorFlow、PyTorch、ONNX等框架导入模型。转换为Relay。Relay是TVM的中间表示形式，已导
2024-12-13转载：【AI系统】TVM 实践案例
在本文我们探讨一下，如何利用AI编译器在新的硬件上部署一个神经网络，从算法设计到实际运行，有哪些需要考虑的地方？本文将以TVM为例，首先介绍一下TVM的工作流：导入模型。TVM可以从TensorFlow、PyTorch、ONNX等框架导入模型。转换为Relay。Relay是TVM的中间表示形式，已导
2024-12-13转载：【AI系统】训练后量化与部署
本文将会重点介绍训练后量化技术的两种方式：动态和静态方法，将模型权重和激活从浮点数转换为整数，以减少模型大小和加速推理。并以KL散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。训练后量化的方式训练后量化的方式主要分为动态和静态两种。动态离线量化动态
2024-12-12转载：【AI系统】TVM 实践案例
在本文我们探讨一下，如何利用AI编译器在新的硬件上部署一个神经网络，从算法设计到实际运行，有哪些需要考虑的地方？本文将以TVM为例，首先介绍一下TVM的工作流：导入模型。TVM可以从TensorFlow、PyTorch、ONNX等框架导入模型。转换为Relay。Relay是TVM的中间表示形式，已导
2024-12-12转载：【AI系统】训练后量化与部署
本文将会重点介绍训练后量化技术的两种方式：动态和静态方法，将模型权重和激活从浮点数转换为整数，以减少模型大小和加速推理。并以KL散度作为例子讲解校准方法和量化粒度控制来平衡模型精度和性能。训练后量化的方式训练后量化的方式主要分为动态和静态两种。动态离线量化动态
2024-11-30使用 C++ 实现 FP16 转 FP32 算法
1简介在当今高性能计算和深度学习领域，半精度浮点数（FP16）因其存储空间小、计算效率高的特点而被广泛应用。然而，在某些场景下，如精度要求较高的科学计算或者需要与FP32数据格式兼容的情况，将FP16转换为FP32就显得尤为重要。本文将介绍一种基于C++实现的FP16到FP32的转换
2024-12-09【学习笔记】树分治
点分治普通的分治在一段子段\([l,r]\)中处理和\(mid\)有关的信息然后递归处理\([l,mid)\)和\((mid,r]\)。由于中点的优秀性质这种看似暴力的做法实际复杂度是\(O(n\logn)\)的。点分治是一种把分治思想运用到树上解决问题的算法（但是其实更多人愿意称其为数据结构？）。它一
2024-08-19bf16精度简介
bfloat16(bf16)，即BrainFloatingPoint16-bit，是一种16位浮点数格式，主要用于深度学习和机器学习中的高效计算。它是在Google的TPU（TensorProcessingUnit）硬件中引入的，并已被其他硬件架构（如NVIDIAA100、IntelXeon）广泛采用。bf16的主要特性位分布：1位符号位：用于表示数值的
2024-07-26浮点数
FP32：1bit符号位，10bit指数，23bit底数位。FP16：1bit符号位，5bit指数，10bit底数位。FP16转FP32NAN/INF：对应的FP32的值+0/-0：+0/-0normal：指数+0x70,底数左移13位subnormal：对应的FP32属于normal，需要继续左移至最高位为1的省略掉。(0x0078,需要左移四位)，指数+0x70-(x-1)(x为底数
2024-07-24fp32的表示精度范围计算
是的，在IEEE754标准中，浮点数表示的指数的底（基数）是2。这意味着浮点数表示遵循二进制科学记数法，即数值表示为尾数（Significand或Mantissa）乘以2的指数次方。浮点数表示浮点数的表示形式通常为：其中：sign：符号位，0表示正数，1表示负数。fraction：尾数位，也称为小数部分，表示
2024-07-24pytorch模型迁移介绍
迁移的基本流程第一步：算子满足度分析方法一在pytorchprofiler在GPU上提取算子方法二使用CANN分析迁移工具第二步：配置相关硬件环境，在pytorch的基础上安装pytorchadapt;模型迁移-手工迁移（单Device代码迁移）导入NPU相关库（pyTORCH1.8）将device类型修改为npu将训
2024-07-19机器学习中常用的数据类型
常用的数据类型有FP64、FP32、FP16、BFLOAT16等FP64FP64表示64位浮点数，通常为IEEE754定义的双精度二进制浮点格式，由1位符号位、11位指数位、52位小数位组成表示范围：正数范围：约4.9x10e-324~1.8x10e308负数范围：约-1.8x10e308~-4.9x10e-324通常用于精度要求
2024-04-12图像预处理的数据精度问题报出的Nan
问题描述：git上的一个官方项目，图像预处理操作，使用torch进行处理，包含Resize,ToTensor,Nomalize,处理后的结果输入到trt-fp16精度的模型中，可以正常输出。我对图像预处理进行了修改，使用opencv进行resize，numpy进行totensor，nomalize操作，处理后的结果输出到trt-fp16的模型中，发现输出结果
2023-12-23神经网络量化流程（第一讲TensorRT）
TensorRT量化工具，支持PTQ和QAT量化基本流程：读取模型-》转化为IR进行图分析，做一些优化策略一、TensorRT量化模式TensorRT有两种量化模式：分别是implicitly以及explicitly量化，前者是隐式量化，在7.0及之前版本用的较多；后者显式量化在8.0版本后才完全支持，就是可以加载带有QDQ信息的模
2023-11-24爱芯元智AX650N部署yolov8s 自定义模型
爱芯元智AX650N部署yolov8s自定义模型本博客将向你展示零基础一步步的部署好自己的yolov8s模型（博主展示的是自己训练的手写数字识别模型），本博客教你从训练模型到转化成利于Pulsar2工具量化部署到开发板上训练自己的YOLOv8s模型准备自定义数据集数据集结构可以不像下面一样，
2023-10-18pytorch 量化相关参考
ref:https://blog.csdn.net/znsoft/article/details/130788437importtorchimporttorch.quantizationclassM(torch.nn.Module):def__init__(self):super(M,self).__init__()self.quant=torch.quantization.QuantStub()#静态量化时量化桩
2023-09-033、运算精度的选择(P106)
1、fp16和fp32有什么区别？FP32（单精度浮点数）和FP16（半精度浮点数）是两种不同的浮点数表示方式，它们在精度和存储空间上有显著的区别。下面是它们的主要区别以及一个示例来说明这些区别：精度：FP32：单精度浮点数使用32位来表示一个数，其中包括1位符号位、8位指数位和23位尾数位。它具有
2023-01-14一文搞懂模型量化算法
本文为对目前线性量化优点、原理、方法和实战内容的总结，主要参考神经网络量化简介并加以自己的理解和总结，适合初学者阅读和自身复习用。1，模型量化概述1.1，模型量化优点
2022-12-10神经网络模型量化基础
模型量化是指将神经网络的浮点算法转换为定点。量化有一些相似的术语，低精度（Lowprecision）可能是常见的。低精度模型表示模型权重数值格式为FP16（半精度浮点）或者
2022-12-03神经网络模型量化基础
1，模型量化概述1.1，模型量化优点1.2，模型量化的方案1.2.1，PTQ理解1.3，量化的分类1.3.1，线性量化概述2，量化算术2.1，定点和浮点2.2，量化浮点2.2，量化算术3，量
2022-10-07深度分析NVIDIA A100显卡架构（附论文&源码下载）
计算机视觉研究院专栏作者：Edison_G英伟达A100TensorCoreGPU架构深度讲解上次“计算机视觉研究院”已经简单介绍了GPU的发展以及安培架构的A100显卡，今天我们就来