fp16 的累加误差有多大

时间：2024-09-22 15:03:37浏览次数：13

标签：float16 误差 res rhs torch 累加 lhs fp16

本文地址：https://wanger-sjtu.github.io/fp16-err/

最近在项目中需要实现fp16的数据类型做FFN的计算，算子实现的同学反馈误差与x86上得到的golden数据有比较大误差。开始以为是x86侧做数值模拟仿真的问题。后面也实现了对比了一下，发现误差累计确实挺大。

实测结果对比

int main()
{
    // Seed with a real random value, if available
    std::random_device rd;
    std::mt19937 gen(rd());
    std::uniform_real_distribution<> dist(0, 0.01);
    
    float16_t lhs[4096] = {0};
    float16_t rhs[4096] = {0};
    for (int i = 0; i < 4096; i++) {
        lhs[i] =  dist(gen);
        rhs[i] =  dist(gen);
    }
    float16_t res_fp16 = 0;
    float res_fp32 = 0;

    for (int i = 0; i < 4096; i++) {
        res_fp16 += lhs[i] * rhs[i];
        res_fp32 += lhs[i] * rhs[i];
    }
    std::cout << "fp16 " << res_fp16 << std::endl;
    std::cout << "fp32 " << res_fp32 << std::endl;
    wirte2file("/data/local/tmp/lhs", reinterpret_cast<char*>(lhs), 8192);
    wirte2file("/data/local/tmp/rhs", reinterpret_cast<char*>(rhs), 8192);
}

结果输出：

fp16 0.0942383
fp32 0.103176

相对误差到8.1%了。难怪反馈有问题。

dim	绝对误差
100	1.63913e-07
1000	-0.00033829
2000	-0.000909835
4000	-0.00924221

golden 数据误差从何而来

实际生成golden数据的时候，也考虑了数值类型差异的影响，那为什么还存在误差呢？

对比了一下dot的视线与直接累加结果

import numpy as np
import torch

lhs = np.fromfile("lhs",dtype=np.float16)
rhs = np.fromfile("rhs",dtype=np.float16)

lhs = torch.from_numpy(lhs)
rhs = torch.from_numpy(rhs)

res = torch.Tensor([1]).half()
res[0] = 0
for i in range(4096):
    res += lhs[i:i+1] * rhs[i:i+1]

print(res)
print(torch.dot(lhs, rhs))

tensor([0.0942], dtype=torch.float16)
tensor(0.1041, dtype=torch.float16)

结果对得上了。torch 的 dot实现的时候很可能用了更高数值类型做累加。

标签：float16,误差,res,rhs,torch,累加,lhs,fp16
From： https://www.cnblogs.com/wanger-sjtu/p/18425293

代码随想录 -- 二叉树 -- 把二叉搜索树转换为累加树
538.把二叉搜索树转换为累加树-力扣（LeetCode）思路：定义pre变量用来记录当前节点的前一个节点（右中左顺序遍历）的值。递归出口：当root为空时，return。单层递归逻辑：（右中左）右：self.tra(root.right)中：令root的值为它本身加上pre，更新pre为当前root的值；左：self.tra(root.left)class......
Day18 二叉树part08| LeetCode 669. 修剪二叉搜索树， 108.将有序数组转换为二叉搜索树
669.修剪二叉搜索树669.修剪二叉搜索树classSolution{publicTreeNodetrimBST(TreeNoderoot,intlow,inthigh){if(root==null)returnnull;//处理节点值<low的情况：当前节点及其左子树的所有节点都不在范围内，继续在其右子树上修......
代码随想录算法训练营，9月17日 | 669. 修剪二叉搜索树，108.将有序数组转换为二叉搜索树，5
669.修剪二叉搜索树题目链接：669.修剪二叉搜索树文档讲解︰代码随想录(programmercarl.com)视频讲解︰修剪二叉搜索树日期：2024-09-17想法：节点为空返回空，值在中间时，继续递归左右两边，小于时递归右子树，大于时递归左子树Java代码如下：classSolution{publicTreeNodetrimBST......
leetcode刷题day20|二叉树Part08（669. 修剪二叉搜索树、108.将有序数组转换为二叉搜索
669.修剪二叉搜索树思路：理解了删除二叉搜索树中的节点，这个题理解起来就不难了。还是选用中序遍历递归。递归三步曲：1、传入参数：根节点，最小值，最大值；返回值为根节点；2、终止条件：如果节点为空，直接返回空；3、递归逻辑：如果最小值小于该节点，递归调用该节点的右孩子（检查右孩子......
多元线性回归损失函数求导过程均方误差推导过程最小二乘法推导
1.方程2-8: 2.对方程2-8关于求导: 3.分别求导: ，因为与无关。，根据矩阵微分公式。，根据矩阵微分公式。，根据矩阵微分公式，这里是对称矩阵，所以。4.将求导结果代入: ......
TensorRT-For-YOLO-Series项目：实现yolov10模型的python-tensorrt推理（对比int8与fp16推
项目地址：https://github.com/Linaom1214/TensorRT-For-YOLO-Series/tree/cuda-python算法支持状态：2024.6.16SupportYOLOv9,YOLOv10,changingtheTensorRTversionto10.02023.8.15Supportcuda-python2023.5.12Update2023.1.7supportYOLOv82022.11.29fixs......
累加n次阶乘分之一
请编写函数fun，其功能是:计算并输出下列多项式的值:例如，在主函数中从键盘给n输入15，则输出为:s=2.718282注意:要求n的值大于1但不大于100。#include<stdio.h>#pragmawarning(disable:4996)doublefun(intn){ inti=0; intj=1; doublesum=1; for(i=1;i<=n;i+......
Origin2024中如何添加误差带？直观查看数据的变化范围
误差线是通常用于统计或科学绘图中，本期给大家分享Origin中绘制带填充区的误差带图，可以直观显示数据的变化范围，填充区域也可以增加视觉效果和美观性操作步骤：1、打开Origin2024软件，然后在Book1中输入如下示例数据：2、选中所有数据：3、点击菜单栏中【绘图】→【基础2D图】→【......
【自动驾驶】控制算法（七）离散规划轨迹的误差计算
写在前面：......

fp16 的累加误差有多大

实测结果对比

golden 数据误差从何而来

相关文章

赞助商

阅读排行