• 2024-11-29CTranslate2:在 AMD GPU 上高效推理 Transformer 模型
    CTranslate2:EfficientInferencewithTransformerModelsonAMDGPUs—ROCmBlogsTransformer模型通过在机器翻译、文本摘要、文本生成和语音识别等任务中提供高性能结果,彻底改变了自然语言处理(NLP)的领域。然而,由于这些模型对计算和内存的高需求,在生产环境中部署它们
  • 2024-11-26RGB/INT8 输入注意事项
    01技术背景在大多数情况下,我们都推荐用户在编译处理图像任务的模型时,将input_type_rt参数配置nv12,这是考虑到视频通路传来的数据通常都是nv12类型,这样配置可以最大化地节约耗时,提高全流程的处理效率。但在前期的算法验证阶段,往往用户更希望模型能直接读取rgb/bgr数据,以
  • 2024-09-18asm内联语句在编译不支持的情况下的解决办法
    asm内联语句在编译不支持的情况下的解决办法本文链接在编写CUDA的C++程序时,NVIDIA的库文件中包含这样一行代码,这行代码在NVIDIA的编译器nvcc编译时可以正常通过,但迁移到AMD的编译器中将无法识别,生成报错。为了便于做迁移工作,我需要获得这行代码的执行信息。首先观察
  • 2024-09-08TensorRT-For-YOLO-Series项目:实现yolov10模型的python-tensorrt推理(对比int8与fp16推理差异)
    项目地址:https://github.com/Linaom1214/TensorRT-For-YOLO-Series/tree/cuda-python算法支持状态:2024.6.16SupportYOLOv9,YOLOv10,changingtheTensorRTversionto10.02023.8.15Supportcuda-python2023.5.12Update2023.1.7supportYOLOv82022.11.29fixs
  • 2024-09-05低比特量化方法
    低比特量化方法计算机里面数值有很多种表示方式,如浮点表示的FP32、FP16,整数表示的INT32、INT16、INT8,量化一般是将FP32、FP16降低为INT8甚至INT4等低比特表示,如图7-2所示。图7-2数值有很多种表示格式模型量化则是一种将浮点值映射到低比特离散值的技术,可以有效的减少
  • 2024-08-08SOMEIP_ETS_021:echoINT8
    测试目的:验证DUT在发送和接收INT8参数时,是否能够保持参数的值和顺序不变。描述本测试用例旨在检验DUT在处理包含INT8类型参数的SOME/IP消息时,是否能够正确地发送和接收这些参数,并且确保返回的方法响应消息中的INT8参数值与请求中的相同。测试拓扑:具体步骤:TESTER:创建S
  • 2024-08-03LLM大模型:推理优化-模型int8量化
      前面介绍的推理优化方法都有缺陷:knowledgedistillation:需要样本数据训练student,同时要大量算力更新student参数vLLM:通过pageattention,减少显存浪费,充分利用碎片化的显存,并未减少算力以上两种推理优化的方式都有缺陷,为了弥补上述缺陷,需要新的推理优化方式!tr
  • 2024-07-26mobilenet为什么不适合做int8量化
    MobileNet在进行INT8量化时遇到的挑战主要有以下几个原因:网络结构复杂性:MobileNet使用深度可分离卷积(DepthwiseSeparableConvolutions)来减少计算量和参数数量。这种卷积方式使得权重分布更加稀疏且多样化,可能在量化过程中失去一些细微的精度。激活函数和特征图范围
  • 2024-07-22int8量化过程中涉及到的原理
    int8 量化是一种用于减少模型大小和计算复杂度的方法,特别是在深度学习模型中。它通过将浮点数(通常是 fp32)转换为8位整数(int8),从而减少内存使用和提高计算效率。这在嵌入式设备和移动设备上特别有用。下面是 int8 量化的基本原理及其涉及的过程。1.为什么需要量化?减少
  • 2024-05-30模型节点操作学习笔记(Appendix)实验1 -- Tflite int8 删除最后的Round节点 (持续更新)
    背景如下:我要删除Round节点,同时看了一下,Dequantize和Quantize也是没有必要的。所以最好一起删除。原始项目地址:PINTO0309/hand-gesture-recognition-using-onnx:ThisisahandgesturerecognitionprogramthatreplacestheentireMediaPipeprocesswithONNX.Simultane
  • 2024-04-12用于显著提高检索速度和降低成本的二进制和标量嵌入量化
    我们引入了嵌入量化的概念,并展示了它们对检索速度、内存使用、磁盘空间和成本的影响。我们将讨论理论上和实践中如何对嵌入进行量化,然后介绍一个演示,展示了4100万维基百科文本的真实检索场景。目录为什么使用嵌入?嵌入可能难以扩展提高可扩展性二进制量化SentenceT
  • 2024-01-31飞桨paddlespeech语音唤醒推理C INT8 定点实现
    前面的文章(飞桨paddlespeech语音唤醒推理C定点实现)讲了INT16的定点实现。因为目前商用的语音唤醒方案推理几乎都是INT8的定点实现,于是我又做了INT8的定点实现。 实现前做了一番调研。量化主要包括权重值量化和激活值量化。权重值由于较小且均匀,还是用最大值非饱和量化。最大值
  • 2023-12-25安装go-icp_cython-master报错error C2371: “int8_t”: 重定义;不同的基类型
    库链接:aalavandhaann/go-icp_cython:用于全局最优3D点集配准的Go-ICP(github.com)解决方法:找到matrix.hpp文件,用记事本打开,在__int8之前加入signed,然后保存。 
  • 2023-11-26[机翻]Fun With Another PG-Compliant Hook/另一个符合 PG 标准的钩子的乐趣
    原文链接:https://revers.engineering/fun-with-pg-compliant-hook/目录Overview/概述CommonHookPointsinWindowsKernel/Windows内核中的常见钩子点TheHalPrivateDispatchTableTargetDiscovery/目标发现DIY…MOSTLYDIY.../主要δLocatingHalPrivateDispatchTable/
  • 2023-11-16最高加速9倍!字节跳动开源8比特混合精度Transformer引擎
    前言 近年来,Transformer已经成为了NLP和CV等领域的主流模型,但庞大的模型参数限制了它的高效训练和推理。于是字节跳动在2019年12月和2021年6月分别推出了高效推理和训练引擎LightSeq,大大加速了Transformer系列模型的训练和推理,也打通了Transformer从训练到推理
  • 2023-09-27滑动平均滤波参考代码
    目录在CH592上可以运行,用来给RSSI滤波。由于RSSI一般是-100~-20之间的数值,故数组类型是有符号数。/********************缓存迭代**参数:uint8_tnum待加入的数值*uint8_t*data待处理的数组*uint8_tlen数组长度*/__HIGH_CODEv
  • 2023-07-29HotSpot编译执行硬编码生成
    目录背景源码指令解析硬编码总结背景在一个技术群里,有一个哥们对着hotspot的源码问了个问题:源码看一下对应的源码://来源:hotspot/src/cpu/x86/vm/assembler_x86.cppvoidAssembler::notl(Registerdst){intencode=prefix_and_encode(dst->encoding());emit_int8(
  • 2023-06-21YOLO Int8量化模块实现
    什么是量化?量化是一种将浮点数转换为整数的方法,可以减少计算量和存储空间,提高模型的运行效率和部署能力。量化的过程可以表示为:\[Q(x)=round(\frac{x}{s})+z\]其中,\(x\)是浮点数,\(s\)是缩放因子(scalefactor),\(z\)是零点(zeropoint),\(Q(x)\)是量化后的整数。缩放因子\(s
  • 2023-06-01【活动回顾】Databend 数据库表达式框架设计与实现 @GOTC
    5月28日,“全球开源技术峰会GOTC2023”圆满落幕。在本次会上,Databend数据库的优化器研发工程师骆迪安作为嘉宾中的一员,在rust专题专区分会场进行了一次主题为《Rust实现的先进SQL Parser与高效表达式执行框架—Databend数据库表达式框架设计与实现》的演讲。演
  • 2023-04-25大规模 Transformer 模型 8 比特矩阵乘简介 - 基于 Hugging Face Transformers、Accelerate 以及 bitsandbytes
    引言语言模型一直在变大。截至撰写本文时,PaLM有5400亿参数,OPT、GPT-3和BLOOM有大约1760亿参数,而且我们仍在继续朝着更大的模型发展。下图总结了最近的一些语言模型的尺寸。由于这些模型很大,因此它们很难在一般的设备上运行。举个例子,仅推理BLOOM-176B模型,你就需要8
  • 2023-02-06GO 泛型的简单使用
    泛型的作用有关go泛型的提案和具体使用:https://github.com/polaris1119/go_dynamic_docs/blob/master/go2draft-contracts.md泛型生命周期只在编译期,旨在为程序员生
  • 2023-01-14一文搞懂模型量化算法
    本文为对目前线性量化优点、原理、方法和实战内容的总结,主要参考神经网络量化简介并加以自己的理解和总结,适合初学者阅读和自身复习用。1,模型量化概述1.1,模型量化优点
  • 2022-12-10神经网络模型量化基础
    模型量化是指将神经网络的浮点算法转换为定点。量化有一些相似的术语,低精度(Lowprecision)可能是常见的。低精度模型表示模型权重数值格式为FP16(半精度浮点)或者
  • 2022-12-03神经网络模型量化基础
    1,模型量化概述1.1,模型量化优点1.2,模型量化的方案1.2.1,PTQ理解1.3,量化的分类1.3.1,线性量化概述2,量化算术2.1,定点和浮点2.2,量化浮点2.2,量化算术3,量