首页 > 编程语言 >x86平台SIMD编程入门(2):通用指令

x86平台SIMD编程入门(2):通用指令

时间:2023-11-04 12:22:55浏览次数:42  
标签:mm256 __ x86 ps mm 寄存器 编程 SIMD 加载

1、重解释转换

虽然128位的XMM寄存器在硬件上只是256位YMM寄存器的下半部分,但在C++中它们是不同的类型。有一些intrinsic函数可以将它们重新解释为不同的类型,如下表所示,行代表源类型,列代表目标类型。

__m128 __m128d __m128i __m256 __m256d __m256d
__m128 = _mm_castps_pd _mm_castps_si128 _mm256_castps128_ps256
__m128d _mm_castpd_ps = _mm_castpd_si128 _mm256_castpd128_pd256
__m128i _mm_castsi128_ps _mm_castsi128_pd = _mm256_castsi128_si256
__m256 _mm256_castps256_ps128 = _mm256_castps_pd _mm256_castps_si256
__m256d _mm256_castpd256_pd128 _mm256_castpd_ps = _mm256_castpd_si256
__m256i _mm256_castsi256_si128 _mm256_castsi256_ps _mm256_castsi256_pd =

这些函数不会被编译成任何指令,所以性能上几乎没有损耗,因为它们不改变寄存器中的值,例如32位float浮点数1.0f转换成32位整数后会变为0x3f800000。将128位值转换成256位值时,上半部分是未定义的。

2、类型转换

类型转换只支持带符号的32位整数,例如:

函数示例 说明
_mm_cvtepi32_ps_mm256_cvtepi32_ps 将32位整数转换成对应的32位浮点数
_mm_cvtepi32_pd_mm256_cvtepi32_pd 将32位整数转换成对应的64位浮点数
_mm_cvtps_epi32_mm256_cvtps_epi32 将32位浮点数转换成对应的32位整数
_mm_cvtpd_epi32_mm256_cvtpd_epi32 将64位浮点数转换成对应的32位整数

当浮点数转换为整数时,函数使用MXCSR寄存器中指定的舍入模式,若要更改模式,可以使用宏_MM_SET_ROUNDING_MODE。此外,也有一些名称中带有额外t的函数会忽略MXCSR寄存器,并始终使用向零截断(_MM_ROUND_TOWARD_ZERO)的模式,例如_mm_cvttpd_epi32_mm_cvttps_epi32

此外还有一些函数可以在32位浮点数与64位浮点数之间进行转换,例如_mm256_cvtps_pd将32位浮点数转换成64位浮点数。

3、内存访问

3.1、加载

  • 对齐/非对齐加载:所有数据类型都支持对齐加载和非对齐加载。对齐加载例如_mm_load_si128_mm256_load_ps,它们要求源地址是16字节或者32字节对齐的,否则可能会导致崩溃;非对齐加载例如_mm_loadu_si128_mm256_loadu_ps,它们函数名中额外的u表示unaligned,它们的速度可能会慢于对齐加载的版本。

  • 单通道加载:__m128__m128d支持单通道加载,即只加载第一条通道并把其它通道设置成0.0,例如_mm_load_ss_mm_load_sd

  • 逆序加载:__m128__m128d支持逆序加载,即以逆序方式将数据加载到寄存器中,例如_mm_loadr_ps_mm_loadr_pd

  • 广播加载:在AVX指令集中, __m128__m256__m256d支持广播加载,也就是把单个值加载到多个寄存器通道中,例如_mm256_broadcast_ss等。

  • 掩码加载:AVX引入了掩码加载,即根据掩码的值选择性地加载数据,例如_mm_maskload_ps等。

  • 跨距加载:AVX2引入了跨距加载,它可以利用索引寄存器来加载非连续地址的数据元素,不过速度较慢,例如_mm_i32gather_ps等。

  • 流加载:这类指令绕过缓存,直接将内存数据加载到寄存器中,从而减少缓存污染和缓存替换的开销,适用于一次性读取大量数据并进行向量化计算的场景,例如_mm_stream_load_si128_mm256_stream_load_si256等。

3.2、存储

  • 对齐/非对齐存储:与对齐/非对齐加载同理,对应的存储指令也有_mm_store_ps_mm_storeu_ps等。

  • 单通道存储:与单通道加载类似,只把第一条通道的数据写入内存,例如_mm_store_ss等。

  • 逆序存储:与逆序加载类似,它以逆序方式将数据写入内存中,例如_mm_storer_ps等。

  • 掩码存储:与掩码加载类似,根据掩码的值选择性地存储数据,例如_mm_maskstore_ps等。

  • 流存储:与流加载指令类似,绕过缓存直接将数据写入内存,从而减少了缓存写回的开销,适用于大规模数据的存储操作,例如_mm_stream_ps_mm256_stream_si256等。

4、向量寄存器初始化

所有向量寄存器类型都有_mm_setzero_ps_mm256_setzero_si256这样的函数,用于将寄存器初始化为全零,它可能会被编译成xorps xmm0, xmm0, xmm0这样的指令,其执行效率很高。

虽然CPU无法使用0以外的常量来初始化寄存器,但编译器还是提供了一些函数来实现非0初始化,例如_mm_set_ps可以用不同的值初始化各个通道,_mm256_set1_epi用相同的值初始化所有通道。这些函数的实现依据具体情况而定:如果参数是编译时的常量,它们通常会被编译成二进制文件中的只读数据;如果编译时无法确定参数,编译器就会执行其它合理操作,例如寄存器大部分为0,而我们只设置了一条通道,那么编译器可能会执行插入指令,再比如参数来自变量,编译器就可能会先实行洗牌或标量存储、然后再进行向量加载。

5、向量寄存器与通用寄存器的转换

数据类型 数据复制方向 函数示例
整数 向量寄存器最低通道 ==> 通用寄存器 _mm_cvtsi128_si32_mm_cvtsi128_si64
整数 通用寄存器 ==> 向量寄存器最低通道 _mm_cvtsi32_si128_mm_cvtsi64x_si128
浮点数 向量寄存器最低通道 ==> 通用寄存器 _mm_cvtss_f32_mm_cvtsd_f64
浮点数 通用寄存器 ==> 向量寄存器最低通道 没有对应的转换函数,但可以使用_mm_set_ps_mm_set1_ps实现相同功能

上表中列举的转换函数只操作向量寄存器的最低通道,除此之外还有一类函数可以将整数向量寄存器任意通道的值复制到通用寄存器,它们是_mm_extract_epi8_mm_extract_epi16等。

当程序是32位时,所有通用寄存器也都是32位的,在向量寄存器和通用寄存器之间移动64位整数的指令不可用。

6、位运算

浮点数和整数有一套完整的位运算指令,它们包含AND、OR、XOR、ANDNOT指令,例如_mm_and_ps_mm256_xor_epi32等。如果需要位运算NOT,最快的方法可能是与所有1进行XOR,例如:

__m128i bitwiseNot(__m128i x)
{
    const __m128i zero = _mm_setzero_si128();
    const __m128i one = _mm_cmpeq_epi32(zero, zero);
    return _mm_xor_si128(x, one);
}

test指令将计算结果直接保存到int型的通用寄存器中,部分test函数及其功能如下表所示:

函数示例 返回结果
_mm_testz_si128_mm256_testz_si256 return ((a & b) == 0) ? 1 : 0
_mm_testc_si128_mm256_testc_si256 return (((~a) & b) == 0) ? 1 : 0
_mm_testnzc_si128_mm256_testnzc_si256 testztestc结果都为0时返回1,否则返回0
_mm_test_all_ones 把输入向量取反后与全1向量按位与,如果等于0则返回1,否则返回0
_mm_test_all_zeros 把输入向量与掩码向量按位与,如果等于0则返回1,否则返回0

标签:mm256,__,x86,ps,mm,寄存器,编程,SIMD,加载
From: https://www.cnblogs.com/moonzzz/p/17806554.html

相关文章

  • x86平台SIMD编程入门(1):SIMD基础知识
    1、简介SIMD(SingleInstruction,MultipleData)是一种并行计算技术,它通过向量寄存器存储多个数据元素,并使用单条指令同时对这些数据元素进行处理,从而提高了计算效率。SIMD已被广泛应用于需要大量数据并行计算的领域,包括图像处理、视频编码、信号处理、科学计算等。许多现代处理......
  • 【教3妹学编程-算法题】117. 填充每个节点的下一个右侧节点指针 II
    2哥 :3妹,听说你昨天去面试了,怎么样啊?3妹:嗨,别提了,让我回去等通知,估计是没有通知了,还浪费我请了一天假。2哥 :你又请假了啊,你是怎么跟你那个严厉的老板请假的。3妹:我说我2哥生病了,嘿嘿~2哥:一猜就是说我生病了,自从你找工作,我这一年都病了十几回了……3妹:没办法,假不好请嘛,我尽快......
  • 教3妹学编程-算法题】2914. 使二进制字符串变美丽的最少修改次数
    3妹:呜呜,烦死了,脸上长了一个痘2哥 :不要在意这些细节嘛,不用管它,过两天自然不就好了。3妹:切,你不懂,影响这两天的心情哇。2哥 :我看你是不急着找工作了啊,工作那么辛苦,哪还有时间想这些啊。3妹:说到找工作,我又要去刷题了。2哥:我给你出一道关于美丽的题吧,让你的心情美丽美丽~ 1题目......
  • 【教3妹学编程-算法题】数组中两个数的最大异或值
    3妹:“太阳当空照,花儿对我笑,小鸟说早早早,你为什么背上炸药包”2哥 :3妹,什么事呀这么开心呀。3妹:2哥你看今天的天气多好啊,阳光明媚、万里无云、秋高气爽,适合秋游。2哥:是啊,都快立冬了,天气还是这么热。今年的冬天比以往来的要晚一些。3妹:晚来也是要来的,看天气预报下周要降温,估计没几......
  • UE4中的C++编程简介
    对官方文档的学习链接利用UE创建一个C++基类在编辑器中可以选择父类,根据这个父类我们可以创建一个基类用于后续的蓝图类制作。以Actor父类为例创建基类,其头文件会包含一个构造函数,一个Tick函数的重载和一个BeginPlay函数的重载。BeginPlay函数告诉Actor以可运行状态进入了游戏......
  • JUC并发编程学习笔记(七)常用的辅助类
    常用的辅助类CountDownLatch这是一个JUC计数器辅助类,计数器有加有减,这是减。使用方法packageorg.example.demo;importjava.util.concurrent.CountDownLatch;//线程计数器publicclassCountDownLatchDemo{publicstaticvoidmain(String[]args){Cou......
  • JUC并发编程学习笔记(六)Callable(简单)
    Callable(简单)callable接口和runnable接口类似,都是为了执行另外一条线程而设计的,区别是Runnable不会返回结果也不会抛出异常。1、可以有返回值2、可以抛出异常3、方法不同;run()/call();Runnable实现Runnable接口,重写run方法,无返回值//原线程classRunnableThreadimple......
  • 突破性的多语言代码大模型基CodeShell:引领AI编程新时代
    突破性的多语言代码大模型基CodeShell:北京大学与四川天府银行联合打造,引领AI编程新时代1.CodeShell简介CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数,经过对五千亿Tokens的训练,并具有8192的上下文窗口长度。CodeShell在......
  • 突破性的多语言代码大模型基CodeShell:引领AI编程新时代
    突破性的多语言代码大模型基CodeShell:北京大学与四川天府银行联合打造,引领AI编程新时代1.CodeShell简介CodeShell是北京大学知识计算实验室联合四川天府银行AI团队研发的多语言代码大模型基座。它拥有70亿参数,经过对五千亿Tokens的训练,并具有8192的上下文窗口长度。CodeShell在......
  • 实验3—C语言函数应用编程
    1、实验任务1源代码1#include<stdio.h>2#include<stdlib.h>3#include<time.h>4#include<windows.h>5#defineN806voidprint_text(intline,intcol,chartext[]);//函数声明7voidprint_spaces(intn);//函数声明8voidprint_b......