并行执行的方式

本节内容围绕一个程序，针对如何改变处理器的结构来加速程序提出了多个idea

示例程序：该程序通过泰勒展开式来估算sin(x)的值

一个最简单的处理器，每个时钟周期只能执行一条指令，而利用ILP（指令级平行）的超标量处理器可同时执行两条指令（当指令间不存在依赖时），但示例程序存在数据依赖：

一个fancy的处理器，为上述的处理器增加包括乱序执行、分支预测、内存预取等复杂的逻辑部件加速程序。

idea1：增加处理器核心数

如果使用更多的晶体管来增加处理器核心数，而不是增加这些复杂的逻辑部件呢？我们可以得到两核处理器，由于去掉了复杂的逻辑部件，每个核心的速度会变慢，假设每个核心的速度只有原来的0.75，理想情况双核处理器的性能为0.75*2=1.5（由于示例程序存在数据依赖，实际加速达不到1.5）

利用pthread库不同的线程执行相互独立的任务，实现并行化。

利用forall循环并行化程序，在使用forall循环前，需要保证不同线程所执行的任务相互独立。

利用SIMD（单指令多数据），一条指令可以并行地在所有ALU中执行

利用AVX指令可以每次同时处理8个数组元素，处理器中有专用的256位的寄存器，

现在可以构建一个16核心数、128个ALU的处理器，该处理器每次可以并行地执行16条指令，每条指令可以处理八个数组元素的运算。

SIMD也可以处理if-else语句，SIMD会同时处理条件为true和false的分支，通过mask选择最终的结果，在下图中，ALU1、ALU2、ALU4处理if分支，因此后两个时钟周期的结果被忽略了。最差情况下，每个时钟周期只有一个ALU在工作，此时效率为理想情况的1/8。

三种并行执行的方式：

首先给出两个术语：

当处理器不能执行下一条指令时（load、store操作），会暂停（stall），为了降低内存延迟，引入了cache，L1 cache存取延迟为3-4个时钟周期，而内存的存取延迟有上百个周期，引入cache降低了内存延迟。

所有的现代CPU都会进行数据预取，通过某种预测逻辑将数据预先放到cache中。下图进行了对地址[r2]、[r3]的数据进行预取，这样两条load指令都能命中cache。预取是一种隐藏内存延迟的方法，内存数据被提前加载到cache中。

在同一核心上，利用多线程交错处理数据也是一种隐藏内存延迟的方法，为了实现多线程，每个线程都需要有独立的上下文环境。

上图展示了四个线程交错处理数据，当Thread1需要stall时，处理器不会等待，而是切换到Thread2，依次类推。Thread1执行任务的延迟没有降低，反而升高了，但增加了处理器的吞吐量。通过多线程的方式来提高系统的吞吐量，这是面向吞吐量系统的设计原则。

多线程技术不在意内存延迟，但依赖内存带宽，只有当内存带宽足够大，才能充分发挥多线程的优势。

即使处理器以高速请求数据，由于带宽的限制，再多的隐藏延迟的办法也没有用，下图是一个例子，由于显存带宽的速度为177GB/s，而为了使计算部件不停工作，需要至少6.4TB/s的带宽。

为了降低带宽的影响，高性能的并行程序需要做到两点：

标签：Core,Multi,15,cache,指令,线程,处理器,延迟,内存
From： https://www.cnblogs.com/Kyo-Kyo/p/17852992.html