这里的提速主要是针对时域电磁算法的。因为时域算法的蛙跳推进模式仅对大量存放在固定 位置的数据进行完全相同的且是简单的操作(移位相加),这正是 GPU 这类众核 SIMD 架构所进行的运算,即 ALU 与内存的存取速度(又称带宽)直接决定了整个运算速度。
下表给出了 GPU 与高速 CPU 数据总线的带宽比较,显然 GPU 的内存带宽远比 CPU 要高。这就是 GPU 在时域仿真中能够极大地提速的根源。
GPU 和内存 | Tesla K10 | Tesla K20X | Tesla K40m/c | Quadro K6000 | DDR3-1333MHz 内存 |
GPU 内存 | 4GB | 6GB | 12GB | 12GB | — |
GPU 核数 | 1536 | 2688 | 2880 | 2880 | — |
内存带宽 | 160GB/s | 250GB/s | 288GB/s | 288GB/s | 32GB/s |
双精度速度 | 0.19TFlops | 1.31TFlops | 1.43TFlops | 1.43TFlops | — |