高性能计算学习笔记-优化(2)

时间：2024-10-13 17:48:21浏览次数：6

一、Loop循环优化有以下几种

循环合并：两个循环合并到一个循环中
循环展开：循环内的并行技术
循环交换：改变多维数组的空间访问顺序，改善空间局部性，提高cache命中率
循环分布：将一个循环拆分为多个循环，使编译器可以进行向量化优化
循环不变：循环中不发生变化的量提到循环外面，避免重复计算
循环分块：对一个数据对象控制分块，只加载一次数据到cache中，使用完毕不再加载。常用到gemm 稠密矩阵乘法
循环分裂：将一个循环分段循环，拆分出可以向量化优化的循环。

关于loop优化测试时钟周期对比的测试用例见：
https://github.com/libo-0379/Loop-opt
测试结果：

二：向量化优化
是一种将标量计算转换为向量计算的优化方法，芯片指令集需要支持SIMD（单指令多数据）技术，计算单元具有向量计算功能，实现一次计算多个标量数据。Intel的 MMX、SSE、AVX指令集，ARM的NEON 指令支持向量化计算。

三：SLP向量化优化：将循环内同一迭代内的多个计算操作合并为一个向量计算。

标签：cache,笔记,高性能,向量,计算,量化,优化,循环
From： https://www.cnblogs.com/anluo8/p/18462566

基于牛顿拉夫逊算法优化长短期记忆网络结合注意力机制(NRBO-LSTM-Attention)（多输入多
文章目录效果一览文章概述部分源码参考资料效果一览文章概述基于牛顿拉夫逊算法优化长短期记忆网络结合注意力机制(NRBO-LSTM-Attention)（多输入多输出）（多输入多输出）MATLAB完整源码和数据纯手工制作，代码质量极高，注释清晰，excel数据，方便替换1.data为数据集，10个......
stm32单片机个人学习笔记10（TIM编码器接口）
前言本篇文章属于stm32单片机（以下简称单片机）的学习笔记，来源于B站教学视频。下面是这位up主的视频链接。本文为个人学习笔记，只能做参考，细节方面建议观看视频，肯定受益匪浅。STM32入门教程-2023版细致讲解中文字幕_哔哩哔哩_bilibili一、编码器接口简介二、正交编码器 ......
java中HashMap扩容机制详解（扩容的背景、触发条件、扩容的过程、扩容前后的对比、性能
在Java中，HashMap是一个非常常用的数据结构，基于哈希表实现，它通过键值对的形式存储数据。为了保证其操作的效率，HashMap采用了一种动态扩容机制。当HashMap中元素数量增长到一定程度时，会自动进行扩容。本文将详细讲解HashMap的扩容机制，包括其触发条件、过程、及扩容过程中可能......
2024.9 做题笔记
月考寄，遂学OI，whk中所以题目比较清新简单（[ABC301Ex]DifferenceofDistance无脑求最小生成树，如果权值\(+1\)的边\((u,v,t)\)不在\(x\toy\)路径上或者不是路径上的最大边，最小瓶颈路肯定不变否则想找一条权值为\(w\)非树边替换它，注意是最小生成树，\(w\get\)，而不变则......
【核心复现】基于合作博弈的综合能源系统电-热-气协同优化运行策略（Matlab代码实现）
......
【分布式能源选址与定容】光伏、储能双层优化配置接入配电网研究（Matlab代码实现）
......
【鲁棒优化、大M法、C&CG算法】计及风、光、负荷不确定性两阶段鲁棒优化（Matlab代码实
......
【无功优化】基于改进教与学算法的配电网无功优化【IEEE33节点】（Matlab代码时候）
......
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研
......
【微电网】【创新点】基于非支配排序的蜣螂优化算法NSDBO求解微电网多目标优化调度研
......

高性能计算学习笔记-优化(2)

相关文章

赞助商

阅读排行