首页 > 其他分享 >OpenCV4 :并行计算cv::parallel_for_

OpenCV4 :并行计算cv::parallel_for_

时间:2023-10-26 10:01:33浏览次数:32  
标签:sz Mat src int dst 并行计算 OpenCV4 cv


OpenCV4 :并行计算cv::parallel_for_

在计算机视觉和图像处理领域,OpenCV(开源计算机视觉库)是一个非常强大和广泛使用的库。随着图像分辨率的提高和计算任务的复杂度增加,实时处理变得越来越困难。为了解决这个问题,OpenCV提供了并行处理能力,可以显著提高代码的性能。本文将介绍如何利用OpenCV的并行处理能力来优化图像处理任务。

OpenCV的并行框架

OpenCV自2.4版本以来就提供了一个并行框架,允许在多个核心或处理器上并行执行代码。该框架提供了一种简单且高效的方式来编写可以利用多核处理器的代码。OpenCV4继续沿用并扩展了这个并行框架,增加了对新硬件和平台的支持。

官方文档中的并行框架教程为我们提供了详细的指南和示例代码,说明了如何使用OpenCV的cv::parallel_for_函数。

cv::parallel_for_函数

cv::parallel_for_函数是OpenCV并行框架的核心。该函数允许我们并行执行循环,每个循环迭代可以在不同的线程上执行。cv::parallel_for_函数接受一个cv::Range对象和一个实现了cv::ParallelLoopBody接口的对象。

cv::parallel_for_(cv::Range(0, count), MyParallelLoopBody());

其中,MyParallelLoopBody需要实现cv::ParallelLoopBody接口的virtual void operator()(const cv::Range& range) const方法。

并行卷积示例

我们创建了两个并行卷积类:parallelConvparallelConvByRow,它们都继承了cv::ParallelLoopBody接口。parallelConv类按图像的每个像素并行执行卷积,而parallelConvByRow类则按图像的每行并行执行卷积。

parallelConv

parallelConv类的构造函数接受源图像、目标图像和卷积核作为参数。它还计算了卷积核的半径,并为源图像添加了边框以处理边界像素。

class parallelConv : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;

public:
	parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int r = range.start; r < range.end; ++r)
		{
			auto [i, j] = std::div(r, m_dst.cols);
			double value = 0;

			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = m_src.ptr(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
				}
			}
			m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);
		}
	}
};

operator()方法中,我们遍历了指定范围内的所有像素,并为每个像素执行卷积操作。

parallelConvByRow

parallelConv类类似,parallelConvByRow类也接受源图像、目标图像和卷积核作为参数,并为源图像添加了边框。

class parallelConvByRow : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;
	int cols;

public:
	parallelConvByRow(Mat src, Mat& dst, Mat kernel)
		: m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int i = range.start; i < range.end; ++i)
		{
			if (i >= m_dst.rows)
			{
				continue;
			}
			auto dptr = m_dst.ptr<uchar>(i);

			for (int j = 0; j < cols; ++j)
			{
				double value = 0;

				for (int k = -sz; k <= sz; ++k)
				{
					auto sptr = m_src.ptr(i + sz + k);

					for (int l = -sz; l <= sz; ++l)
					{
						value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
					}
				}
				dptr[j] = cv::saturate_cast<uchar>(value);
			}
		}
	}
};

operator()方法中,我们遍历了指定范围内的所有行,并为每行的每个像素执行卷积操作。

性能比较

通过比较顺序卷积和两种并行卷积的执行时间,我们可以看到并行卷积显著提高了性能。尤其是在处理大图像或使用大卷积核时,这种性能提升尤为明显。

// 非并行方法
	auto start_seq = std::chrono::high_resolution_clock::now();
	seqConv(src, dst_seq, kernel);
	auto end_seq = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff_seq = end_seq - start_seq;
	std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;

	// 方法 1:整体遍历
	auto start1 = std::chrono::high_resolution_clock::now();
	parallelConv obj1(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);
	auto end1 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff1 = end1 - start1;
	std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;

	// 方法 2:按行遍历
	auto start2 = std::chrono::high_resolution_clock::now();
	parallelConvByRow obj2(src, dst2, kernel);
	cv::parallel_for_(cv::Range(0, src.rows), obj2);
	auto end2 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff2 = end2 - start2;
	std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;
Time taken by sequential method: 0.308864 s
Time taken by whole image traversal: 0.2328 s
Time taken by row-by-row traversal: 0.169044 s

OpenCV4 :并行计算cv::parallel_for__OpenCV

OpenCV4 :并行计算cv::parallel_for__OpenCV_02

完整代码

#include <iostream>
#include <opencv2/core/core.hpp>
#include <opencv2/highgui/highgui.hpp>
#include <opencv2/imgproc/imgproc.hpp>
#include <chrono>
#include <span>
using cv::Mat;

void seqConv(Mat src, Mat& dst, Mat kernel)
{
	const int rows = src.rows, cols = src.cols;
	dst = Mat(rows, cols, src.type());

	int sz = kernel.rows / 2;
	Mat src_padded;
	cv::copyMakeBorder(src, src_padded, sz, sz, sz, sz, CV_HAL_BORDER_REPLICATE);

	for (int i = 0; i < rows; ++i)
	{
		auto dptr = dst.ptr<uchar>(i);

		for (int j = 0; j < cols; ++j)
		{
			double value = 0;
			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = src_padded.ptr<uchar>(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += kernel.ptr<double>(k + sz)[l + sz] * sptr[j + sz + l];
				}
			}
			dptr[j] = cv::saturate_cast<uchar>(value);
		}
	}
}


class parallelConv : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;

public:
	parallelConv(Mat src, Mat& dst, Mat kernel): m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int r = range.start; r < range.end; ++r)
		{
			auto [i, j] = std::div(r, m_dst.cols);
			double value = 0;

			for (int k = -sz; k <= sz; ++k)
			{
				auto sptr = m_src.ptr(i + sz + k);

				for (int l = -sz; l <= sz; ++l)
				{
					value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
				}
			}
			m_dst.at<uchar>(i, j) = cv::saturate_cast<uchar>(value);
		}
	}
};

class parallelConvByRow : public cv::ParallelLoopBody
{
private:
	Mat m_src;
	Mat& m_dst;
	Mat m_kernel;
	int sz;
	int cols;

public:
	parallelConvByRow(Mat src, Mat& dst, Mat kernel)
		: m_src(src), m_dst(dst), m_kernel(kernel), sz(kernel.rows / 2), cols(src.cols)
	{
		cv::copyMakeBorder(src, m_src, sz, sz, sz, sz, cv::BORDER_REPLICATE);
	}

	virtual void operator()(const cv::Range& range) const override
	{
		for (int i = range.start; i < range.end; ++i)
		{
			if (i >= m_dst.rows)
			{
				continue;
			}
			auto dptr = m_dst.ptr<uchar>(i);

			for (int j = 0; j < cols; ++j)
			{
				double value = 0;

				for (int k = -sz; k <= sz; ++k)
				{
					auto sptr = m_src.ptr(i + sz + k);

					for (int l = -sz; l <= sz; ++l)
					{
						value += m_kernel.at<double>(k + sz, l + sz) * sptr[j + sz + l];
					}
				}
				dptr[j] = cv::saturate_cast<uchar>(value);
			}
		}
	}
};

int main(int argc, char* argv[])
{
	cv::setNumThreads(4);
	Mat src = cv::imread(R"(C:\4.jpg)", cv::IMREAD_GRAYSCALE); // 读取灰度图像
	if (src.empty())
	{
		std::cerr << "Could not read the image!" << std::endl;
		return 1;
	}

	Mat kernel = (cv::Mat_<double>(7, 7) << 0, 0, 0, 0, 0, 0, 0,
		0, 0, -1, -1, -1, 0, 0,
		0, -1, -1, -1, -1, -1, 0,
		0, -1, -1, 24, -1, -1, 0,
		0, -1, -1, -1, -1, -1, 0,
		0, 0, -1, -1, -1, 0, 0,
		0, 0, 0, 0, 0, 0, 0);

	Mat dst1, dst2, dst_seq;
	dst1 = Mat::zeros(src.size(), src.type());
	dst2 = Mat::zeros(src.size(), src.type());
	parallelConv obj(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj);

	// 非并行方法
	auto start_seq = std::chrono::high_resolution_clock::now();
	seqConv(src, dst_seq, kernel);
	auto end_seq = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff_seq = end_seq - start_seq;
	std::cout << "Time taken by sequential method: " << diff_seq.count() << " s" << std::endl;

	// 方法 1:整体遍历
	auto start1 = std::chrono::high_resolution_clock::now();
	parallelConv obj1(src, dst1, kernel);
	cv::parallel_for_(cv::Range(0, src.rows * src.cols), obj1);
	auto end1 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff1 = end1 - start1;
	std::cout << "Time taken by whole image traversal: " << diff1.count() << " s" << std::endl;

	// 方法 2:按行遍历
	auto start2 = std::chrono::high_resolution_clock::now();
	parallelConvByRow obj2(src, dst2, kernel);
	cv::parallel_for_(cv::Range(0, src.rows), obj2);
	auto end2 = std::chrono::high_resolution_clock::now();
	std::chrono::duration<double> diff2 = end2 - start2;
	std::cout << "Time taken by row-by-row traversal: " << diff2.count() << " s" << std::endl;

	cv::imshow("Original Image", src);
	cv::imshow("Sequential Method", dst_seq);
	cv::imshow("Whole Image Traversal", dst1);
	cv::imshow("Row-by-Row Traversal", dst2);

	cv::waitKey(0);

	return 0;

	return 0;
}

公众号:coding日记


标签:sz,Mat,src,int,dst,并行计算,OpenCV4,cv
From: https://blog.51cto.com/u_16062556/8030102

相关文章

  • RTSP视频流媒体服务器LiteCVR v3.1更新:通道收藏优化
    在安防视频监控行业,监控摄像头也正从"看得见"到"看得清"开始转变,现在的网络智能摄像头,不仅可以拥有高清超高清的监控画质,还能对记录的视频中的人或物体进行识别。近期我们对LiteCVR增加了普通用户的收藏功能,今天来简单介绍一下。在LiteCVRv3.1版本之前,普通用户只能查看分配给自己......
  • RTSP视频监控平台LiteCVR v3.1更新:通道收藏优化
    在安防视频监控行业,监控摄像头也正从"看得见"到"看得清"开始转变,现在的网络智能摄像头,不仅可以拥有高清超高清的监控画质,还能对记录的视频中的人或物体进行识别。近期我们对LiteCVR增加了普通用户的收藏功能,今天来简单介绍一下。在LiteCVRv3.1版本之前,普通用户只能查看分配给......
  • RTMP流媒体服务器LiteCVR支持在iOS播放WebRTC低延时视频流
    视频监控设备是安防行业的细分专业领域,近年来,视频监控业务正在向其他领域加速渗透。众所周知,iOS系统支持HLS流,但是HLS流延时高,无法满足实时流的要求;而WebRTC播放延时低,因此,很多用户希望能在iOS系统上播放Webrtc视频流。针对用户的这一需求,LiteCVR平台灵活的视频能力,可以完全满足。......
  • pip安装opencv-contrib-python库报错
    背景介绍:opencv-python是opencv的python代码库,包含一些基本的主要的函数,而opencv-contrib-python可以理解为是opencv-python库的高配版本,它还额外包含一些扩展函数与新研发的正在使用阶段的函数等等。笔者在Windows中使用pycharm建立一个新的虚拟环境,想要安装opencv-contrib-p......
  • Git 克隆错误 error: RPC failed; curl 28 Recv failure: Connection was reset
    在网络情况不稳定下克隆项目时,可能会出现下图中的错误。问题原因:http缓存不够或者网络不稳定等。我也是找了好多博客资料,终于解决了解决方法打开cmd,修改git配置(加大httpBuffer)即可。gitconfig--globalhttp.postBuffer524288000  我在解决这个问题之前clone一......
  • opencv的理解与作用
    一、标准定义:   OpenCV是一个基于Apache2.0许可(开源)发行的跨平台计算机视觉和机器学习软件库【说白了就是有相应的视觉算法和视觉函数方便我们开发】。既然跨平台,那必须支持很多常见的系统,linux必然是其中一个!主要接口是C++哦!发起公司英特尔公司。二、出现的意义:   ①高......
  • 安防视频监控平台EasyCVR新版(3.4)平台界面更新2.0
    视频监控TSINGSEE青犀视频平台EasyCVR能在复杂的网络环境中,将分散的各类视频资源进行统一汇聚、整合、集中管理,在视频监控播放上,TSINGSEE青犀视频安防监控汇聚平台可支持1、4、9、16个画面窗口播放,可同时播放多路视频流,也能支持视频定时轮播。视频监控汇聚平台EasyCVR支持多种播放......
  • 安防监控视频汇聚平台EasyCVR增加AI算法列表接口的实现方法
    安防监控视频汇聚平台EasyCVR基于云边端一体化架构,具有强大的数据接入、处理及分发能力,可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析等功能。平台既具备传统安防监控的能力,也支持提供AI算力算法接入的能力。今天我们......
  • 安防监控视频汇聚平台EasyCVR增加AI算法列表接口的实现方法
    安防监控视频汇聚平台EasyCVR基于云边端一体化架构,具有强大的数据接入、处理及分发能力,可提供视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音对讲、智能分析等功能。平台既具备传统安防监控的能力,也支持提供AI算力算法接入的能力。今天......
  • 智能视频监控平台EasyCVR接口调用注意事项汇总!
    TSINGSEE青犀视频监控汇聚平台EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等。平台既具备传统安防视频监控的能力,也具备接入AI智能分析的能力,包括对人、车、......