深度学习：计算机视觉

时间：2022-09-24 21:56:19浏览次数：54

1、图像增广

图像增广（image augmentation）技术通过对训练图像做一系列随机改变，来产生相似但又不同的训练样本，从而扩大训练数据集的规模。
图像增广的另一种解释是，随机改变训练样本可以降低模型对某些属性的依赖，从而提高模型的泛化能力。
例如，我们可以对图像进行不同方式的裁剪，使感兴趣的物体出现在不同位置，从而减轻模型对物体出现位置的依赖性。我们也可以调整亮度、色彩等因素来降低模型对色彩的敏感度。

！！！为了在预测时得到确定的结果，我们通常只将图像增广应用在训练样本上，而不在预测时使用含随机操作的图像增广。

增广前：

增广后：

2、目标检测和边界框

图像分类任务里，我们假设图像里只有一个主体目标，并关注如何识别该目标的类别。然而，很多时候图像里有多个我们感兴趣的目标，我们不仅想知道它们的类别，还想得到它们在图像中的具体位置。在计算机视觉里，我们将这类任务称为目标检测（object detection）或物体检测。

边界框是一个矩形框，可以由矩形左上角的xx和yy轴坐标与右下角的xx和yy轴坐标确定。

3、锚框

目标检测算法通常会在输入图像中采样大量的区域，然后判断这些区域中是否包含我们感兴趣的目标，并调整区域边缘从而更准确地预测目标的真实边界框（ground-truth bounding box）。不同的模型使用的区域采样方法可能不同。这里我们介绍其中的一种方法：它以每个像素为中心生成多个大小和宽高比（aspect ratio）不同的边界框。这些边界框被称为锚框（anchor box）。

以每个像素为中心，生成多个大小和宽高比不同的锚框。
交并比是两个边界框相交面积与相并面积之比。
在训练集中，为每个锚框标注两类标签：一是锚框所含目标的类别；二是真实边界框相对锚框的偏移量。
预测时，可以使用非极大值抑制来移除相似的预测边界框，从而令结果简洁。

4、多尺度目标检测

在多个尺度下，我们可以生成不同尺寸的锚框来检测不同尺寸的目标。
通过定义特征图的形状，我们可以决定任何图像上均匀采样的锚框的中心。
我们使用输入图像在某个感受野区域内的信息，来预测输入图像上与该区域位置相近的锚框类别和偏移量。
我们可以通过深入学习，在多个层次上的图像分层表示进行多尺度目标检测。

def display_anchors(fmap_w, fmap_h, s):
    d2l.set_figsize()
    # 前两个维度上的值不影响输出
    fmap = torch.zeros((1, 10, fmap_h, fmap_w))
    anchors = d2l.multibox_prior(fmap, sizes=s, ratios=[1, 2, 0.5])
    bbox_scale = torch.tensor((w, h, w, h))
    d2l.show_bboxes(d2l.plt.imshow(img).axes,
                    anchors[0] * bbox_scale)

标签：fmap,计算机,增广,检测,深度,目标,图像,视觉,边界
From： https://www.cnblogs.com/caolanying/p/16726755.html

2022-2023-1 20221422 《计算机基础与程序设计》第四周学习总结
作业信息班级链接https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP作业要求https://www.cnblogs.com/rocedu/p/9577842.html#WEEK04作业目标门电路组合电路，逻......
2022-2023-1 20221417 《计算机基础与程序设计》第四周学习总结
学习目标·门电路·组合电路，逻辑电路·冯诺依曼结构·CPU，内存，IO管理·嵌入式系统，并行结构·物理安全学习资源·教材·阅读「反作弊」：任何时候发现同学们有抄袭作......
2022-2023-1 20221401 《计算机基础与程序设计》第四周学习总结
2022-2023-120221401《计算机基础与程序设计》第四周学习总结作业信息班级链接：https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP作业要求：https://www.cnblogs.......
2022-2023-1 20221415 《计算机基础与程序设计》第4周学习总结
2022-2023-120221415《计算机基础与程序设计》第4周学习总结作业信息<班级链接>https://edu.cnblogs.com/campus/besti/2022-2023-1-CFAP<作业信息>https://www.cn......
语言分类计算机网络OSI七层模型
计算机程序是需要CPU处理的二进制数据机器语言：二进制汇编语言：高级一些，简化了中间过程高级语言：大大简化了中间过程cc++Javapython等OSI七层模型：定义：描述了网络活动......
计算机的基础知识
计算机的本质计算机也称之为"电脑">>>:通电的大脑计算机的工作肯定离不开电电信号只有高低电平两种状态(0和1)计算机其实只认识数字0和1(二进制)进制数二......
2022-2023-1 20221404 《计算机基础与程序设计》第四周学习总结
2022-2023-120221404《计算机基础与程序设计》第X周学习总结作业信息班级链接（2022-2023-1-计算机基础与程序设计）作业要求（2022-2023-1计算机基础与程序设计第......
2022-2023-1 20221305《计算机基础与程序设计》第四周学习总结
学期（2022-2023-1）学号(20221305）《计算机基础与程序设计》第四周学习总结作业信息这个作业属于哪个课程<班级的链接>（如2022-2023-1-计算机基础与程序设计）这个作......
计算机毕业设计 SpringBoot+Vue零食商城平台系统零食网上商城系统零食购物商城系统J
......
《计算机网络》第一章笔记
第一章概述互联网的两大特点：连通性与共享。1.互联网的概述1.1网络的网络计算机网络有若干节点(node)与连接这些节点的链路(link)组成。其中，节点可以是计算机......

深度学习：计算机视觉

1、图像增广

2、目标检测和边界框

3、锚框

4、多尺度目标检测

相关文章

赞助商

阅读排行