首页 > 其他分享 >论文阅读笔记-Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane Detection

论文阅读笔记-Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane Detection

时间:2022-08-25 15:36:00浏览次数:68  
标签:LaneNet Lane 车道 Scalable 顶视图 图像 Gen 3D

Gen-LaneNet: A Generalized and Scalable Approach for 3D Lane Detection

Gen-LaneNet:一种通用且可扩展的 3D 车道检测方法

Abstract

我们提出了一种通用且可扩展的方法,称为 Gen-LaneNet,用于从单个图像中检测 3D 车道。该方法受到最新最先进的 3D-LaneNet 的启发,是一个在单个网络中解决图像编码、特征空间变换和 3D 车道预测的统一框架。然而,我们为 Gen-LaneNet 提出了两方面的独特设计。首先,我们在新的坐标系中引入了一种新的几何引导车道锚表示,并应用特定的几何变换直接从网络输出中计算出真实的 3D 车道点。我们证明了将车道点与新坐标系中的底层顶视图特征对齐对于处理不熟悉场景的通用方法至关重要。其次,我们提出了一个可扩展的两阶段框架,将图像分割子网络和几何编码子网络的学习解耦。与 3D-LaneNet 相比,所提出的 Gen-LaneNet 大大减少了在现实世界应用中实现稳健解决方案所需的 3D 车道标签数量。此外,我们发布了一个新的合成数据集及其构建策略,以鼓励 3D 车道检测方法的开发和评估。在实验中,我们进行了广泛的消融研究,以证实所提出的 Gen-LaneNet 在平均精度 (AP) 和 F 分数方面明显优于 3D-LaneNet 。

1. Introduction

在过去的几年里,自动驾驶引起了学术界和工业界的广泛关注。为了安全驾驶,基本问题之一是实时准确地感知车道结构。当前车道和附近车道的鲁棒检测不仅对于横向车辆控制和准确定位至关重要,而且还是构建和验证高清地图的强大工具。

大多数基于图像的车道检测方法将车道检测视为二维任务 [1, 4, 21]。一个典型的 2D 车道检测管道由三个组件组成: 语义分割组件,它为图像中的每个像素分配一个类标签,以指示它是否属于车道;将图像分割输出投影到平坦地平面的空间变换组件;第三个提取车道的组件通常涉及具有强假设的车道模型拟合,例如拟合二次曲线。通过假设世界是平坦的,在平面地平面中表示的 2D 车道可能是自我-车辆坐标系中 3D 车道的可接受近似值。然而,这种假设可能会导致意想不到的问题,正如 [6, 2] 中所研究的那样。例如,当自动驾驶车辆遇到丘陵道路时,由于 2D 平面几何提供了对 3D 道路的不正确感知,因此很可能会发生意外的驾驶行为。

为了克服与平面道路假设相关的缺点,方法 [5, 19, 2, 6] 的最新趋势已经开始专注于感知复杂的 3D 车道结构。具体来说,最新的 state-of-the-art 3D-LaneNet [6] 引入了一个端到端的框架,统一了图像编码、图像视图和顶视图之间的空间变换以及单个网络中的 3D 曲线提取。 3D-LaneNet 显示了从单目相机检测 3D 车道的有希望的结果。然而,在不合适的空间中表示车道锚点使得 3D-LaneNet 无法推广到未观察到的场景,而端到端学习框架使其受到视觉变化的高度影响。

在本文中,我们提出了 Gen-LaneNet,这是一种通用且可扩展的方法,用于从单个图像中检测 3D 车道。我们引入了一种新的几何设计——新坐标系中的引导车道锚表示,并应用特定的几何变换直接从网络输出计算真实的 3D 车道点。我们证明了将锚表示与底层顶视图特征对齐对于使方法可推广到未观察到的场景至关重要。此外,我们提出了一个可扩展的两阶段框架,允许独立学习图像分割子网络和几何编码子网络,这大大减少了学习所需的 3D 标签数量。受益于更实惠的 2D 数据,当昂贵的 3D 标签相当受限于某些视觉变化时,两阶段框架优于端到端学习框架。最后,我们提出了一个高度逼真的具有丰富视觉变化的图像合成数据集,这将有助于 3D 车道检测的开发和评估。在实验中,我们进行了广泛的消融研究,以证实 Gen-LaneNet 在 AP 和 F 分数方面显着优于先前的现有技术 [6],在某些测试集中高达 13%。

当前最先进的 3D-LaneNet [6],从单个图像预测 3D 车道。首次尝试在单个网络中统一图像编码、特征空间变换和 3D 曲线提取来解决 3D 车道检测。它以端到端学习为基础的方法实现,网络在两个路径中处理信息:图像 - 视图路径处理并保存来自图像的信息,而顶视图路径处理顶视图中的特征以输出3D 车道估计。图像 - 视图路径特征通过四个投影变换层传递到顶视图路径,这些投影变换层在概念上构建在空间变换网络 [11] 上。最后,将顶视图路径特征输入车道预测头以预测 3D 车道点。具体来说,已经开发了车道的锚表示,以使车道预测头能够以折线的形式估计 3D 车道。 3D-LaneNet 在经常观察的场景和常见的成像条件下恢复车道的 3D 结构方面显示出有希望的结果,但是,由于两个主要缺点,它的实用性值得怀疑。

image

首先,3D-LaneNet 在anchor 表示中使用了不合适的坐标系,其中ground-truth 车道与视觉特征不对齐。这在丘陵道路场景中最为明显,其中投影到虚拟顶视图的平行车道看起来不平行,如图 2 的顶行所示。但是 3D 坐标系中的地面真实车道(蓝线)是未与底层视觉特征(白色车道标记)对齐。针对这种“损坏的”ground-truth 训练模型可能会迫使模型学习整个场景的全局编码。因此,该模型很难推广到与训练中观察到的场景部分不同的新场景。

其次,端到端学习网络确实使几何编码不可避免地受到图像外观变化的影响,因为它将 3D 几何推理与图像编码紧密结合。因此,3D-LaneNet 可能需要成倍增加的训练数据量,以便在存在部分遮挡、变化的光照或天气条件的情况下推理相同的 3D 几何。不幸的是,标记 3D 车道比标记 2D 车道要昂贵得多。它通常需要建立在昂贵的多个传感器(LiDAR、相机等)上的高清地图、准确的定位和在线校准,甚至更昂贵的 3D 空间手动调整以产生正确的地面实况。这些限制阻碍了 3D-LaneNet 在实际应用中的可扩展性。

3. Gen-LaneNet

受 3D-LaneNet [6] 的成功及其在第 2 节中讨论的缺点的启发,我们提出了 Gen-LaneNet,这是一个用于 3D 车道检测的通用且可扩展的框架。相比 3D-LaneNet,Gen-LaneNet 仍然是一个统一的框架,在单个网络中解决了图像编码、特征的空间变换和 3D 曲线提取。但它涉及两个方面的主要差异:车道锚设计的几何扩展和可扩展的两阶段网络,将图像编码的学习和 3D 几何推理解耦。

3.1. Geometry in 3D Lane Detection

image

我们首先回顾几何,以建立激发我们方法的理论。在如图 3 所示的常见车辆摄像头设置中,3D 车道在由 x、y、z 轴和原点 O 定义的自我车辆坐标系中表示。具体而言,O 定义了摄像头中心在道路上的垂直投影。通过简单的设置,仅考虑相机高度 h 和俯仰角 θ 来表示相机位姿,这导致相机坐标系由 \(x_c\)、\(y_c\)、\(z_c\) 轴和原点 \(C\) 定义。虚拟顶视图可以通过首先投影一个 3D 场景通过投影变换到图像平面,然后通过平面单应性将捕获的图像投影到平坦的道路平面。因为涉及相机参数,所以虚拟顶视图中的点原则上具有与其在自我车辆系统中对应的 3D 点相比不同的 x、y 值。在本文中,我们正式将虚拟顶视图视为由轴 \(\bar{x}\),\(\bar{y}\),\(z\) 和原始 O 定义的唯一坐标系。接下来推导虚拟顶视图坐标系和自我-车辆坐标系之间的几何变换。

image

对于投影相机,一个 3D 点 (x, y, z)、它在像平面上的投影和相机光学中心 (0, 0, h) 应该位于一条射线上。类似地,如果虚拟顶视图中的一个点 \((\bar{x},\bar{y}, 0)\) 投影到同一图像像素上,则它必须在同一条射线上。因此,相机中心 (0, 0, h)、一个 3D 点 (x, y, z) 及其对应的虚拟顶视点 \((\bar{x},\bar{y}, 0)\) 看起来是共线的,如图图 4 (a) 和 (b)。形式上,这三点之间的关系可以写成:$$\frac{h-z}{h}=\frac{x}{\bar{x}}=\frac{y}{\bar{y}} \tag{1}$$具体来说,如图 4 (a) 所示,无论 z 是正数还是负数,这种关系都成立。因此,我们推导出从虚拟顶视图坐标系到 3D ego-vehicle坐标系的几何变换为:

\[\begin{array}{l} x=\bar{x} \cdot (1 - \frac{z}{h}) \\ y=\bar{y} \cdot (1 - \frac{z}{h}) \end{array} \tag{2} \]

值得一提的是,所获得的变换描述了一个一般关系,而不假设相机方向的偏航角和滚动角为零。

3.2. Geometry-guided anchor representation

image

按照所呈现的几何结构,我们分两步解决 3D 车道检测:首先应用网络对图像进行编码,将特征转换为虚拟顶视图,并预测虚拟顶视图中表示的车道点;之后采用所提出的几何变换来计算自我-车辆坐标系中的 3D 车道点,如图 6 所示。等式 2 原则上保证了这种方法的可行性,因为几何变换被证明与摄像机角度无关。这是确保方法不受相机姿态估计影响的重要事实。

image

与 3D-LaneNet 类似,我们开发了一种锚表示,使得网络可以直接以折线的形式预测 3D 车道。锚点表示实际上是结构化场景中边界检测和轮廓分组的网络实现的本质。形式上,如图 5 所示,车道锚点定义为在 x-positions \(\{X ^i _A \} ^N _{i=1}\)的 N 条等距垂直线。给定一组预定义的固定 y-positions \(\{y _i\} ^K _{j=1}\) ,每个anchor \(X ^i _A\)在3.K属性 \({(\bar{x} ^i _j,z ^i _j,v ^i _j)} ^K _{j=1}\) 或等效于三个向量 \(( \mathbf{x} ^i , \mathbf{z} ^i , \mathbf{v} ^i)\)中定义一条三维车道线,其中值 \(\bar{x} ^i _j\) 是相对于锚位置的水平偏移量,属性 \(v ^i _j\) 表示每个车道点的可见性。用c表示车道中心线类型,用 \(l\) 表示车道线类型,每个 anchor可以写成 \(X ^i _A = \{( \mathbf{x} ^i , \mathbf{z} ^i , \mathbf{v} ^i,p ^i _t)\} _{t\in \{c,l\}}\) ,其中 \(p^t_t\) 表示存在概率一条车道。基于这个锚表示,我们的网络在虚拟顶视图中输出 3D 车道线。之后应用派生的变换来计算它们对应的 3D 车道点。给定每个车道点的预测可见性概率,只有那些可见的车道点将保留在最终输出中。

与 3D-LaneNet 相比,我们的锚表示涉及两个主要扩展。我们表示不同空间中的车道点位置,即虚拟顶视图。在虚拟顶视图中表示车道点,保证目标车道位置与投影到顶视图的图像特征对齐,如图2底行所示。与3D-LaneNet中整个场景的全局编码相比,在处理新的或未观察到的场景时,在局部块级编码相关性更为稳健。假设一个新场景的整体结构没有从训练中观察到,那些局部块更可能有。此外,我们在锚表示中添加了额外的属性,以指示每个锚点的可见性。因此,我们的方法在处理中途开始或结束的部分可见车道时更加稳定,如图 2 所示。

3.3. Two-stage framework with decoupled learning of image encoding and geometry reasoning

我们没有采用端到端的学习网络,而是提出了一个两阶段框架,将图像编码和 3D 几何推理的学习解耦。如图 6 所示,第一个子网络侧重于图像域的车道分割;第二个从第一个子网络的分割输出预测 3D 车道结构。两阶段框架很好地受到一个重要事实的推动,即 3D 几何的编码与图像特征相当独立。从图 4 (a) 可以看出,地高 z 与从位置 \((\bar{x},\bar{y})\) 到位置 (x, y) 的位移矢量密切相关。实际上,估计地面高度在概念上等同于估计矢量场,使得与顶视图中的车道相对应的所有点都被移动到总体上平行的位置。当我们对一个网络进行排序以预测地高时,该网络需要对视觉特征和目标向量场之间的相关性进行编码。由于目标向量场主要与几何有关,从稀疏车道分割中提取的简单特征就足够了。

有一堆现成的候选 [24, 23, 21, 9] 可以在图像中执行 2D 车道分割,其中任何一个都可以毫不费力地应用于我们框架的第一阶段。尽管 [23, 21] 报告了更好的基准测试性能,但为了简单起见,我们仍然选择 ERFNet [24],从而强调我们框架的稳健性。对于 3D 车道预测,我们提出 3D-GeoNet ,如图 6 所示,从图像分割中估计 3D 车道。顶视图分割编码器首先将分割输入投影到顶视图层,然后通过一系列卷积层将其编码在特征图中。给定特征图,车道预测头根据锚表示预测 3D 车道属性。在我们的anchor表示上,车道预测头产生的车道点在顶视图位置表示。之后通过几何变换计算 ego-vehicle 坐标系中的3D车道点。

将图像编码和几何推理的学习解耦使两阶段框架成为现实世界中一种低成本且可扩展的方法。如第 2 节所述,像 [6] 这样的端到端学习框架非常热衷于图像外观。因此,它依赖于大量非常昂贵的真实世界 3D 数据进行学习。相反,两级管道大大降低了成本,因为它不再需要在不同天气、白天和遮挡情况下在同一区域收集冗余的真实 3D 车道标签。此外,两阶段框架可以利用更充足的 2D 真实数据,例如 [4,1,21] 来训练更可靠的 2D 车道分割子网络。以极其稳健的分割作为输入,3D 车道预测反过来会表现得更好。在最佳情况下,两阶段框架可以从 2D 真实数据训练图像分割子网络,并仅使用合成 3D 数据训练 3D 几何子网络。我们将最优解决方案推迟为未来的工作,因为需要域转移技术来解决完美合成分割地面实况和第一个子网络的分割输出之间的域差距。

3.4. Training

给定一张图像及其对应的 ground-truth 3D 车道,训练进行如下。每条地面实况车道曲线都投影到虚拟顶视图,并与 \(Y _{ref}\) 处最近的锚点相关联。根据预先定义的 y-positions \(\{y _i\} ^K _{j=1}\) 处的 ground-truth 值计算 ground-truth 锚属性。给定一对预测锚 \(\hat{X} ^i _A = \{( \mathbf{\hat{x}} ^i , \mathbf{\hat{z}} ^i , \mathbf{\hat{v}} ^i,\hat{p} ^i _t)\} _{t\in \{c,l\}}\),损失函数可以写成:

\[\mathscr{l} = − \sum _{t \in \{c , l\}} \sum ^N _{i=1} (\hat{p} ^i _t \log p ^i _t + (1 − \hat{p} ^i _t ) \log (1 − p ^i _t )) + \sum _{t \in \{c , l\}} \sum ^N _{i=1} \hat{p} ^i _t · (∥ \mathbf{\hat{v}} ^i _t · ( \mathbf{x} ^i _t− \mathbf{\hat{x}} ^i _t) ∥ _1 + ∥ \mathbf{\hat{v}} ^i _t · (\mathbf{z} ^i _t − \mathbf{\hat{z}} ^i _t) ∥ _1 ) + \sum _{t \in \{c , l\}} \sum ^N _{i=1} \hat{p} ^i _t ∥ \mathbf{v} ^i _t -\mathbf{\hat{v}} ^i _t ∥ _1 \tag{3} \]

与 3D-LaneNet 中引入的损失函数相比,有三个变化。首先, \(\mathbf{x} ^i _t\) 和 \(\mathbf{\hat{x}} ^i _t\) 都表示在虚拟顶视图坐标系中,而不是自我-车辆坐标系中。其次,添加额外的成本项来衡量预测的可见性向量和地面真实可见性向量之间的差异。第三,将测量 \(\bar{x}\) 和 \(z\) 距离的成本项乘以其相应的可见性概率 \(v\) 使得那些不可见点不会导致损失.

4. Synthetic dataset and construction strategy 综合数据集和构建策略

由于缺乏 3D 车道检测基准,我们建立了一个合成数据集来开发和验证 3D 车道检测方法。我们的数据集模拟了丰富的视觉元素,特别侧重于评估一种方法对很少观察到的场景的泛化能力。我们使用 Unity 游戏引擎构建具有逼真背景元素的高度多样化的 3D 世界,并渲染具有多样化场景结构和视觉外观的图像。

image

合成数据集由三个具有不同地形信息的世界地图渲染而成:高速公路区域、市区和住宅区。所有地图均基于美国硅谷的真实区域,其中车道线和中心线涉及足够的地面高度变化和转弯,如图 7 所示。图像在不同位置和不同白天时间稀疏渲染(早上,中午,晚上),具有两个级别的车道 - 标记退化,随机相机 - 高度在 1.4 ∼ 1.8m 内,随机俯仰角在 0° ∼ 10° 内。我们在数据渲染过程中固定了内在参数,并在模拟环境中放置了相当数量的代理车辆,这样渲染的图像就包括了真实的车道遮挡。综上所述,总共提供了6000个虚拟高速公路地图样本、1500个城市地图样本和3000个居民区样本,以及相应的深度图、语义分割图和3D车道线信息。 3D 车道标签在距离摄像机200米的地方被截断,并在渲染图像的边界处被截断。

到目前为止,对于开发可靠的 3D 车道检测器,仍然缺少关于遮挡的基本信息。一般来说,车道检测器预计会恢复前景被遮挡的部分,但会丢弃车道的背景被遮挡部分,这反过来又需要准确标记每个车道点的遮挡类型。在我们的数据集中,我们使用ground-truth深度图和语义分割图来推断车道点的遮挡类型。首先,当车道点的 y 位置偏离深度图中相应像素的值时,车道点被认为被遮挡。其次,根据语义分割图进一步确定其遮挡类型。最终的数据集保留了被前景遮挡的车道部分,但丢弃了被背景遮挡的部分,如图7所示的距离中的黑色部分。

5. Experiments

在本节中,我们首先描述实验设置,包括数据集拆分、基线、算法实现细节和评估指标。然后我们进行实验来证明我们在消融方面的贡献。最后,我们设计并进行实验以证实我们的方法与现有技术相比的优势[6]。

5.1. Experimental setup

Dataset setup: 为了从不同的角度评估算法,我们设计了三种不同的规则来分割合成数据集:

  1. 平衡场景:训练集和测试集遵循标准的对整个数据集的五折分割,以海量、无偏数据对算法进行基准测试。
  2. 很少观察到的场景:此数据集拆分包含与平衡场景相同的训练数据,但仅使用从复杂城市地图中捕获的测试数据的子集。这种数据集拆分旨在检查一种方法对训练中很少观察到的测试数据的泛化能力。由于测试图像在不同位置稀疏渲染,涉及剧烈的海拔变化和急转弯,因此很少从训练数据中观察到测试数据中的场景。
  3. 具有视觉变化的场景:这种数据集拆分评估了光照变化下的方法,假设与昂贵的 3D 数据相比,可以使用更实惠的 2D 数据来覆盖同一区域的光照变化。具体来说,在我们的 Gen - Lane Net 的第一阶段,使用与平衡场景相同的训练集来训练图像分割子网络。然而,在我们的方法(3D Geo Net)和 3D-Lane Net [6] 的 3D 几何子网络的训练中,排除了某个时间(即黎明前)的 3D 示例。相反,在测试中,仅使用与排除的日期时间对应的示例。

Baselines and parameters: Gen-LaneNet 与其他两种方法进行了比较: Prior state-of-the-art 3D-LaneNet 被认为是主要基线;为了诚实地研究我们的两阶段框架的上限,我们将 3D-GeoNet 子网视为一种独立的方法,该方法以地面真实 2D 车道分割为基础。为了进行公平比较,所有方法都将原始图像大小调整为 360 × 480 大小,并使用相同的空间分辨率 208 × 108 用于第一顶视图层来表示范围为 [-10, 10] 的平地区域× [1, 101] 米分别沿 x 和 y 轴。对于anchor表示,我们使用y - 位置{3, 5, 10, 15, 20, 30, 40, 50, 65, 80, 100},由于距离中的视觉信息,间隔逐渐增加在顶视图中变得更稀疏。在标签准备中,我们设置 Yref = 5 以将每个车道标签与其最近的锚相关联。所有的实验都是在已知的相机位姿、合成数据集提供的内在参数下进行的。所有网络均使用正态分布随机初始化,并使用 Adam 优化从头开始训练,初始学习率为 \(5·10 ^{-4}\)。我们设置批量大小为 8,并在 30 个 epoch 内完成训练。对于训练 ERF 网络,我们遵循 [24] 中描述的相同程序,但修改了输入图像大小和输出分割图大小。

Evaluation metrics: 我们将 3D 车道检测的评估表述为预测车道和地面真实车道之间的二分匹配问题。通过最小成本流寻求全局最佳匹配。与[1]中的一对多匹配或[6]中的贪婪搜索二分匹配相比,我们的评估方法是迄今为止最严格的。

为了正确处理部分匹配,我们在欧几里得距离的车道之间定义了一个新的成对成本。具体而言,车道在 n 个预先确定的 y-positions 处以\(X ^j = \{x ^j _i ,z ^j _i ,v ^j _i \} ^n _{i=1}\) 表示,其中 \(v _i\) 指示 y-positions 是否被给定车道覆盖。与此处使用的锚点相比, y-positions 更密集,它们均等地放置在 0 到 100 米之间,间隔为 2 米。形式上,\(X ^j\) 和 \(X ^k\) 之间的车道到车道成本计算为所有 y-positions 上的点距离平方和的平方根,写为 $$ cost _{jk} = \sqrt{\sum ^n _i d ^{jk} _i}$$,其中

具体来说,当 y 位置被两条车道覆盖时,计算逐点欧式距离。当 y-positions 仅被一条车道覆盖时,将逐点距离分配给最大允许距离 \(d_{max} = 1.5m\) 。虽然 y-positions 没有被任何车道覆盖,但点距离设置为零。遵循这样的度量,仍然可以匹配覆盖不同 y-positions 范围的一对通道,但需要与编辑点的数量成比例的额外成本。这个定义的成本受到字符串匹配中编辑距离概念的启发。在枚举了两组之间的所有成对成本后,我们采用 Google OR-tools 中包含的求解器来求解最小成本流问题。每组的每条车道,当 75% 的覆盖 y-positions 的点距离小于最大允许距离(1.5 米)时,我们认为它匹配。

最后,匹配的ground-truth 车道的百分比被报告为recall,匹配的预测车道的百分比被报告为precision。我们将平均精度(AP)作为综合评估,将最大 F-score 作为对应用中最佳操作点的评估。

5.2. Anchor effect

image

我们首先证明了与[6]相比,所提出的几何指导的锚点表示法的优越性。对于每个候选方法,除了集成的锚点表示,我们保持架构完全相同。如表1所示,所有三种方法,无论是端到端的3D-LaneNet[6]、"理论上现有的 "3D-GeNet,还是我们的两阶段Gen-LaneNet,都从新的锚点设计中获益匪浅。在所有数据集的分割中,AP和F-score都取得了3%到10%的改进。

5.3. Upper bound of two-stage framework

image

实验旨在证实,当提供更稳健的图像分割时,两阶段方法有可能获得更高的准确性,同时,当提供完美的图像分割子网络时,可以定位 Gen-LaneNet 的上限。如表2所示,在所有三个实验设置中,3D-GeoNet 始终优于 Gen-LaneNet 和 3D-LaneNet 。我们注意到,在平衡的场景中,比 Gen-LaneNet 的改进相当明显,大约好了3%,而在很少观察到的场景和有视觉变化的场景中,改进幅度很大,为5%到7%。这一观察结果是相当令人鼓舞的,因为在困难的情况下(例如,新的场景或具有戏剧性视觉变化的图像),三维几何仍然可以从抽象的地面真实分割或图像分割子网络的输出中得到很好的推理。此外,表2还显示了我们的方法有前途的上限,因为 3D-GeoNet 比 3D-LaneNet[6] 有很大的优势,在 F-score 和AP方面从5%到18%。

5.4. Whole system evaluation

image

在实验的最后,我们将我们的两阶段 Gen-LaneNet 与之前最先进的 3D-LaneNet[6] 进行全系统比较。如表 3 所示,我们对数据集的三个部分进行了苹果对苹果的比较。在平衡的场景中, 3D-LaneNet 工作良好,但我们的 Gen-LaneNet 仍然取得了 0.8% 的 AP 和 1.7% 的 F-score 改进。考虑到这些数据在训练和测试数据之间是很平衡的,并且涵盖了各种场景,这意味着所提出的 Gen-LaneNet 在各种场景中具有更好的泛化能力;在很少观察到的场景中,我们的方法的 AP 和 F-score 都分别提高了6%和4.4%。 最后,在有视觉变化的场景中,我们的方法在 F-score 和 AP 上明显超过 3D-LaneNet 约 13% ,这表明我们的两阶段算法成功地从图像编码和三维几何推理的解耦学习中获益。对于任何特定的场景,我们可以在图像中标注更多成本低廉的二维车道,以学习一般的分割子网络,同时标注数量有限的昂贵的三维车道来学习三维车道的几何形状。这使得我们的方法在现实世界的应用中成为一个更可扩展的解决方案。其他定性的比较见附录D。

除了 F-score 和 AP 之外,在这些匹配的车道上的误差(欧几里德距离)分别报告了近距离(0 - 40m)和远距离(40 - 100m)。正如观察到的那样,Gen-LaneNet 将误差保持在较低或与 3D-LaneNet 相当,甚至涉及更多匹配的通道(具有较高 F-score 的方法考虑更多匹配的车道对来计算欧几里德距离)。

6. Conclusion

我们提出了一种通用且可扩展的 3D 车道检测方法 Gen-LaneNet。引入了几何引导的锚表示以及将图像分割学习和 3D 车道预测解耦的两阶段框架。此外,我们提出了一种新的策略来构建用于 3D 车道检测的合成数据集。我们通过实验证明,我们的方法在 AP 和 F-score 方面都从各个角度显着超过了 3D-LaneNet 。

标签:LaneNet,Lane,车道,Scalable,顶视图,图像,Gen,3D
From: https://www.cnblogs.com/xiaoliu-ya/p/16623281.html

相关文章