3D-LaneNet: End-to-End 3D Multiple Lane Detection
3D-LaneNet:端到端 3D 多车道检测
Abstract
我们引入了一个网络,可以直接从单个图像预测道路场景中车道的 3D 布局。这项工作标志着首次尝试在不假设已知恒定车道宽度或依赖预映射环境的情况下通过车载传感解决此任务。我们的网络架构 3D-LaneNet 应用了两个新概念:网络内逆透视映射 (IPM) 和基于锚的车道表示。网络内 IPM 投影促进了常规图像视图和顶视图中的双重表示信息流。锚点 - 每列输出表示使我们的端到端方法能够取代常见的启发式方法,例如聚类和异常值拒绝,将车道估计作为对象检测问题。此外,我们的方法明确地处理了复杂的情况,例如车道合并和分割。结果显示在两个新的 3D 车道数据集上,一个是合成的,一个是真实的。为了与现有方法进行比较,我们在图像上测试了我们的方法 - 只有一个简单的车道检测基准,实现了与 stateof-the-art 竞争的性能。
1. Introduction
3D 车道检测,包括对可行驶车道相对于主车辆的 3D 位置的准确估计,是自动驾驶的关键推动力。存在两种互补的技术解决方案:加载离线生成的预映射车道 [33] 和基于感知的实时车道检测 [4]。受最近卷积神经网络 (CNNs) 在单目深度估计 [20] 中的成功启发,我们建议直接检测 3D 中的车道。更正式地说,给定从前置摄像头拍摄的单个图像,任务是以相机坐标输出一组 3D 曲线,每条曲线描述车道分隔线或车道中心线。
3D-LaneNet,我们提出的解决方案,是一个深度 CNN,执行 3D 车道检测。端到端训练的网络在每个纵向道路切片中输出,车道通过切片的置信度及其在相机坐标中的 3D 曲线。我们的方法如图 1 所示。我们直接的单次方法避免了现有方法中使用的后处理,例如聚类和异常值拒绝。该网络的主干基于一种新颖的双路径架构,该架构使用多个特征图的网络内投影到虚拟鸟瞰图。这种双重表示使网络增强了在道路场景中推断 3D 的能力,并且可能用于需要这种能力的其他任务(例如 3D 汽车检测)。输出由新的基于列的锚编码表示,它使网络水平不变并启用端到端方法。每个输出都与一个锚点相关联,类似于单次、基于锚点的对象检测方法,例如 SSD [21] 和 YOLO [29]。实际上,我们的方法将问题转换为对象检测问题,其中每个车道实体都是一个对象,其 3D 曲线模型就像对象的边界框一样被估计。
我们在三个不同的数据集上验证了我们的方法。用于开发该方法的主要数据集是一个新的计算机图形数据集,合成的 3D 车道,提供对每个车道元素的确切 3D 位置的完全访问。虽然存在多个驾驶模拟器 [8, 30],但它们并不专注于 3D 车道检测任务,并且在相关场景属性(例如车道曲率)的可变性方面受到限制。我们在这个领域的主要成就是能够随机生成具有高度可变的 3D 形状和车道拓扑的路段。因此,我们将其用作评估和消融研究的主要数据集。为了验证我们在真实世界图像上的方法,我们从车载前置摄像头收集了一个额外的数据集,3D 车道。 3D 车道注释是使用激光雷达扫描仪在半手动注释方案中完成的。最后,为了与仅在图像域中运行的最先进的车道检测方法进行比较,我们将我们的方法应用于此任务,并演示了端到端的仅图像车道检测。这个仅图像的版本在 tuSimple 数据集 [1] 上进行了测试,在没有常见后处理技术的情况下达到了与 SOTA 竞争的结果。
2. Related Work
与所有提出的方法相反,3D-LaneNet 通过在单个前馈传递中直接从图像中提供 3D 世界坐标中的完整多通道表示,统一了公共管道的前三个阶段。此外,以前的方法使用平坦地面假设来进行图像与世界的对应,而我们的方法完全估计了定义车道的参数化 3D 曲线。只有少数方法直接解决 3D 车道估计:[24],使用立体,和 [34, 6],它们遵循多视图几何方法并假设已知恒定的道路/车道宽度来解决深度模糊。相反,我们使用数据驱动的方法并且不做几何假设。
逆透视映射 (IPM) 从摄像机视图生成场景的虚拟顶视图(有时称为鸟瞰视图),如图 1 中的示例所示。它是在 Mallot 等人的障碍物检测背景下引入的. [22] 并由 Pomerleau [28] 首次用于车道检测。此后,IPM 已被广泛用于车道检测(例如 [5, 3]),因为在此视图中车道通常是平行的,并且它们的曲率可以用低阶多项式精确拟合。此外,移除透视效果会导致车道标记看起来相似(模糊效果除外),无论它们与相机的距离如何。最近他等人。 [12] 引入了一个“双视图 CNN”,它由两个独立的子网络组成,每个子网络产生一个描述符(每个视图一个),然后将它们连接起来并应用于候选图像位置。李等人。 [19] 使用 CNN 直接在保留这些属性不变性的顶视图图像上检测车道标记以及几何属性,例如局部位置和方向。此外,他们还部署了第二个循环网络,该网络遍历图像以检测一致的车道。内文等人。 [25] 使用由子网络(“H-net”)在每个图像中预测的地平线,将车道投影到顶视图以改进曲线拟合。与以前的工作相比,我们在协同单一网络方法中利用这两种观点。
更一般地说,我们第一次提出了这种方法,该方法使用端到端训练的 CNN 直接检测多个车道并估计每个此类车道的 3D 曲率。我们还表明,我们的方法适用于中心线和定界符,也能够处理拆分和合并,无需任何进一步的后处理。
3. Method
我们的方法获取从安装在车辆上的前置摄像头拍摄的单个图像作为输入,如图 3 所示。我们假设已知的内在摄像头参数 \(κ\)(例如焦距、投影中心)。我们还假设摄像机安装在相对于本地 地平面的零度滚动处 。我们不假设已知的相机高度和俯仰,因为这些可能会因车辆动力学而改变。道路场景中的车道可以通过每个车道的中心线集合 \(\{ C _i \} ^{N _C} _{i=1}\) 和车道分隔符集合 \(\{ D _i \} ^{N _D} _{i=1}\) 来描述,如图 5 所示。每个这样的车道实体(中心线或定界符)是以相机坐标(\(C _{camera}\))表示的 3D 曲线。任务是检测给定图像的一组车道中心线和/或车道分隔符。
3.1. Top-view projection 顶视图投影
我们简要回顾逆透视映射 (IPM)。简而言之,IPM 是将前视图图像扭曲为虚拟顶视图图像的单应性,如图 1 的左上图所示。它相当于应用相机旋转单应性(视图向下旋转),然后是各向异性缩放 [11]。在我们的实现中,我们希望确保顶视图图像中的每个像素对应于道路上的预定义位置,独立于相机内在函数及其相对于道路的姿势。
有关以下定义的说明,请参见图 3。相机坐标 \(C _{camera} =( \acute{x}, \acute{y}, \acute{z})\) 被设置为使得 \(\acute{y}\) 是相机观察方向。令 \(P _{road}\) 为与当地路面相切的平面。我们将道路坐标 \(C _{road} = (x, y, z)\) 定义如下:\(z\) 方向是 \(P _{road}\) 的法线,\(y\) 是 \(\acute{y}\) 在 \(P _{road}\) 上的投影,原点是相机中心在 \(P _{road}\) 上的投影。让 \(T _{c2r}\) 成为 \(C _{camera}\) 和 \(C _{road}\) 之间的 6-D.O.F. 转换(3D 平移和 3D 旋转)。由于我们假设摄像机滚动为零,因此 \(T _{c2r}\) 由摄像机俯仰角 \(θ\) 及其离地高度 \(h _{cam}\) 唯一定义。单应性 \(H _{r2i} : \mathbb{P} ^2 \mapsto \mathbb{P}^2\) ,将 \(P _{road}\) 上的每个点映射到图像平面坐标,由 \(T _{c2r}\) 和 \(κ\) 确定(参见 [11],第 8.1.1 节)。最后,IPM 是从 \(H_{r2i}\) 获得的,使用一组固定的参数 \(IPM _{Params}\) 定义顶视图区域边界和从米到像素的各向异性缩放。使用由采样网格 \(S _{IPM}\) 定义的双线性插值生成顶视图图像。
3.2. Network structure
图 4 显示了 3D-LaneNet 的概述。信息在两个并行的流或路径中处理:图像-视图路径和顶视图路径。我们称之为双通路主干。图像-视图路径处理和保存来自图像的信息,而顶视图路径提供具有平移不变性的特征并用于预测 3D 车道检测输出。图像视图路径的架构基于 VGG16 [31],而顶视图路径的结构类似。信息通过四个如下 投影变换 层流向顶视图路径。
3.3. The projective transformation layer
我们架构中的一个主要构建块是图 4 中用蓝色标记的投影变换层。该层是空间变换器模块 [14] 的特定实现,略有不同。它对在空间上与图像平面相对应的输入特征图执行可微采样,以输出在空间上与场景的虚拟顶视图相对应的特征图,同时保留通道数。差分采样是通过 3.1 节中描述的生成的网格实现的,使用由道路投影预测分支预测的 IPM,如下一节所述。生成的投影特征图(除了第一组)被连接到来自顶视图路径的下游特征图。随后的神经元在连接的特征图上运行,结合了以下两个理想的车道检测属性。首先,顶视图平面的平移不变性。这是很有价值的,因为在俯视图中,车道在整个空间中具有相似的外观和几何形状。其次,保存双重信息上下文——在图像和顶视图中。附加的图像-视图上下文对顶视图中不存在的信息进行编码,例如栅栏、天际线和树木,这些信息对于破译场景的 3D 结构至关重要。特别是,在远距离,图像-视图上下文的视觉信息更丰富,与顶视图相比,它代表了更大的实际区域。
3.3.1 Road projection prediction branch 道路投影预测分支
图像-视图路径网络的第一个中间输出是对 “道路投影平面” \(P _{road}\) 的估计。本质上,这个分支预测 \(T _{c2r}\),即相机(\(C _{camera}\))到道路(\(C _{road}\))的转换。它以有监督的方式进行训练。 \(T _{c2r}\) 确定顶视图单应性 \(H _{r2i}\) 和采样网格 \(S _{IPM}\),如第 3.1 节所述,因此对于顶视图路径的前馈步骤是必需的。在推理时,它还用于将以 \(C _{road}\) 表示的网络输出转换回 \(C _{camera}\)。如第 3.1 节所述,在我们的例子中,\(T _{c2r}\) 由相机高度 \(h _{cam}\) 和间距 \(θ\) 定义,因此这是该分支的两个输出。
3.3.2 Lane prediction head 车道预测头
我们端到端方法的核心是基于锚的车道表示。受目标检测的启发,我们使用锚来定义候选车道,并使用精细的几何表示来描述每个锚的精确 3D 车道形状。输出坐标系是由 \(h _{cam}\) , \(θ\) 确定的 \(C _{road}\) 的估计值。我们的锚点对应于该坐标系中的纵向线,而细化的车道几何图形对应于相对于相应锚点的 3D 点。如图 5 所示,我们通过在 x-positions \(\{X ^i _A \} ^N _{i=1}\) 处等间距的垂直(纵向)线来定义锚点。每个锚点 \(X ^i _A\),一个 3D 车道由 \(2·K\) 个输出神经元激活 \((\mathbf{x} ^i, \mathbf{z} ^i) = \{(x ^i _j, z ^i _j )\} ^K _{j=1}\) 表示,它与 \(K\) 个预定义 \(y\) 位置的固定向量 \(( \mathbf{y} = \{y _j\} ^K _{j=1})\) 定义一组 3D 车道点。值 \(x ^i _j\) 是相对于锚点位置 \(X ^i _A\) 的水平偏移量。意思是,输出 \((x ^i _j, z ^i _j )\) 表示 \(C _{road}\) 坐标中的点 \((x ^i _j + X ^i _A, y _j , z ^i _j ) \in \mathbb{R} ^3\) 。此外,锚点 \(i\),我们输出有一个车道 与锚点 关联的置信度 \(p ^i\)。我们使用预定义的纵向坐标 \(Y _{ref}\) 进行关联。与车道关联的锚 \(X ^i _A\) 是最接近车道 x 坐标的 \(y = Y _{ref}\) 的锚。
每个锚点,网络最多输出三种类型 \((t)\) 的车道描述符(置信度和几何),前两种 \((c _1,c _2)\) 表示车道中心线,第三种类型 \((d)\) 表示车道分隔符。为每个锚点分配两条可能的中心线会产生对合并和拆分的网络支持,这通常会导致两条车道的中心线在 \(Y _{ref}\) 处重合并在不同的道路位置分开,如图 5 中最右边的示例所示。车道定界符的拓扑通常是与中心线相比更复杂,我们的表示无法捕捉所有情况(例如,车道分隔线不与图 5 中的 \(y = Y _{ref}\) 交叉)。 3D-LaneNet 的预测头被设计为产生所描述的输出。通过一系列 \(y\) 维无 padding 的卷积,减少特征图,最终预测层大小为 \(3·(2·K+1)×1×N s.t.\)。每列 \(i \in \{1 . . . N \}\) 对应于单个锚点 \(X ^i _A\) 。每个锚点 \(X ^i _A\) 和类型 \(t \in {c _1, c _2, d}\) 网络输出由 \((x ^i _t, z ^i _t, p ^i _t)\) 表示。最终预测执行对象检测中常见的一维非最大抑制:仅保留局部最大置信度的车道(与左右相邻锚点相比)。每个剩余的车道,由少量 \((K)\) 的 3D 点表示,使用样条插值转换为平滑曲线。
3.4. Training and ground truth association
给定一个图像示例及其对应的 3D 车道曲线,\(\{C _i\} ^{N _C} _{i=1}\)(中心线)和 \(\{D _i\} ^{N _D} _{i=1}\) (分隔符),训练进行如下。首先,地面实况 (GT) 坐标系 \(C _{road}\) 为局部道路切平面定义,如第 3.1 节所述,使用已知间距 \((\hat{\theta})\) 和相机高度 \((\hat{h} _{cam})\) 。接下来,投影到 \(C _{road}\) 的 \(x - y\) 平面的每条车道曲线与 \(Y _{ref}\) 处最近的锚点相关联。与锚点关联的最左侧车道分隔符和最左侧中心线被分配给该锚点的 \(c _1\) 和 \(d\) 输出类型。如果附加中心线与同一锚点相关联,则将其分配给输出类型 \(c _2\)。该分配以与输出相同的格式定义每个示例的 GT:每个锚点 \(X ^i _A\) 和类型 \(t\) 关联的 GT 由 \((\hat{x} ^i _t, \hat{z} ^i _t, \hat{p} ^i _t)\) 表示,其中 \(\hat{p} ^i _t\) 是一个锚点/类型分配指示符,以及 \(C _{road}\) 中的坐标。
在训练时间和评估中,如果整个车道没有在有效的顶视图图像边界内穿过 \(Y _{ref}\),则忽略整个车道,如果被地形遮挡(即超出山顶),则忽略车道点。网络的整体损失函数在 Eq.1 中给出。它结合了三个同等加权的损失项:车道检测(Cross-entropy-loss)、车道几何和道路平面估计(L1-loss)。
\[\mathcal{L} = − \sum _{t \in \{c _1 , c _2 , d\}} \sum ^N _{i=1} (\hat{p} ^i _t \log p ^i _t + (1 − \hat{p} ^i _t ) \log (1 − p ^i _t )) + \sum _{t \in \{c _1 , c _2 , d\}} \sum ^N _{i=1} \hat{p} ^i _t · (∥ x ^i _t− \hat{x} ^i _t ∥ _1 + ∥z ^i _t − \hat{z} ^i _t ∥ _1 ) + ∣\theta − \hat{\theta} ∣+ ∣h _{cam} − \hat{h} _{cam} ∣ \tag{1} \]4. Experiments
我们的实验工作如下。我们首先介绍了用于生成新的合成数据集 synthetic-3D-lanes 的方法,该方法用于得出本研究的大部分结论。接下来,我们介绍为验证真实世界图像而生成的 3D 车道数据集。使用新提出的 3D 车道检测评估方法,我们在两个数据集上展示结果,包括一项消融研究,仔细检查每个概念在我们的整体方法中的贡献。最后,我们将 3D-Lane Net 的仅图像版本与 tuSimple benchmark [1] 上现有的最先进方法进行比较。
4.1. Synthetic 3D lane dataset 合成 3D 车道数据集
我们使用开源图形引擎混合器 [2] 生成了 合成-3D-车道 数据集。我们的编程方法允许我们随机化每个建模元素,从场景的 3D 几何到对象类型,如图 6 所示。生成每个场景的过程由以下步骤组成:
-
Terrain 3D(地形3D). 地形由高斯混合分布建模,高斯数量及其参数随机化。图 6(a) 显示了这种地形的一个例子。
-
Lane topology(车道拓扑). 选择主干道上的车道数。然后我们选择是否有二级道路以及其中的车道数。根据场景中摄像机的后期方向,次要道路的交叉点被视为合并或拆分。
-
Lane top view geometry(车道顶视图几何). 俯视图中主要道路的几何形状由 4 次多项式建模,产生从轻微到极端的曲率。选择合并/拆分的交汇点以及车道宽度。这产生了一个顶视图车道级地图,如图 6(b) 所示。
-
Lane 3D(车道3D). 顶视图车道图放置在地形上,提升二级道路以模拟常见道路地形。图 6(c) 显示了这一阶段的结果。
-
Terrain and road appearance(地形和道路外观). 道路和地形的纹理是从一组纹理中选择的。车道标记的类型和颜色也是随机的。
-
Objects(对象). 从一组模型中选择的汽车和树木分别放置在道路上和道路外的场景中。
-
Scene rendering(场景渲染). 主车辆摄像机通过选择其车道和围绕车道中心的横向偏移定位在主要道路上。摄像机高度在 140cm 到 190cm 之间随机设置,向下倾斜选择 0 到 5 度之间。最后,设置照明并从相机视图渲染场景。每个车道中心线和分隔符的 3D 点被转换为相机坐标以生成地面实况。
每个生成的示例都包含一个图像(360 × 480 像素)及其相关的地面实况:3D 车道、相机高度和间距。图 2(左列和中列)展示了几个示例,显示了由此产生的多样性和复杂性。随机生成过程中使用的确切参数列在附录 I 中。生成的数据集包含 300K 训练和 5K 测试示例。额外的 1K 验证集用于学习率调度和选择性能最佳的快照。
4.2. Real-world 3D lane dataset
为该任务获取具有 3D 标记的地面实况数据是一项需要复杂的多传感器设置以及可能还需要昂贵的高清地图的工作。为此,我们引入了一个新的此类数据集,即 3D 车道 ,该数据集使用多传感器设置创建,包括前视摄像头、Velodine HDL32 激光雷达扫描仪和高精度 IMU,所有这些都同步并准确对齐。这些数据是在不同路段的 6 个驱动器中收集的,每个驱动器总共需要近 2 个小时的驾驶时间。使用激光雷达和 IMU,我们生成聚合的激光雷达顶视图图像,如 [33],然后与半手动注释工具一起使用以生成地面实况。总共注释了 85K 图像,其中 1K 由单独的驱动器组成,用作测试集,其余用作训练集。激光雷达信息还用于提供每条车道的完整 3D 曲线。这种方法的一个缺点是,由于远处的遮挡或有限的分辨率,激光雷达无法充分看到的车道会从地面实况中丢失。因此,标签有些嘈杂,如图 2(右栏)所示。此外,与 合成的 3D 车道 数据集相比,数据集在几何和拓扑方面的可变性是适度的。因此,我们使用具有完美基本事实的合成数据来开发该方法并进行消融研究,而真实世界数据集则用于验证该方法对真实数据和定性分析的可迁移性。
4.2.1 Evaluation results
评估指标。 我们建议对 3D 车道检测进行评估,将检测精度与几何估计精度分开。检测精度是通过精度 - 召回曲线的标准平均精度 (AP) 度量来计算的。我们首先将 GT 和检测到的车道之间的曲线到曲线距离计算为逐点欧几里德距离的加权和。我们在一组预定义的 y 值上沿曲线测量距离,在 0 - 80 米范围内每 80 厘米。距离较远的点重量会减少。然后,我们通过选择相似度递减的对来执行一对一(曲线)匹配。如果加权距离低于某个相当允许的阈值(1.5 米),则认为匹配是正确的。迭代车道置信度阈值,我们生成精度 - 召回曲线。
对于匹配检测,我们通过测量用于测量曲线到曲线距离的相同点上的误差分布(逐点欧几里德距离)来评估几何估计精度。由于误差大小的差异,我们将整个数据集进一步划分为 近距离(0-30m)和 远距离(30-80m)的车道点。然后,我们计算每个范围的 1σ 误差,作为 68 个误差百分位数和 2σ 误差作为 95 个百分位数。使用这种方法分别评估车道中心线和定界线检测。与训练阶段一样,评估中忽略不相关的车道点。
实施细节。 3D-LaneNet 和本节介绍的所有变体都使用相同的协议进行了初始化和训练。图像 - 视图路径是从在 imagenet [7] 上训练的 VGG16 初始化的。我们使用 Adam 优化 [17] 和初始学习率 \(5·10 ^{−4}\) 进行训练。我们使用 [32] 中描述的循环学习率机制的变体,最小学习率为 \(10 ^{-6}\)。顶视图表示的 y 范围是 80 米,x 范围是 20 米。 IPM 尺度在 x 和 y 上是不同的:在第一个顶视图特征图中,每个像素对应于横向 16 厘米(x)和纵向 38.4 厘米(y)。最后一个顶视图特征图小×8,因为每列有一个锚点,所以锚点之间的距离是 16 × 8 = 128cm。我们将 K(= 6) 个垂直参考点设置为 y = {5, 20, 40, 60, 80, 100} 和 \(Y_{ref} = 20m\) 。
合成-3D-车道数据集的结果。 测试集上的典型网络结果如图 2 所示,并标记了ground truth。表 1 中的第一行显示了 3D-LaneNet 用于中心线检测的定量结果。对合成数据集的一个有效担忧是它的可变性太有限,并且学习到的网络会记住整个示例空间,而不是学习泛化。一个积极的迹象表明情况并非如此,测试 AP (0.952) 远低于训练 AP (0.966),几何评估措施也是如此。此处介绍的消融测试中训练的所有网络都是从 VGG16 初始化的,就像 3D-LaneNet 一样,并且使用相同的训练参数和 epoch 数进行训练。
我们首先通过将 双通路架构 与替代架构进行比较来检查它的作用。仅 图像视图 版本将图像视图路径直接连接到车道检测头,车道检测头输出 Croad 中的表示,与 3D-Lane Net 完全相同。在这种情况下,锚点位置 XA 由最后一个特征图中的列确定:对于每一列,我们在预定义的图像 y 坐标处选择一个像素,并将其投影到顶视图以确定与该列对应的锚点。仅 顶视图 版本首先将图像本身投影到顶视图并继续与顶视图路径相同的计算。此外,我们测试了两个版本,其中包括双通道的有限版本。早期的 IPM 包括一个双上下文模块(全网络四个模块中的第一个)。后期 IPM 类似地仅包含四个中的最后一个双上下文模块。表 1 中总结的结果表明,与所有其他变体相比,全双通路架构具有卓越的性能。特别是,仅 图像视图 版本提供了最差的结果,强调了顶视图处理路径的重要性。请注意,后期阶段的 IPM 由双路径的修整版本组成,提供第二好的精度,但计算成本降低,使其成为实时实现的良好候选者。
我们还尝试了 道路投影平面的替代定义 。一种方法在拟合道路平面时考虑整个场景,而不仅仅是局部道路法线。为了测试它,我们设计了一种地面实况生成算法,该算法采用最远的可见道路点并将其连接到本地道路位置以确定间距。这种方法在表 1 中被称为 水平 ,因为它类似于水平估计方法。显然,它总体上表现稍差,尽管我们一直观察到场景地形有利于这个定义的情况。我们还尝试假设相机的 固定位置 ,其中平均间距 (2.5°) 和相机高度 (165cm) 用于定义 \(T_{c2r}\)。最后,我们注意到,如 [25] 中提出的,在没有明确监督的情况下学习预测每个场景的最佳道路投影平面,未能为我们的任务产生令人满意的结果。
表 1 中的最后一行(平坦地面)强调了与当前现有方法相比,全 3D 车道估计的重要性:使用平坦地面假设的图像 - 仅检测图像 - 到世界的转换。图像 - 仅检测是通过将 3D-LaneNet 结果投影到图像平面来获得的。对于图像到世界的阶段,我们需要选择将图像结果投影到的平面。我们尝试了两个选项,均使用地面实况计算:道路平面 \(P_{road}\) 和由 地平线 定义的平面,如前一个实验中所述。正如人们所预料的那样,基于 地平线 的方法基本上使用了整个场景的最佳平面拟合,产生了更好的结果,但仍然不如执行全 3D 估计的 3D-LaneNet。
3D-LaneNet得到的分隔符检测性能为0.971 AP(位置误差:12.9cm@1σ,33cm@2σ近程;30cm@1σ,106cm@2σ远程)。与中心线检测相比,这些指标显示出更好的性能。一种可能的解释是,道路上清楚地标记了分隔线,而中心线是间接推断的。由于使用估计的 \(T _{c2r}\) 将输出从道路坐标转换为相机坐标,我们还测量了这种估计的质量及其对结果的影响。俯仰 (\(θ\)) 和相机高度 (\(h_{cam}\)) 的绝对误差的中值分别为 0.09° 和 2.4cm。为了消除此错误的影响,我们通过获取原始网络输出(在转换为 \(C_{camera}\) 之前)评估道路坐标 \(C_{road}\) 中的性能,并在测量的性能中得到可以忽略不计的差异。
3D-车道数据集的结果。 为了对真实世界的数据进行操作,我们在 3D 车道数据集的火车部分训练了 3D 车道网络。来自各个测试集的结果示例如图 2(右栏)所示。请注意,由于摄像机以向下倾斜的方式安装,因此 3D 车道被检测为向上上升。评估指标如表 8 所示。与合成数据一样,对真实数据使用 平坦地面 假设会降低性能,在远距离范围内实现 4 倍大的误差。
4.3. Evaluation of image-only lane detection
本实验的目的是将我们的方法与当前最先进的技术进行比较,该技术用于仅图像车道检测。 tuSimple 车道数据集 [1] 由 3626 个训练图像和 2782 个测试图像组成。不幸的是,今天无法访问测试图像的标签。因此,我们将原始训练集划分为我们自己的训练/验证集(90% 训练和 10% 验证)。虽然我们知道我们的评估(在验证集上获得)和测试集上的评估之间可能存在偏差,但我们可以期待类似的性能并在定性上得出相同的结论。由于这个数据集不包含 3D 信息,我们训练了一个 3D-LaneNet 的变体,它检测图像域中的车道。网络输出不是 3D 表示,而是通过消除高程 (\(z ^i _t\)) 分量减少到道路投影平面上的 2D 点。由于数据集中的标记实体是车道分隔符,因此仅保留分隔符输出类型 (t = d)。手动选择图像平面和道路投影平面之间的固定单应性 \(H _{tuSimple}\) ,以使直线车道在顶视图中变得平行。使用 \(H _{tuSimple}\) 将网络直接预测的车道转换为图像视图中的车道。由于 \(H _{tuSimple}\) 是固定的,所以没有使用道路投影平面预测分支。除了上述之外,该网络与为合成-3D-车道数据集配置的 3D-LaneNet 相同。 tuSimple 主要评估指标 (acc) [1] 是每张图像检测到的地面实况点的平均比率。在我们的验证集上使用我们的端到端方法,我们达到了 0.951 的准确度,与 tuSimple 2017 竞赛获胜方法 [27] (0.965) 所达到的准确度相媲美。鉴于我们的整个方法都是针对 3D 估计任务设计的,这个结果是令人鼓舞的,也有些令人惊讶。特别是,我们的几何损失(等式 1)是在顶视图坐标中计算的,在实践中给予远处车道点更高的权重,而在 tuSimple \(acc\) 度量中,所有点的贡献相同。
5. Conclusions
我们提出了一个新问题,3D 多车道检测,以及基于端到端学习的解决方案,3D-LaneNet。该方法是使用新引入的合成数据集开发的,并在真实数据上进行了验证。该方法原则上适用于除复杂的城市路口以外的所有驾驶场景。最后,我们相信双路径架构可以促进额外的道路上重要的 3D 估计任务,例如 3D 车辆检测。
标签:LaneNet,车道,End,检测,顶视图,图像,我们,3D From: https://www.cnblogs.com/xiaoliu-ya/p/16615542.html