激光雷达和相机传感器装置的自动外部校准方法(下)
D.单目数据
如果要校准的传感器是单眼相机,则提取参考点需要检测ArUco标记,这提供了检索目标几何形状所需的线索。
ArUco标记是由黑色边界和内部二进制矩阵组成的合成正方形标记,旨在实现其明确的识别。在校准目标中,使用了四个ArUco标记,每个角落一个;由于这个位置,它们不影响其他模态的目标或空穴检测。
由于相机的固有参数和标记尺寸都是已知的,因此可以通过经典透视-n点(PnP)问题的分辨率来检索每个标记相对于相机的3D姿态。在实现中,将四个标记设置作为ArUco板处理,这允许通过联合使用所有标记来准确估计校准目标的姿态。
使用四个单独标记的平均姿态作为初始猜测,进行迭代Levenberg-Marquardt优化,以找到最小化重投影误差的板姿态。结果,获得了板的中心的3D位置及其在空间中的定向。
为了生成一组等效于从距离数据中获得的云
的四个点,利用它们在校准目标中的相对位置已知的事实来提取代表参考孔中心的点。这些点构成了生成的云
。
E.点聚合和聚类
在分割阶段结束时,必须生成两个云Pp,每个涉及校准的传感器一个。每个表示在附着到相应传感器的坐标系中单个静态场景的参考点(目标孔的中心)的3D位置。
这些数据将足以找到表示传感器的相对姿态的变换。然而,该方法固有的不同误差源(例如,传感器噪声、数据稀疏性和诸如RANSAC之类的非确定性过程)可能会影响结果的准确性。为了提高算法的鲁棒性,通过重复应用分割步骤和以两种不同的方式累积结果来增加可用信息。
1) 多个数据帧上的累积:由于通常可以将校准场景保持静态一段时间,因此将组成
的点累积到N个数据帧上来生成
,然后对该累积云执行欧几里得聚类。如果发现超过四个集群,则认为数据不可靠,不用于注册;否则,存储在结果云
中的聚类质心被用作中心位置的合并估计。聚类参数,即聚类容
限聚类、最小聚类大小
和最大聚类大小
,取决于所考虑的迭代次数。
根据稍后显示的实验结果,通常采用N=30,这在有限的时间内提供了令人满意的结果。自然,完成该过程所需的时间取决于传感器的帧速率,但很少超过几秒钟。
2) 多个目标姿势上的累积:如稍后所示,该方法可以通过单个目标位置进行估计校准。然而,可以通过考虑四个以上的参考点来提高估计的准确性。如果针对校准目标相对于传感器的M个不同姿态重复分割过程,则利用每个姿态获得的云
被累积在
云中,其中4×M个参考点可用于执行配准阶段。对于每个姿势的分割,假设传感器和目标都是静态的。
如果目标的姿态被选择为使得所得到的参考点不共面并且覆盖与传感器的宽范围的距离,则由新姿态提供的附加约束解决了可能的模糊性并且提高了最终校准的总体质量。
V.注册
作为分割阶段的结果,获得两个云
,每个传感器一个。它们包含以传感器坐标表示的圆的中心的估计的3D位置;即相对于附接到传感器的框架。
配准步骤的目标是找到最佳参数
,以便当应用所得到的变换
时,它导致从两个传感器获得的参考点之间的最佳对准(即,最小距离)。请注意,该方法被设计为一次只处理两个源,因此该问题可以被视为具有4×M个目标函数的多目标优化。
在此之前,配准过程需要其中一个云
中的每个点与其在另一个云中的同源点正确配对;也就是说,表示两个云 中相同参考点的点对必须相关联。
A.点关联
已经开发了一种点关联程序,以避免假设两个云
中的参考点在其各自的坐标系中具有相同的排序。请注意,例如,在校准前向360°激光雷达和后视相机时,不会满足此条件。
因此,将每个
中的四个中心转换为球面坐标,并仅假设云中出现的最高点,即倾角最低的点,属于校准目标的上排(即左上角或右上角的圆)。
从这个点到其他三个点的距离决定了正确的排序。这样,每个点都可以与它所代表的校准目标中的圆相关联:左上角(tl)、右上角(tr)、左下角(bl)和右下角(br)。
对于校准目标的M个姿态中的每一个,重复该过程,使得
中的每个点
被提供有标签
和
,分别包含图案中的孔及其对应的姿态:
B.解决方案
随后,从两个任意模态X和Y获得的两个结果云,在这里用
和
表示,经过Umeyama配准过程,负责找到使其对应点之间的距离最小化的刚性变换。也就是说,假设每个云中的点
和
是有序的,使得,
:
然后,期望的变换矩阵是最小化最小二乘误差准则的矩阵
,该准则由下式给出:
该优化问题通过奇异值分解(SVD)解决,并提供了一个闭合形式的解决方案,从中可以直接检索表示两个传感器之间的相对位置的参数集
。方便的是,Umeyama方法处理所有点共面的奇异情况,就像使用单个图案位置(M=1)时的情况一样,从而避免将它们误判为反射。
VI、实验
从两个不同的角度讨论了对拟议方法的验证问题。首先,在真实的综合测试套件上进行了测试,以检索关于完美地面实况的大量定量数据。其次,该方法也已在实际环境中应用,以证明该方法在实际用例中的有效性。
所有实验都是在没有用户干预的情况下进行的,除了第四节中提到的直通滤波器的调谐,它必须粗略地适应校准模式的位置。如表I所示,将所有实验的其余参数设置为固定值。除非另有说明,否则参考点累积在30帧(N=30)上;然而,应该注意的是,无论是否从中提取了四点解,传感器传递的每一帧都会计入该极限。相反,只有成功的帧(
)才会被考虑到簇大小限制。
表I
方法中常量参数的设置
A.综合测试环境
如前所述,对空间中两个传感器相关的一组外部参数的定量评估是一个不重要的问题,因为在实践中不可能获得确切的地面实况。文献中大多数涉及外部校准的工作都使用手动注释或其他近似值,如场景不连续性。
为了提供一组全面的数据来描述所提出的方法的性能,使用了所提出的合成测试套件,其中传感器之间相对变换的确切地面实况是可用的。使用了开源的Gazebo模拟器,并忠实地复制了本工作中考虑的三种传感器模式(即激光雷达、立体和单目相机)的操作模式,同时考虑了真实设备在视场、分辨率和精度方面的规格。表II显示了实验中使用的一组设备。
表二
合成环境中使用的传感器模型
相机的图像分辨率,以及激光雷达扫描仪的通道数量和水平(方位)角分辨率。
值得注意的是,实验中使用的不同激光雷达设备相当能代表市场上可用的激光扫描仪在扫描层数量及其分布方面的多样性,从而能够评估参考点提取方法的适应性。
还通过模仿图2a所示的实际木制实施例的外观创建了基准校准目标的模型。在实验中,目标被放置在后面的墙上,这样激光雷达光束穿过圆孔到达表面,在前景点和背景点之间产生必要的梯度。
高斯噪声
应用于传感器捕获的数据,像素强度(以0到1的范围表示)和激光雷达距离分别为
=0.007和
=0.008m。噪声因子K允许模拟理想的无噪声环境(K=0)、逼真的环境(K=1)和有噪声的环境(K=2)。默认情况下使用K=1。
尽管最终存在领域差距,但在这种受控设置中的实验能够进行系统分析,并为该方法提供有价值的见解,否则该方法将不可行。
合成套件中的实验可以分为三个不同的焦点:参考点提取、单目标位置校准和多姿态校准。
1) 单传感器实验:第一组测试旨在分析从校准目标的四个圆形开口提取参考点的准确性。
结合平移和旋转,考虑了传感器和校准模式之间的四种不同相对位置。
表III显示了这些配置中每种配置的校准图案在传感器坐标中的位置,假设轴在激光雷达设备中被定义为惯例;即,x指向前方,y指向左侧,z向上。如第三节所示,平移用
表示,而
表示滚转、俯仰和偏航旋转(以弧度为单位)。
有意选择这些设置来研究参考点提取分支的极限。事实上,该方法无法在某些极端配置中提供结果;具体地,VLP-16激光雷达在P3和P4中,HDL32激光雷达在P4中,立体相机也在P4中。
在激光雷达扫描仪的情况下,其有限的分辨率使其无法在很远的距离找到圆,而随着距离的增加,这种模式在深度估计方面受到了显著退化的影响。
表III
用于参考点提取评估的相对传感器-目标姿态
在典型的使用情况下,应该可以通过将图案位置限制在相对于传感器的合理距离范围内来避免这些情况。
参考点定位性能是通过确定该方法提供的估计与相应圆中心的地面实况位置之间的距离来测量的。该任务在所有情况下都是明确的,可以根据距离直接执行。针对每个姿势和模态,在三次迭代中汇总结果,以考虑管道中随机过程的影响(例如,RANSAC分割)。首先,图4分析了噪声对参考点位置误差的影响。结果表明,该程序在所有模态中都对噪声具有高度鲁棒性,因为其影响仅限于噪声情况下误差标准偏差的增加(K=2)。在所有情况下,P1和P2配置(图中的向上和向下三角形标记)的误差都远低于1cm,而P3(圆形标记),尤其是P4(方形标记)涉及所有噪声水平的显著增加。这一事实对于单眼模式尤其明显(请注意y轴上的不同比例),其中ArUco标记的检测精度被证明对其在图像上的投影大小比对像素噪声更敏感。关注真实的噪声设置(K=1),图5显示了四种配置中每种配置的单帧估计误差,进一步突出了传感器和校准模式之间的相对位置是一个重要因素。除了最具挑战性的配置外,参考点定位在所有模态中都被证明是准确和精确的,即使在P3和P4中,激光雷达扫描仪也表现出高鲁棒性。如前所述,单眼在这些配置中很吃力,但在P1和P2中表现出了出色的性能。
第IV-E1节中引入的点聚合和聚类策略的影响在表IV中进行了研究,其中在现实噪声条件下比较了单帧估计和30次迭代聚类质心的均方根误差(RMSE)。
在所有情况下,聚类质心都被证明是比单帧估计更好的参考点表示,在高色散的情况下实现了更显著的改进;再次,结果表明,参考点提取的准确性主要受校准目标的相对姿态的影响,在较小程度上受传感器模态的影响。相比之下,激光雷达数据的密度似乎对结果影响不大,尽管激光束与目标相互作用的方式取决于层分布的微小差异会产生一些违反直觉的结果。
2) 单姿态实验:接下来,将仅考虑单个目标位置来评估整个校准管道;即对于M=1。为此,分析了四种代表真实汽车传感器设置的组合:
A.HDL-32/HDL-64(激光雷达/激光雷达)
B.单目/HDL-64(相机/激光雷达)
C.单目/单目(相机/摄像机)
D.立体声/HDL-32(相机/激光雷达)
设置A和C体现了这样的情况,即相同模态的多个设备被包括在相同的传感器设置中,以增强所捕获数据的视场或分辨率,而设置B和D举例说明了旨在相机/激光雷达传感器融合的设置。这两种情况经常出现在机载感知文献中,甚至在同一平台上。
对于每个设置,考虑了表V中报告的传感器之间的三个不同相对位置。它们是从一组具有代表性的配置中挑选出来的,涉及广泛的平移和旋转。合成测试套件中这些配置的代表性图片如图6所示。与前面的情况一样,在每个可能性的结果中考虑了三个不同的迭代。
在所有情况下,校准图案都被任意放置在适合两个传感器的位置。
与每个传感器的分析一样,使用到目标的不同距离来进一步研究其对最终校准的影响。
表V
不同校准场景的转换参数
图6. 合成环境中单姿态实验的传感器设置:P1(a)、P2(b)和P3(c)
现在分析的重点是最终校准结果。
因此,根据估计的刚体变换和地面实况之间的线性(
)和角度(
)误差给出了结果:
其中,t是平移向量,
,R是3×3旋转矩阵,表示
、
和
旋转;两个元素组成变换矩阵:
。
首先,研究了用于参考点提取的数据帧数量N的影响。图7汇总了当校准程序在N=[1,40]间隔的某一点停止时,每个设置和配置的误差。结果表明,即使迭代次数很少,该方法也可以在N的大范围内提供外部参数的可靠估计。然而,在异常值极为罕见的情况下,N=30提供了一个公平的精度-时间折衷。
图7. 线性(a)和角度(b)校准误差与聚类所考虑的迭代次数(N)的关系。实线表示中位数和阴影区域,即四分位间距(IQR)。
表VI显示了N=30时按传感器设置和配置排序的线性(et)和角度(er)校准误差。单目/单目校准(设置C)显示出卓越的精度和精度,与参考点提取结果一致,其误差比其他设置小100倍。相反,立体声/HDL-32(设置D)呈现更高的误差,这可能是由于立体声匹配过程发现难以在实验中放置图案的距离处提供准确的深度估计。尽管如此,观察到,使用中的ArUco检测器(OpenCV ArUco模块)的实现对光照条件的敏感度远高于立体匹配方法,因此基于立体模态的方法在某些情况下可能仍然有用。
总的来说,结果是相当准确的,尽管由于参考点的共面性,单个目标的情况对配准构成了非常具有挑战性的情况,这最终可能成为模糊性的来源。
表VI
使用单个目标位置(M=1)的不同装置的线性(et)和角度(er)校准误差的平均值(和标准偏差)
表VII显示了所提出的方法与文献中的两种单姿态激光雷达相机校准方法的比较:Geiger等人提出的方法,仅用一次拍摄就可以估计传感器的内在和外在参数,Velas等人提出的使用与非常相似的校准模式的方法。为了进行公平的比较,正如报道的那样,所有方法都使用了来自合成测试套件的传感器数据。传感器设置由立体相机和表II中介绍的HDL-64激光雷达组成。考虑了视觉数据中参考点提取的两种可用选项:立体和单目,后者采用立体设备的左图像作为输入。对之前实验中使用的相同三个姿势的误差进行平均。
表VII
使用单个目标位置(M=1)的线性(et)和角度(er)校准误差的平均值(和标准偏差)
根据这些结果,立体声和单声道替代方法产生了相似的精度,显著优于其他方法。特别值得注意的是,方法在角度误差方面取得了显著改善,它是唯一适合远距离数据融合的方法。这些结果证明,基线方法需要校准模式的单个姿态(M=1),工作可接受,并为M>1的完整版本提供了坚实的基础。
3)多姿势实验:最后一组实验
重点关注第IV-E2节中提出的聚合策略,其中对来自M个不同校准目标位置的M×4个点执行配准过程。传感器设置与单姿态测试中使用的设置相同,但仅选择了第一种配置(P1)。
对于每对传感器,校准模式沿着五个不同的姿态移动,在设备前方5×5米的范围内,深度可达6米。为了避免姿势排序带来的最终偏差,通过改变排序的三次不同迭代来获得结果。
对于所有测试设置,线性和角度校准误差随M的演变遵循几乎指数衰减,如图所示。8(请注意对数刻度)。
仅通过引入额外的目标姿态,就可以实现61.2%(线性)/68.15%(角度)的平均减少。增加姿势的数量是积极有益的,直到M=3;更高的值会导致从几乎中性到略微正的混合效应。然而,当采用五个姿态时,平均误差下降了85.42%(线性)/87.01%(角度)。
最大的减少对应于HDL-32/HDL-64设置,其中两种误差的减少约为97%,产生了与地面实况偏差为6.5mm和0.002rad的最终校准。
图8. 四个传感器设置的线性(a)和角度(b)校准误差(m和rad)与校准姿态数(m)的RMSE。
将所提出的方法与周等人最近引入的最先进的方法进行了比较,该方法旨在使用棋盘的一个或多个视图校准激光雷达相机。为此,使用了MATLAB激光雷达工具箱中包含的实现。使用单眼/HDL-64传感器设置,使用M=2和M=3的各个校准模式的姿势进行测试。两种方法的平均校准误差如表VIII所示。
从结果中可以明显看出,这两种方法的性能是可比较的,尽管方法实现了一致的改进,当M=3时,角误差甚至超过50%。
这些结果证实了不同目标位置的参考点聚合的有效性,提供了一种具有亚厘米精度的校准解决方案。
B.真实测试环境
上一节中提供的一组实验对所提出的校准方法的性能进行了系统而准确的分析。然而,也在实际用例中进行了实验,以验证该方法的适用性,评估其是否足以满足预期应用的要求。
CNC制造的校准目标如图所示。在该过程中使用了2。使用不同的传感器堆栈进行了两轮实验,以充分测试该方法的多种能力。这两种配置都安装在实验车辆的车顶行李架上。
对于第一轮,如图9a所示,两台Velodyne VLP16激光雷达和一台大黄蜂XB3相机安装在一个钻机中,旋转模拟车辆设置中的旋转。在这一步骤中,执行了两种不同的校准程序:单目/激光雷达,涉及立体系统的一个相机和一个激光雷达扫描仪,以及两个VLP-16设备之间的激光雷达/激光雷达。
在第二轮中,使用了图9b所示的配置,包括大黄蜂XB3立体相机、带有90°HFOV镜头的Basler acA2040-35gc相机、Robosense RS-LiDAR-32和Velodyne VLP-16高分辨率LiDAR。在这里,测试了三种不同的校准替代方案:
立体声/激光雷达,连接XB3和VLP-16高分辨率扫描仪,单目/激光雷达(这次与广角Basler相机和RS-LiDAR-32),以及立体声系统的两个相机之间的单目/单目。
图9. 实际实验中使用的两种传感器设置。经过校准的设备对采用相同的颜色装帧。
在这些实验中使用的传感器具有彼此非常不同的特征;因此,VLP-16高分辨率激光雷达具有比常规VLP-16更紧密的层分布,而RS-LiDAR-32具有两倍多的扫描平面,但它们不规则地分布,在中心区域周围具有高得多的密度。所有设备都对校准提出了自己的挑战,因为与Velodyne HDL-64相比,校准模式的四个圆完全可见的位置集要有限得多。至于相机,XB3相机的窄视场(43°)与巴斯勒的广角形成对比。
总体而言,实验中使用的传感器和组合的数量和种类确保了结果的通用性。总体而言,实验中使用的传感器和组合的数量和种类确保了结果的通用性。与合成实验一样,从N=30帧的累积中提取点,并使用M=5个目标姿势。其余参数与表一相比保持不变。
传感器之间相对位置的基本情况不可用,但下面给出了一些关于实际传感器校准程序性能的说明性统计数据。一方面,图10显示了估计的参考点在校准图案的不同姿态上的色散,每个姿态由一个点表示。包括来自五个独立校准程序的数据。黑线表示平均值,阴影跨越标准偏差,阴影覆盖平均值标准误差的1.96倍。
图10. 不同相机(c.)和激光雷达(L.)设备的实际实验中参考点定位的色散。
结果证实,正如合成环境中的测试所表明的那样,激光雷达和立体模式中的色散明显高于单眼模式。然而,偏差仍然足够小,以实现更高的配准精度。可以观察到与校准模式的某些特定姿态相对应的异常值的存在;然而,它们不会引起多姿态校准的相关问题,因为它们被其他姿态很好地缓解了。
另一方面,图11显示了在M∈[1,4]的情况下进行的校准与在M=5的情况下的最终结果之间的线性误差和角度误差测量的差异。结果验证了上一节中得出的结论:使用多个模式姿势(M>1)会导致校准结果发生显著变化,最多可使用3个姿势,在这3个姿势处保持平稳。在窄角度相机/窄角度相机校准的特殊情况下,可以将结果与制造商为校正后的立体声对提供的基线进行比较,从而在坐标上产生2.73 mm的平均误差。
最后,图12描绘了由校准的传感器设置捕获的交通场景的各种示例,放大了特定区域,以便可以很好地感知细节。前四个对应于第一传感器堆,并说明了窄角相机/16层激光雷达和16层激光雷达/16层激光DAR校准的性能。最后两个分别显示了立体/Hi-Res 16层激光雷达和广角相机/32层激光雷达的校准结果。
如图所示,即使在距离汽车相当远的地方,使用所提出的方法提取的外部参数也能够实现两种数据模式之间的完美对齐,这在表示薄物体(例如,灯杆或树木)时尤其明显。
图11. 与实际实验中M=5时的最终校准结果的线性和角度偏差。
七、结论
已经提出了一种方法来获得表示任何一对传感器的相对姿态的外在参数,这些传感器涉及相同或不同模态的激光雷达、单目或立体相机。与现有工作不同,校准场景的简单性和所提出的目标提供的特性允许获得自动驾驶汽车所特有的大多数传感设置的准确结果。
此外,需要最少的用户干预。
此外,还引入了一个高级模拟套件,该套件可以处理性能评估中的传统不精确性,并提供准确的基本事实,从而能够可靠地评估外部校准方法。
实验结果表明,本文提出的算法明显优于现有方法。对真实数据进行的测试证实了在模拟环境中获得的准确性。然而,所提出的方法在某些方面还有改进的余地。目前,需要手动通过过滤器来简化杂乱场景中的目标分割步骤。引入自动化的目标隔离过程将消除对人工干预的需要。另一方面,由于目标和传感器之间的相对姿态对参考点提取的准确性有影响,因此开发一种引导方法可能会提高校准结果的质量,该方法可以在多姿态方法期间保证不同目标位置的足够可变性,现在由操作员选择。
其他一些互补的工作领域对未来仍然开放。异常值抑制方案对于丢弃在参考点提取过程中获得的伪样本可能是有用的。在这一点上,传感器噪声的精确建模可能是方便的,这也将使参数设置能够适应每个特定设备。此外,所提出的方法被设计为在部署感知系统之前确定一组固定的外部参数;然而,安装在可移动平台上的传感器装置,如自动驾驶汽车,在正常运行过程中可能会出现校准错误。使用所提出的方法需要能够尽早检测这些情况,并在必要时提示用户进行重新校准。
尽管前方还有路要走,但这项提案为在该领域工作的科学界解决一个共同问题提供了一种实用的方法,使自动驾驶和机器人解决方案更接近最终部署。
图12. 不同交通场景的样本(主视图和两个特写视图),其中激光雷达点已使用所提出的方法提取的外部参数集投影到图像上:窄角相机/16层激光雷达和16层激光雷达/16层激光DAR(a-d)、立体/Hi-Res 16层激光达雷达(e)和广角相机/32层激光雷达(f)。
参考文献链接
https://arxiv.org/pdf/2101.04431.pdf
Automatic Extrinsic Calibration Method for LiDAR and Camera Sensor Setups
标签:校准,相机,参考点,传感器,方法,激光雷达 From: https://www.cnblogs.com/wujianming-110117/p/18012730