关于立体视觉深度估计的一些问题

标签：python image-processing computer-vision stereo-3d

目前我正在尝试做一些深度估计方面的工作。以下是我的代码

import cv2
import numpy as np
import math

left_camera_matrix = np.array([
    [379.631915328262,  -0.102220945295059, 315.958769543110],
    [  0,              379.732222668215,    203.885845031288],
    [  0,                0,                   1]
])
left_distortion = np.array([-0.417587221276122, 0.197712476970145, 0.000411591628002515, 0.000387147224501379, 0])

right_camera_matrix = np.array([
    [381.634497453356,  -0.288819419456584, 317.646637211302],
    [  0,              381.808417017535,    201.083906323572],
    [  0,                0,                   1]
])

right_distortion = np.array([-0.411726209080630, 0.177029424249621, -9.24380995973130e-05, -0.000341428776614118, 0])

R = np.array([
    [ 0.999991875121332,     0.000530694118664997, -0.00399600488918945],
    [-0.000511655123048737,  0.999988521078969,     0.00476402343943493],
    [0.00399848725858538,  - 0.00476194015594924,   0.999980667825931]
])  # 使用Rodrigues变换将om变换为R

T = np.array([
    [-80.0808305021553],
    [  0.104412532264216],
    [ -0.0774106064433224]
]) # 平移关系向量

size = (640, 400) # 图像尺寸
# 进行立体更正
(R1, R2, P1, P2, Q, validPixROI1, validPixROI2) = \
    cv2.stereoRectify(
        left_camera_matrix, left_distortion, right_camera_matrix, right_distortion, size, R, T)

# 计算更正map
left_map1, left_map2 = cv2.initUndistortRectifyMap(left_camera_matrix, left_distortion, R1, P1, size, cv2.CV_16SC2)
right_map1, right_map2 = cv2.initUndistortRectifyMap(right_camera_matrix, right_distortion, R2, P2, size, cv2.CV_16SC2)

def callbackFunc(e, x, y, f, p):
    if e == cv2.EVENT_LBUTTONDOWN:
        print(threeD[y][x])

def onm ouse_pick_points(event, x, y, flags, param):
    if event == cv2.EVENT_LBUTTONDOWN:
        threeD = param
        print('\n像素坐标 x = %d, y = %d' % (x, y))
        # print("世界坐标是：", threeD[y][x][0], threeD[y][x][1], threeD[y][x][2], "mm")
        print("世界坐标xyz 是：", threeD[y][x][0] / 1000.0, threeD[y][x][1] / 1000.0, threeD[y][x][2] / 1000.0, "m")
        distance = math.sqrt(threeD[y][x][0] ** 2 + threeD[y][x][1] ** 2 + threeD[y][x][2] ** 2)
        distance = distance / 1000.0  # mm -> m
        print("距离是：", distance, "m")

cap = cv2.VideoCapture(0)
(ret,frame) = cap.read()
img_channels = 3
stereo = cv2.StereoSGBM_create()

while ret:
    (ret, frame) = cap.read()
    left_frame = cv2.imread('./left.png')
    right_frame = cv2.imread('./right.png')

    img1_rectified = cv2.remap(left_frame, left_map1, left_map2, cv2.INTER_LINEAR)
    img2_rectified = cv2.remap(right_frame, right_map1, right_map2, cv2.INTER_LINEAR)

    imgL = cv2.cvtColor(img1_rectified, cv2.COLOR_BGR2GRAY)
    imgR = cv2.cvtColor(img2_rectified, cv2.COLOR_BGR2GRAY)


    blockSize=10
    stereo.setMinDisparity(0)
    stereo.setNumDisparities(6*16)
    stereo.setBlockSize(10)
    stereo.setDisp12MaxDiff(1)
    stereo.setPreFilterCap(0)
    stereo.setUniquenessRatio(0)
    stereo.setSpeckleRange(0)
    stereo.setSpeckleWindowSize(0)
    stereo.setP1(8 * 3 * blockSize**2)
    stereo.setP2(32 * 3 * blockSize**2)
    stereo.setMode(cv2.STEREO_SGBM_MODE_SGBM_3WAY)

    left_disparity = stereo.compute(imgL,imgR)

    disp = cv2.normalize(left_disparity,dst=None, alpha=0, beta=255, norm_type=cv2.NORM_MINMAX, dtype=cv2.CV_8U)
    threeD = cv2.reprojectImageTo3D(left_disparity, Q, handleMissingValues=True)

    threeD = threeD * 16
    cv2.imshow("show",disp)
    cv2.setMouseCallback("show", onm ouse_pick_points, threeD)
    if cv2.waitKey(1)&0xff==ord('q'):
        break
cv2.destroyAllWindows()
cap.release()

问题是，当我想通过视差图了解靠近相机的物体时，它无法工作，地图变得一团糟。 [1]： https://i.sstatic.net/JZHFK.png 但是当物体远离相机时，变得好一些，但仍然不理想 [2]: https://i.sstatic.net/FnlAK.png 我已经调整了参数，但仍然无法得到理想的地图。

这是左图[ 3]： https://i.sstatic.net/ZsaPx.png 和右框[4]： https://i.sstatic.net/4Ruq6.png

的代码和问题描述都很好，我理解在使用双目立体视觉进行深度估计时遇到的问题：近处物体深度估计不佳，即使是远处物体效果也不够理想。

我分析了的代码和提供的图片，总结出以下几点可能导致问题的原因和相应的改进建议：

1. 相机标定误差:

标定误差是影响深度估计精度的重要因素。的代码使用了固定的相机内参和外参矩阵，需要确认这些参数是否准确。
建议: 重新进行相机标定，确保获得高精度的相机内参和外参矩阵。可以使用 OpenCV 的标定工具或者 Matlab 的相机标定工具箱。

2. 立体校正问题:

立体校正的目的是使两幅图像的极线位于同一水平线上，这是进行稠密匹配的前提条件。校正效果不佳会导致匹配误差增大，进而影响深度估计精度。
建议: 检查立体校正的效果。可以使用 OpenCV 的 stereoCalibrate() 函数进行标定，并使用 rectifyImage() 函数进行校正。可以通过观察校正后的图像是否满足极线约束来判断校正效果。

3. SGBM 参数设置:

StereoSGBM 算法的各项参数对深度估计效果有很大影响。提供的参数设置可能不是最佳的，尤其是在处理近处物体时。
建议:
- 尝试减小 blockSize 参数，可以提高近处物体的细节表现，但可能会增加噪声。
- 尝试增加 numDisparities 参数，可以扩大深度估计范围，但会增加计算量。
- 调整 P1 和 P2 参数，可以控制视差图的平滑程度。
- 可以参考 OpenCV 官方文档中对 StereoSGBM 参数的解释，进行更细致的调整。
- 使用 StereoSGBM 的 mode 参数，尝试不同的匹配模式，例如 MODE_HH 可能会得到更好的效果。

4. 遮挡和弱纹理区域:

双目立体视觉算法在处理遮挡和弱纹理区域时会遇到困难，容易出现误匹配。
建议:
- 可以尝试使用其他深度估计方法，例如基于深度学习的方法，来处理这些区域。
- 可以使用一些后处理方法，例如左右一致性检查，来剔除误匹配。

5. 代码实现:

的代码中使用 reprojectImageTo3D() 函数将视差图转换为点云，需要检查该函数的输入参数是否正确。
建议: 打印出 reprojectImageTo3D() 函数的输入参数，确保其类型和值正确。

一些额外的建议:

为了更好地分析问题，建议分别显示左视图、右视图、校正后的左视图、校正后的右视图以及视差图。
可以尝试使用其他公开的双目立体视觉数据集，例如 Middlebury Stereo Datasets，来测试的代码和算法，并与其他方法进行比较。

希望以上建议能帮助解决问题，获得更好的深度估计结果! 如果还有其他问题，请随时提出。

标签：python,image-processing,computer-vision,stereo-3d
From： 73699694

关于立体视觉深度估计的一些问题

相关文章

赞助商

阅读排行