首页 > 其他分享 >Open-GroundingDino和GroundingDino的推理流程实现

Open-GroundingDino和GroundingDino的推理流程实现

时间:2024-04-07 23:31:31浏览次数:18  
标签:bert Open py GroundingDino 文本 推理 GroundingDINO

1、简单介绍

GroundingDino是一个多模态检测模型,可以输入文本提示输出视觉目标的位置,实现了文本和图像的匹配。相比较于一众的OVD算法,GroundingDino在文本处理上的灵活度高,因为大多OVD算法是采用clip文本编码器,这个编码器对文本的处理有限,只能是某些单词,一些特殊的名称在clip的预训练模型中没有对应的文本向量。而GroundingDino及部分采用 bert 的模型,可以处理单词、短语和句子等文本,在数据集迁移上更加友好。

在这里插入图片描述
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection,这是GroundingDino的论文标题,大概意思是 把DINO和文本预训练模型结合用于开集目标检测。

在这里插入图片描述

官方的GroundingDino只开源了推理的代码,没有给出训练代码,数据集格式也未知,而Open-GroundingDino是作为GroundingDino的第三方实现训练的开源代码,所以关注GroundingDino的工作是否适合迁移到个人数据集中。
GroundingDino的论文地址:https://arxiv.org/pdf/2303.05499.pdf
GroundingDino的Github网址:https://github.com/IDEA-Research/GroundingDINO
Open-GroundingDino的Github网址:https://github.com/longzw1997/Open-GroundingDino

文本提示的预测功能:

在这里插入图片描述

2、推理实现

我是首先想跑通Open-GroundingDino,因为Open-GroundingDino给出了训练代码,同时给出了数据集格式,如果可以跑通非常适合进行迁移。于是我安装了相关环境进行测试。

基本的环境安装跟着requirements.txt走基本上就够了,后面是编译 GroundingDino,给出的操作方法是:

pip install -r requirements.txt 

cd models/GroundingDINO/ops

python setup.py build install

python test.py

cd ../../..

跑 test.py 我的也正常执行完了

在这里插入图片描述
但是后面准备跑推理代码的时候:

python tools/inference_on_a_image.py \
  -c tools/GroundingDINO_SwinT_OGC.py \
  -p path/to/your/ckpt.pth \
  -i ./figs/dog.jpeg \
  -t "dog" \
  -o output

结果报错了,说找不到 grounddino这个模块,我看代码目录里有这个文件夹,以为只要修改进行引用就行,结果修改后仍然不行。后面是卡在了 模型加载的地方:

load_res = model.load_state_dict()

出现报错:

AttributeError:tuple object has no attribute load_state_dict

显然模型加载出现了问题,而且很不好解决。

于是我想到 Open-GroundingDino的推理代码应该和 GroundingDino应该差不多,因为Open-GroundingDino是一个第三方实现,是基于原版来匹配的。于是我尝试跑GroundingDino的推理代码。

我把代码下载之后,按照要求进行操作:

git clone https://github.com/IDEA-Research/GroundingDINO.git

cd GroundingDINO/

pip install -e .

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

操作之后环境里编译生成了一个groundingdino库,显然这个才是正确的要调的库。我随后开始测试,执行命令:

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py \
-c groundingdino/config/GroundingDINO_SwinT_OGC.py \
-p weights/groundingdino_swint_ogc.pth \
-i image_you_want_to_detect.jpg \
-o "dir you want to save the output" \
-t "chair"
 [--cpu-only] # open it for cpu mode

结果,却没结果。代码正常跑完了,但是打开保存的预测结果,发现还是原图,并没有加上预测的框。我想肯定是输入的文本提示有问题,导致无法解析要检测的类别。

其实,在执行命令之前,我已经在 GroundingDINO_SwinT_OGC.pytext_encoder_type = "bert-base-uncased"改成 text_encoder_type = "./local/xx/bert-base-uncased" ,因为之前跑过类似的,我就把本地bert文本编码的模型路径加进去了,所以推理代码可以正常执行完毕,但是却没有输出结果。

我不太熟悉 GroundingDINO需要加载bert的文件位置,所以我之间搜索 bert-base-uncasedtext_encoder_type 找出如下位置处代码 :
在这里插入图片描述

我分别把里面的两个 text_encoder_type 换成 本地的bert-base-cased 的路径,再进行测试,进入结果文件夹,打开图片查看,发现上面就画了提示的目标,如下图所示。

在这里插入图片描述
如上就完成了 Open-GroundingDino和GroundingDino的推理流程实现

相关问题解决也可以具体看官方GitHub:https://github.com/IDEA-Research/GroundingDINO/issues/218
在这里插入图片描述
在这里插入图片描述

标签:bert,Open,py,GroundingDino,文本,推理,GroundingDINO
From: https://blog.csdn.net/qq_44442727/article/details/137478238

相关文章

  • 第四个OpenGL程序,vector 向量 (矩阵变换之 旋转,缩放)后续 绘制多个 图形
    效果: 代码main.cpp#include<iostream>#include<glad/glad.h>#include<glfw3.h>#include"Shader.h"#defineSTB_IMAGE_IMPLEMENTATION#include<stb_image.h>#include<glm/glm.hpp>#include<glm/gtc/matrix_transfo......
  • 基于So-VITS-SVC4.1声音克隆几种不同的推理方法
    之前一直没时间整理,现在抽了点时间整理一下这个声音克隆的几种非webui的启动方式。文章目录命令行方式API调用方式命令行方式这里需要在inference_main.py中将参数都修改成在页面点击操作时候对应的即可。defmain():importargparseparser=argpars......
  • VS2019+open CV4.5.5的配置
    1.去openCV的官网下载对应版本:OpenCV-OpenComputerVisionLibrary2.右击此电脑--属性--高级系统设置--环境变量--点击变量Path的右边进行新建分别输入:D:\opencv\opencv\build\x64\vc15\binD:\opencv\opencv\build\x64\vc14\bin%OPENCV_DIR%\bin3.打开op......
  • Vscode+gcc-arm+openocd搭建STM32开发环境
    1简介尝试使用Vscode搭建STM32开发环境,自己记录一下详细的配置过程2工具下载设计到的相关软件以及资源包括Vscode软件、STM32CubeMX、mingw64以及openocd,相应的软件介绍以及下载链接如下:Vscode软件:宇宙第一编辑器,开源,插件丰富CubeMx:初始化代码生产器,HAL库mingw64:因......
  • opencv基础操作:读取图片时使用灰度方式、转换颜色空间、使用opencv展示图片、使用open
    包含的操作有:读取图片时使用灰度方式转换颜色空间使用opencv展示图片使用opencv对BGR通道进行划分并展示,需要注意的是直接使用cv2.split()得到的B,G,R分别是单通道的,因此最终展示出来为灰度图像。    如果想保留彩色图像,可以直接对img切片来实现。使用opencv在一个窗口......
  • Opencv实现边界填充、两个图片像素直接相加后超过255的处理方式(阈值处理方式),一个窗口
     opencv两个图片直接相加,会直接相加,如果超过255,会取模。 print((img_cat+img_cat2)[:5,:,0])#0-255若相加越界后294用294%256获得余数38可以使用这种方式查看。展示的是前5行,所有列的第一个通道的值。还有一种方法是cv2.add(),这个方法会直接将超过255的值设置为25......
  • openGauss学习笔记-257 openGauss性能调优-使用Plan Hint进行调优-Custom Plan和Gener
    文章目录openGauss学习笔记-257openGauss性能调优-使用PlanHint进行调优-CustomPlan和GenericPlan选择的Hint257.1功能描述257.2语法格式257.3示例openGauss学习笔记-257openGauss性能调优-使用PlanHint进行调优-CustomPlan和GenericPlan选择的Hint257.......
  • open CV识别矩形
    要使用OpenCV库在一幅灰度图像中识别所有的矩形,你可以采取以下步骤:加载图像并将其转换为灰度图像。使用边缘检测算法(如Canny边缘检测)检测图像中的边缘。使用轮廓检测函数(cv2.findContours())找到所有的轮廓。对每个检测到的轮廓进行逼近以获得矩形。过滤掉太小或太大的矩形。绘......
  • OpenStack离线安装系列0:制作yum源
    OpenStack离线安装系列0:制作yum源如果采用离线源代码安装,则通常需要配置本地pip源;如果采用离线软件安装包的形式安装,则通常需要配置本地yum源。环境说明系统:Centos7版本:CentOS-7-x86_64-Minimal-1908ISO下载链接:http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-......
  • OpenCV4.9处理平滑图像
    返回:OpenCV系列文章目录(持续更新中......)上一篇:使用OpenCV4.9的随机生成器和文本下一篇:OpenCV系列文章目录(持续更新中......)目标在本教程中,您将学习如何使用OpenCV函数将不同的线性滤波器应用于平滑图像,例如:blur()GaussianBlur()medianBlur()bilateralFilter()相关理......