Open-GroundingDino和GroundingDino的推理流程实现

时间：2024-04-07 23:31:31浏览次数：21

标签：bert Open py GroundingDino 文本推理 GroundingDINO

1、简单介绍

GroundingDino是一个多模态检测模型，可以输入文本提示输出视觉目标的位置，实现了文本和图像的匹配。相比较于一众的OVD算法，GroundingDino在文本处理上的灵活度高，因为大多OVD算法是采用clip文本编码器，这个编码器对文本的处理有限，只能是某些单词，一些特殊的名称在clip的预训练模型中没有对应的文本向量。而GroundingDino及部分采用 bert 的模型，可以处理单词、短语和句子等文本，在数据集迁移上更加友好。

在这里插入图片描述
Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection，这是GroundingDino的论文标题，大概意思是把DINO和文本预训练模型结合用于开集目标检测。

在这里插入图片描述

官方的GroundingDino只开源了推理的代码，没有给出训练代码，数据集格式也未知，而Open-GroundingDino是作为GroundingDino的第三方实现训练的开源代码，所以关注GroundingDino的工作是否适合迁移到个人数据集中。
GroundingDino的论文地址：https://arxiv.org/pdf/2303.05499.pdf
GroundingDino的Github网址：https://github.com/IDEA-Research/GroundingDINO
Open-GroundingDino的Github网址：https://github.com/longzw1997/Open-GroundingDino

文本提示的预测功能：

在这里插入图片描述

2、推理实现

我是首先想跑通Open-GroundingDino，因为Open-GroundingDino给出了训练代码，同时给出了数据集格式，如果可以跑通非常适合进行迁移。于是我安装了相关环境进行测试。

基本的环境安装跟着requirements.txt走基本上就够了，后面是编译 GroundingDino，给出的操作方法是：

pip install -r requirements.txt 

cd models/GroundingDINO/ops

python setup.py build install

python test.py

cd ../../..

跑 test.py 我的也正常执行完了

在这里插入图片描述
但是后面准备跑推理代码的时候：

python tools/inference_on_a_image.py \
  -c tools/GroundingDINO_SwinT_OGC.py \
  -p path/to/your/ckpt.pth \
  -i ./figs/dog.jpeg \
  -t "dog" \
  -o output

结果报错了，说找不到 grounddino这个模块，我看代码目录里有这个文件夹，以为只要修改进行引用就行，结果修改后仍然不行。后面是卡在了模型加载的地方：

load_res = model.load_state_dict()

出现报错：

AttributeError：tuple object has no attribute load_state_dict

显然模型加载出现了问题，而且很不好解决。

于是我想到 Open-GroundingDino的推理代码应该和 GroundingDino应该差不多，因为Open-GroundingDino是一个第三方实现，是基于原版来匹配的。于是我尝试跑GroundingDino的推理代码。

我把代码下载之后，按照要求进行操作：

git clone https://github.com/IDEA-Research/GroundingDINO.git

cd GroundingDINO/

pip install -e .

mkdir weights
cd weights
wget -q https://github.com/IDEA-Research/GroundingDINO/releases/download/v0.1.0-alpha/groundingdino_swint_ogc.pth
cd ..

操作之后环境里编译生成了一个groundingdino库，显然这个才是正确的要调的库。我随后开始测试，执行命令：

CUDA_VISIBLE_DEVICES={GPU ID} python demo/inference_on_a_image.py \
-c groundingdino/config/GroundingDINO_SwinT_OGC.py \
-p weights/groundingdino_swint_ogc.pth \
-i image_you_want_to_detect.jpg \
-o "dir you want to save the output" \
-t "chair"
 [--cpu-only] # open it for cpu mode

结果，却没结果。代码正常跑完了，但是打开保存的预测结果，发现还是原图，并没有加上预测的框。我想肯定是输入的文本提示有问题，导致无法解析要检测的类别。

其实，在执行命令之前，我已经在 GroundingDINO_SwinT_OGC.py 把 text_encoder_type = "bert-base-uncased"改成 text_encoder_type = "./local/xx/bert-base-uncased" ,因为之前跑过类似的，我就把本地bert文本编码的模型路径加进去了，所以推理代码可以正常执行完毕，但是却没有输出结果。

我不太熟悉 GroundingDINO需要加载bert的文件位置，所以我之间搜索 bert-base-uncased 和 text_encoder_type 找出如下位置处代码：
在这里插入图片描述

我分别把里面的两个 text_encoder_type 换成 本地的bert-base-cased 的路径，再进行测试，进入结果文件夹，打开图片查看，发现上面就画了提示的目标，如下图所示。

在这里插入图片描述
如上就完成了 Open-GroundingDino和GroundingDino的推理流程实现

相关问题解决也可以具体看官方GitHub：https://github.com/IDEA-Research/GroundingDINO/issues/218
在这里插入图片描述

标签：bert,Open,py,GroundingDino,文本,推理,GroundingDINO
From： https://blog.csdn.net/qq_44442727/article/details/137478238

第四个OpenGL程序，vector 向量（矩阵变换之旋转，缩放）后续绘制多个图形
效果：代码main.cpp#include<iostream>#include<glad/glad.h>#include<glfw3.h>#include"Shader.h"#defineSTB_IMAGE_IMPLEMENTATION#include<stb_image.h>#include<glm/glm.hpp>#include<glm/gtc/matrix_transfo......
基于So-VITS-SVC4.1声音克隆几种不同的推理方法
之前一直没时间整理，现在抽了点时间整理一下这个声音克隆的几种非webui的启动方式。文章目录命令行方式API调用方式命令行方式这里需要在inference_main.py中将参数都修改成在页面点击操作时候对应的即可。defmain():importargparseparser=argpars......
VS2019+open CV4.5.5的配置
1.去openCV的官网下载对应版本：OpenCV-OpenComputerVisionLibrary2.右击此电脑--属性--高级系统设置--环境变量--点击变量Path的右边进行新建分别输入：D:\opencv\opencv\build\x64\vc15\binD:\opencv\opencv\build\x64\vc14\bin%OPENCV_DIR%\bin3.打开op......
Vscode+gcc-arm+openocd搭建STM32开发环境
1简介尝试使用Vscode搭建STM32开发环境，自己记录一下详细的配置过程2工具下载设计到的相关软件以及资源包括Vscode软件、STM32CubeMX、mingw64以及openocd，相应的软件介绍以及下载链接如下：Vscode软件：宇宙第一编辑器，开源，插件丰富CubeMx:初始化代码生产器，HAL库mingw64:因......
opencv基础操作：读取图片时使用灰度方式、转换颜色空间、使用opencv展示图片、使用open
包含的操作有：读取图片时使用灰度方式转换颜色空间使用opencv展示图片使用opencv对BGR通道进行划分并展示，需要注意的是直接使用cv2.split（）得到的B，G，R分别是单通道的，因此最终展示出来为灰度图像。如果想保留彩色图像，可以直接对img切片来实现。使用opencv在一个窗口......
Opencv实现边界填充、两个图片像素直接相加后超过255的处理方式（阈值处理方式），一个窗口
opencv两个图片直接相加，会直接相加，如果超过255，会取模。 print((img_cat+img_cat2)[:5,:,0])#0-255若相加越界后294用294%256获得余数38可以使用这种方式查看。展示的是前5行，所有列的第一个通道的值。还有一种方法是cv2.add()，这个方法会直接将超过255的值设置为25......
openGauss学习笔记-257 openGauss性能调优-使用Plan Hint进行调优-Custom Plan和Gener
文章目录openGauss学习笔记-257openGauss性能调优-使用PlanHint进行调优-CustomPlan和GenericPlan选择的Hint257.1功能描述257.2语法格式257.3示例openGauss学习笔记-257openGauss性能调优-使用PlanHint进行调优-CustomPlan和GenericPlan选择的Hint257.......
open CV识别矩形
要使用OpenCV库在一幅灰度图像中识别所有的矩形，你可以采取以下步骤：加载图像并将其转换为灰度图像。使用边缘检测算法（如Canny边缘检测）检测图像中的边缘。使用轮廓检测函数（cv2.findContours()）找到所有的轮廓。对每个检测到的轮廓进行逼近以获得矩形。过滤掉太小或太大的矩形。绘......
OpenStack离线安装系列0：制作yum源
OpenStack离线安装系列0：制作yum源如果采用离线源代码安装，则通常需要配置本地pip源；如果采用离线软件安装包的形式安装，则通常需要配置本地yum源。环境说明系统：Centos7版本：CentOS-7-x86_64-Minimal-1908ISO下载链接：http://mirrors.aliyun.com/centos/7/isos/x86_64/CentOS-......
OpenCV4.9处理平滑图像
返回：OpenCV系列文章目录（持续更新中......）上一篇：使用OpenCV4.9的随机生成器和文本下一篇：OpenCV系列文章目录（持续更新中......）目标在本教程中，您将学习如何使用OpenCV函数将不同的线性滤波器应用于平滑图像，例如：blur()GaussianBlur()medianBlur()bilateralFilter()相关理......

Open-GroundingDino和GroundingDino的推理流程实现

1、简单介绍

2、推理实现

相关文章

赞助商

阅读排行