这两天大佬团队开源了基于千问大模型OCR项目的视频多次被刷到,各博主对其识别能力也是给予充分的肯定, 作为CV工程师的小编平时工作中OCR的需求也是络绎不绝,如果真如各博主所说是跨时代的产品,那必须也要盘它一盘;
下面咱们还是借助魔塔平台的算力来部署一下这个模型,话不多说,说干就干!
一、 模型介绍
GOT是一个端到端的模型结构,模型由编码器和解码器组成,模型训练分成三个阶段进行;第一阶段,模型的Encoder 主体采用带 local attention的 VITDet 架构,使用小型 OPT-125M 作为 decoder对其喂入大量的数据进行一阶段训练;第二阶段将decoder部分替换为Qwen0.5B,增加多种类的数据进行进一步的训练;第三阶段锁住Encoder部分,对decoder部分进行进一步的训练,最后得到此模型;
-
输入多样性:处理包括文本、公式、表格、图表、乐谱和几何形状在内的各种光学信号;
-
输出灵活性:能够生成纯文本或格式化结果;支持 html 输出以及可读性强、可编辑的 formatted 文本输出,如 markdown 等;
更具体的模型架构思路推荐这篇博文;
二、 模型本地部署
部署流程还是相对比较简单的,官方也给出了详细的步骤,这里还是老样子,使用魔塔平台算力进行项目部署;可以直接在魔塔上的base环境进行搭建,也可以使用anaconda创建虚拟环境,我更偏向anaconda,所以需要在魔塔上安装一个miniconda,安装步骤可以到之前的这篇博文查看,这里就不再赘述了;
2.1 环境搭建
安装好miniconda之后,按照官网步骤依次执行下面代码,需要注意的是在‘pip install -e .’的时候可能会报错,不要惊慌,能安装多少是多少,在下面运行代码的时候,报缺少哪个库再具体安装就好;
# 克隆项目源码并进入对应位置
git clone https://github.com/Ucas-HaoranWei/GOT-OCR2.0.git
cd GOT-OCR2.0/GOT-OCR-2.0-master
# 创建虚拟环境并激活
conda create -n got python=3.10 -y
conda activate got
# 安装项目所需依赖环境
pip install -e .
2.2 下载模型权重
由于网络原因Huggingface无法获取, 我们可以到modelscope上获取相应的预训练模型,这里我直接贴出模型的地址;
# 创建存放权重的文件夹
mkdir weights
cd weights
# 克隆模型权重
git clone https://www.modelscope.cn/stepfun-ai/GOT-OCR2_0.git
2.3 运行模型,完善依赖环境
如果之前的依赖环境安装报错了,那么接下来在这里就可以进行缺失包的安装了,需要注意的是如果提示缺失torch,那么需要到pytorch官网选择CUDA相对应的版本进行下载;
# 将测试代码复制到与GOT文件夹同一级目录下
cp GOT/demo/run_ocr_2.0.py ./
# 运行
python3 run_ocr_2.0.py --model-name weights/GOT-OCR2_0 --image-file file.png --type ocr
三、识别测试
3.1 手写字体识别
测试图片:
测试结果:
标签:git,模型,OCR2.0,GOT,OCR,安装 From: https://blog.csdn.net/CITY_OF_MO_GY/article/details/142989860