注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路
如有侵犯,请联系作者下架
本文识别已同步上线至OCR识别网站: http://yxlocr.nat300.top/ocr/other/14
在之前腾讯混云刚更新时,我们使用clip基本上可以应付,但是部分验证码,涉及到比较明确的语义题目,该题目数据集如下:
从动物的数量、种类、颜色、奔跑跳跃的状态来判断合适的动物图片,其实有聪明的读者已经想到了,这种题目利用GPT去回答也是可以的,确实,但如果想实现自己的模型呢,这个时候你可能去找一些多模态模型相关的文章去阅读,你也有可能还是利用yolo去检测识别,这两种方法都可以,两个方法的准确度都很高,区别就是第一种成本高时间高,而第二种相对不那么耗时耗力,所以,这里还是采用第二种方法去做,两种方法都需要随着验证码动物种类的更新而更新,这是勿用质疑的,因为你的数据量肯定覆盖不到所有的动物种类,如果能覆盖,那也需要调用大量混元AI文生图的接口能力,想必又是一件耗时耗力的事情,先看一下我用yolo实现的效果。
使用yolo标注还是按照正常的图标去标注即可,当然,你不止需要标注动物的种类,你还要顺带记录动物的颜色、状态,无非是一个类型扩增到几种类型而已,当然这里标注,也有个取巧的办法,使用GroundingDINO去辅助标注,该模型之前我有讲过,这就是一个多模态的模型,只不过同样,他也不会记录动物的颜色状态,在辅助标注的情况下,仍然需要你修改部分标注,不过对比之前,肯定是剩下了很多时间的,用该模型辅助标注,只需要通过xanylabelimg,点击如下AI图标
随后在上方下拉框中选择GroundingDINO既可
加载完模型后,给出关键词,例如dog.cat.horse.bird
然后再点击AI图标下的开始按钮,即可一键辅助标注所有图片
剩下的错误的动物种类自行修改即可