首页 > 其他分享 >腾讯混元AI验证码动物类语义识别

腾讯混元AI验证码动物类语义识别

时间:2024-12-03 17:04:51浏览次数:9  
标签:yolo 混元 AI 模型 动物类 动物 图标 标注

注意,本文只提供学习的思路,严禁违反法律以及破坏信息系统等行为,本文只提供思路
如有侵犯,请联系作者下架

本文识别已同步上线至OCR识别网站: http://yxlocr.nat300.top/ocr/other/14

在之前腾讯混云刚更新时,我们使用clip基本上可以应付,但是部分验证码,涉及到比较明确的语义题目,该题目数据集如下:
在这里插入图片描述
从动物的数量、种类、颜色、奔跑跳跃的状态来判断合适的动物图片,其实有聪明的读者已经想到了,这种题目利用GPT去回答也是可以的,确实,但如果想实现自己的模型呢,这个时候你可能去找一些多模态模型相关的文章去阅读,你也有可能还是利用yolo去检测识别,这两种方法都可以,两个方法的准确度都很高,区别就是第一种成本高时间高,而第二种相对不那么耗时耗力,所以,这里还是采用第二种方法去做,两种方法都需要随着验证码动物种类的更新而更新,这是勿用质疑的,因为你的数据量肯定覆盖不到所有的动物种类,如果能覆盖,那也需要调用大量混元AI文生图的接口能力,想必又是一件耗时耗力的事情,先看一下我用yolo实现的效果。
在这里插入图片描述
在这里插入图片描述
使用yolo标注还是按照正常的图标去标注即可,当然,你不止需要标注动物的种类,你还要顺带记录动物的颜色、状态,无非是一个类型扩增到几种类型而已,当然这里标注,也有个取巧的办法,使用GroundingDINO去辅助标注,该模型之前我有讲过,这就是一个多模态的模型,只不过同样,他也不会记录动物的颜色状态,在辅助标注的情况下,仍然需要你修改部分标注,不过对比之前,肯定是剩下了很多时间的,用该模型辅助标注,只需要通过xanylabelimg,点击如下AI图标
在这里插入图片描述
随后在上方下拉框中选择GroundingDINO既可
在这里插入图片描述
加载完模型后,给出关键词,例如dog.cat.horse.bird
在这里插入图片描述

然后再点击AI图标下的开始按钮,即可一键辅助标注所有图片
在这里插入图片描述
剩下的错误的动物种类自行修改即可

标签:yolo,混元,AI,模型,动物类,动物,图标,标注
From: https://blog.csdn.net/qq_36551453/article/details/144218576

相关文章

  • AI算法网关视频分析网关垃圾桶满溢检测助力构建环保卫生管理方案
    随着城市化进程的加快,垃圾处理问题日益严峻。传统的垃圾桶管理方式往往依赖于定期巡检,效率低下且容易忽视临时的使用高峰。近年来,视频分析技术的进步使得智能垃圾桶管理成为可能。本文将探讨一种基于算法网关视频分析网关的垃圾桶满溢检测算法,以实现自动化和智能化管理。一、垃......
  • 借助AI助手如何高效阅读源码
    以前一直在阅读Spring的源码,深知要独立阅读并理解Spring的复杂代码是多么困难。当时,如果没有借助网络搜索的帮助,仅凭自己的时间和精力,根本无法完成对Spring源码的深入理解。今天,借助AI助手可以更加高效地了解llamaindex中关于workflow的工作原理。我之前已经编写过一个简单的llama......
  • 免费AI文本生成图像:探索Bylo.ai的高效创意工具
    作为一款先进的AI图像生成器,Bylo.ai让用户只需几次点击即可将文字转化为高质量图像,过程高效且完全免费。该工具支持多种模型(如FluxAI图像生成器)和多种自定义设置,用户可以自由调整图像的风格、尺寸以及数量,满足个性化需求。核心功能:免费在线使用:无需下载安装,直接通过浏览器即......
  • Python 奇怪的设定:为什么没有 main 函数?
    大家好!上次我们简单聊了Python为什么没有main函数,今天我们来更详细地探讨一下,并用代码进行佐证,帮助大家彻底理解Python的代码执行机制!1.Python代码如何执行?Python是一种解释型语言,这意味着代码不需要编译成机器码,而是由Python解释器逐行读取并执行。2. `__na......
  • 转载:【AI系统】昇思MindSpore并行
    本文将会介绍昇思MindSpore的并行训练技术,以及如何通过张量重排布和自动微分简化并行策略搜索,实现高效大模型训练。大模型的带来随着深度学习的发展,为了实现更高的准确率和更丰富的应用场景,训练数据集和神经网络模型的规模日益增大。特别是自然语言处理(NaturalLanguageProcess......
  • 垃圾分类AI视觉识别系统
    垃圾分类AI视觉识别系统通过高清摄像头实时捕捉垃圾投放点,垃圾分类AI视觉识别系统通过YOLOv7算法进行图像识别,识别出垃圾乱投、垃圾箱满溢、厨余垃圾误时投放等违规行为。这种智能分析算法不仅提高了识别的准确性,还能够实时监控垃圾投放点的状态,确保垃圾分类的规范性。一旦系统检......
  • Linux云服务器部署OpenAI应用服务项目笔记
    前提条件:配置安全组端口配置,开放所需端口,安装好docker环境一、配置docker镜像源sudovim/etc/docker/daemon.json修改docker文件夹的daemon.json文件,添加以下内容{"registry-mirrors":["https://dockerproxy.cn","ht......
  • QWQ智能测试:阿里云开源AI模型推理能力测试
    从玄离199最新的科技补全系列视频:【科技补全26】全球最大盗版视频网站被摧毁;Sora被泄露;网易怒喷腾讯抄袭;新型电脑病毒通过微信群传播;_哔哩哔哩_bilibili中了解到阿里云开源了具有推理能力的AI模型QWQ,为了测试它的推理能力,我们来找一些题目来测试一下他的推理能力。我们来......
  • 启动应用程序出现UusFailover.dll找不到问题
    其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题,如果是新手第一时间会认为是软件或游戏出错了,其实并不是这样,其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库,这时你可以下载这个UusFailover.dll文件(挑选合适的版本文件)把......
  • 如何用AI制作3D模型?
    Meshy是一款3DAIGC工具,借助Meshy我们可以在一分钟内将文字和图片转化为高质量的3D模型。 Meshy的三种使用模式:文字生成3D、图像生成3D、文本生成贴图。本文将通过"Textto3D"来讲解如何用AI生成3D模型。在本指南中,我们演示了如何使用Meshy创建3D模型。这种创新工具可以将文本......