腾讯混元AI验证码动物类语义识别

时间：2024-12-03 17:04:51浏览次数：9

注意，本文只提供学习的思路，严禁违反法律以及破坏信息系统等行为，本文只提供思路
如有侵犯，请联系作者下架

本文识别已同步上线至OCR识别网站： http://yxlocr.nat300.top/ocr/other/14

在之前腾讯混云刚更新时，我们使用clip基本上可以应付，但是部分验证码，涉及到比较明确的语义题目，该题目数据集如下：
在这里插入图片描述
从动物的数量、种类、颜色、奔跑跳跃的状态来判断合适的动物图片，其实有聪明的读者已经想到了，这种题目利用GPT去回答也是可以的，确实，但如果想实现自己的模型呢，这个时候你可能去找一些多模态模型相关的文章去阅读，你也有可能还是利用yolo去检测识别，这两种方法都可以，两个方法的准确度都很高，区别就是第一种成本高时间高，而第二种相对不那么耗时耗力，所以，这里还是采用第二种方法去做，两种方法都需要随着验证码动物种类的更新而更新，这是勿用质疑的，因为你的数据量肯定覆盖不到所有的动物种类，如果能覆盖，那也需要调用大量混元AI文生图的接口能力，想必又是一件耗时耗力的事情，先看一下我用yolo实现的效果。
在这里插入图片描述

使用yolo标注还是按照正常的图标去标注即可，当然，你不止需要标注动物的种类，你还要顺带记录动物的颜色、状态，无非是一个类型扩增到几种类型而已，当然这里标注，也有个取巧的办法，使用GroundingDINO去辅助标注，该模型之前我有讲过，这就是一个多模态的模型，只不过同样，他也不会记录动物的颜色状态，在辅助标注的情况下，仍然需要你修改部分标注，不过对比之前，肯定是剩下了很多时间的，用该模型辅助标注，只需要通过xanylabelimg，点击如下AI图标
在这里插入图片描述
随后在上方下拉框中选择GroundingDINO既可

加载完模型后，给出关键词，例如dog.cat.horse.bird

然后再点击AI图标下的开始按钮，即可一键辅助标注所有图片
在这里插入图片描述
剩下的错误的动物种类自行修改即可

标签：yolo,混元,AI,模型,动物类,动物,图标,标注
From： https://blog.csdn.net/qq_36551453/article/details/144218576

AI算法网关视频分析网关垃圾桶满溢检测助力构建环保卫生管理方案
随着城市化进程的加快，垃圾处理问题日益严峻。传统的垃圾桶管理方式往往依赖于定期巡检，效率低下且容易忽视临时的使用高峰。近年来，视频分析技术的进步使得智能垃圾桶管理成为可能。本文将探讨一种基于算法网关视频分析网关的垃圾桶满溢检测算法，以实现自动化和智能化管理。一、垃......
借助AI助手如何高效阅读源码
以前一直在阅读Spring的源码，深知要独立阅读并理解Spring的复杂代码是多么困难。当时，如果没有借助网络搜索的帮助，仅凭自己的时间和精力，根本无法完成对Spring源码的深入理解。今天，借助AI助手可以更加高效地了解llamaindex中关于workflow的工作原理。我之前已经编写过一个简单的llama......
免费AI文本生成图像：探索Bylo.ai的高效创意工具
作为一款先进的AI图像生成器，Bylo.ai让用户只需几次点击即可将文字转化为高质量图像，过程高效且完全免费。该工具支持多种模型（如FluxAI图像生成器）和多种自定义设置，用户可以自由调整图像的风格、尺寸以及数量，满足个性化需求。核心功能：免费在线使用：无需下载安装，直接通过浏览器即......
Python 奇怪的设定：为什么没有 main 函数？
大家好！上次我们简单聊了Python为什么没有main函数，今天我们来更详细地探讨一下，并用代码进行佐证，帮助大家彻底理解Python的代码执行机制！1.Python代码如何执行？Python是一种解释型语言，这意味着代码不需要编译成机器码，而是由Python解释器逐行读取并执行。2. `__na......
转载：【AI系统】昇思MindSpore并行
本文将会介绍昇思MindSpore的并行训练技术，以及如何通过张量重排布和自动微分简化并行策略搜索，实现高效大模型训练。大模型的带来随着深度学习的发展，为了实现更高的准确率和更丰富的应用场景，训练数据集和神经网络模型的规模日益增大。特别是自然语言处理（NaturalLanguageProcess......
垃圾分类AI视觉识别系统
垃圾分类AI视觉识别系统通过高清摄像头实时捕捉垃圾投放点，垃圾分类AI视觉识别系统通过YOLOv7算法进行图像识别，识别出垃圾乱投、垃圾箱满溢、厨余垃圾误时投放等违规行为。这种智能分析算法不仅提高了识别的准确性，还能够实时监控垃圾投放点的状态，确保垃圾分类的规范性。一旦系统检......
Linux云服务器部署OpenAI应用服务项目笔记
前提条件：配置安全组端口配置，开放所需端口，安装好docker环境一、配置docker镜像源sudovim/etc/docker/daemon.json修改docker文件夹的daemon.json文件，添加以下内容{"registry-mirrors":["https://dockerproxy.cn","ht......
QWQ智能测试：阿里云开源AI模型推理能力测试
从玄离199最新的科技补全系列视频：【科技补全26】全球最大盗版视频网站被摧毁；Sora被泄露；网易怒喷腾讯抄袭；新型电脑病毒通过微信群传播；_哔哩哔哩_bilibili中了解到阿里云开源了具有推理能力的AI模型QWQ，为了测试它的推理能力，我们来找一些题目来测试一下他的推理能力。我们来......
启动应用程序出现UusFailover.dll找不到问题
其实很多用户玩单机游戏或者安装软件的时候就出现过这种问题，如果是新手第一时间会认为是软件或游戏出错了，其实并不是这样，其主要原因就是你电脑系统的该dll文件丢失了或没有安装一些系统软件平台所需要的动态链接库，这时你可以下载这个UusFailover.dll文件(挑选合适的版本文件)把......
如何用AI制作3D模型？
Meshy是一款3DAIGC工具，借助Meshy我们可以在一分钟内将文字和图片转化为高质量的3D模型。 Meshy的三种使用模式：文字生成3D、图像生成3D、文本生成贴图。本文将通过"Textto3D"来讲解如何用AI生成3D模型。在本指南中，我们演示了如何使用Meshy创建3D模型。这种创新工具可以将文本......

腾讯混元AI验证码动物类语义识别

相关文章

赞助商

阅读排行