mPLUG-Owl3环境搭建&推理测试

时间：2024-08-26 09:17:45浏览次数：15

标签：Owl mPLUG gradio Owl3 import model 搭建

引子

多模态的大模型也写了很多篇，阿里系的之前有一篇Qwen-VL的相关部署，感兴趣的童鞋请移步（Qwen-VL环境搭建&推理测试-CSDN博客）。今天这个mPLUG-Qwl3，更新换代也很快，这都第三代，据说，这个专门用来理解多图、长视频，OK，让我们开始吧。

一、模型介绍

论文作者来自阿里mPLUG团队，他们一直深耕多模态大模型底座，在此之前还提出了：（1）高效多模态底座mPLUG系列（2）模块化多模态大语言模型底座mPLUG-Owl系列（3）文档理解底座mPLUG-DocOwl系列等。mPLUG-Owl3模型的主体结构由视觉编码器SigLIP-400M、语言模型Qwen2和线性连接层组成。视觉编码器提取图像特征后，经线性层映射到与语言模型相同的维度。作者在文本序列中使用了作为图像标记位，并通过self-attention和cross-attention并行建模的方式将视觉特征融合到文本特征中。与Flamingo、EVLM等工作在语言模型的每一层插入cross-attention层的做法不同，mPLUG-Owl3仅将网络的少数层拓展为提出的Hyper Attention Transformer Block (HATB)，从而避免了增加大量参数和计算。

二、环境搭建

模型下载

https://huggingface.co/mPLUG/mPLUG-Owl3-7B-240728/tree/main

代码下载

git clone GitHub - X-PLUG/mPLUG-Owl: mPLUG-Owl: The Powerful Multi-modal Large Language Model Family

环境安装

docker run -it -v /datas/work/zzq/:/workspace --gpus=all pytorch/pytorch:2.4.0-cuda12.4-cudnn9-devel bash

cd /workspace/mPLUG-Owl3/mPLUG-Owl-main/mPLUG-Owl3

pip install -r requirements.txt -i Simple Index

gradio生成公用链接：

（1）先按照提示，下载frpc_linux_amd64文件，https://cdn-media.huggingface.co/frpc-gradio-0.2/frpc_linux_amd64

（2）重命名为frpc_linux_amd64_v0.2，并放入gradio(/opt/conda/lib/python3.11/site-packages/gradio)这个文件夹中（按你对应的，每个人的路径可能不一样）

（3）给gradio下的frpc_linux_amd64_v0.2文件增加权限 chmod +x /opt/conda/lib/python3.10/site-packages/gradio/frpc_linux_amd64_v0.2

三、推理测试

1、gradio demo

修改代码

python gradio_demo.py

2、Quick start

import torch
from transformers import AutoModel
from configuration_mplugowl3 import mPLUGOwl3Config
from modeling_mplugowl3 import mPLUGOwl3Model
model_path = '/workspace/mPLUG-Owl3/mPLUG-Owl-main/mPLUG-Owl3/models'
config = mPLUGOwl3Config.from_pretrained(model_path)
# print(config)
# model = mPLUGOwl3Model(config).cuda().half()
model = mPLUGOwl3Model.from_pretrained(model_path, attn_implementation='sdpa', torch_dtype=torch.half)
model.eval().cuda()

from PIL import Image

from transformers import AutoTokenizer, AutoProcessor
from decord import VideoReader, cpu    # pip install decord
model_path = '/workspace/mPLUG-Owl3/mPLUG-Owl-main/mPLUG-Owl3/models'
tokenizer = AutoTokenizer.from_pretrained(model_path)
processor = model.init_processor(tokenizer)

# image = Image.new('RGB', (500, 500), color='red')
image = Image.open('images/cars.jpg')

messages = [
    {"role": "user", "content": """<|image|>
Describe this image."""},
    {"role": "assistant", "content": ""}
]
img_set = []
img_set.append(image)
inputs = processor(messages, images=img_set, videos=None)

inputs.to('cuda')
inputs.update({
    'tokenizer': tokenizer,
    'max_new_tokens':100,
    'decode_text':True,
})


g = model.generate(**inputs)
print(g)

python test,py

标签：Owl,mPLUG,gradio,Owl3,import,model,搭建
From： https://www.cnblogs.com/nick-algorithmer/p/18380002

第8篇 vue开发环境搭建
window系统上部署vue的开发环境1.安装nodejs1.1下载并安装node.js在浏览器中打开nodejs官网https://nodejs.org/zh-cn/，选择需要的版本直接点击即可下载，可以选择长期支持的版本【自由选择】然后就是一系列的“下一步”2.检查nodejs是否安装成功打开cmd，输入命令n......
Qt+OpenCascade开发笔记（二）：Qt引入occ库，搭建工程模板发布Demo
前言 OpenCASCADE是由OpenCascadeSAS公司开发和支持的开源软件开发平台，旨在为特定领域快速开发程序而设计。它是一个面向对象的C++类库，提供了丰富的几何造型、数据交换和可视化等功能，成为许多CAD软件的核心组件。本篇描述搭建Qt开发occ环境过程。Demo 注意......
2024年云南省职业院校技能大赛中职组“网络搭建与应用”赛项竞赛样卷
2024年云南省职业院校技能大赛中职组“网络搭建与应用”赛项竞赛样卷文章目录2024年云南省职业院校技能大赛中职组“网络搭建与应用”赛项竞赛样卷第一部分：网络理论测试（100分）第二部分：网络建设与调试（400分）第三部分：服务搭建与运维（500分）竞赛说明一、竞赛内容分布......
ZBlog搭建的网站有的时候会提示【JavaScript加载失败】
经常会有朋友反映，自己通过ZBlog搭建的网站偶尔会出现【JavaScript加载失败】这样的提示。那么，当遭遇此种状况时究竟应当如何应对呢？首先，您需要仔细检查自己所使用的浏览器版本是否太过陈旧（例如像IE6/7/8之类的旧版本），或者是否因为所使用的插件出现错误从而损坏了系统的JS文......
YOLOv8超详细环境搭建以及模型训练（GPU版本）
目录1.安装CUDA和cuDNN1.1安装CUDA1.1.1查看当前你的电脑显卡支持的最高CUDA版本，后面的安装不能超过它1.1.2下载CUDA（官网或者百度网盘）1.1.3安装CUDA11.81.2配置cuDNN1.2.1下载cuDNN（官网或者百度网盘）1.2.2配置cuDNN2.安装Anaconda2.1下载Anaconda2.2安装Anacon......
2024玩儿转TikTok之环境介绍及独立使用住宅ip搭建，最便宜的网络，20元/月,刚刚更新最新教
郑重申明：本文章只对合法合理做tiktok视频运营的用户做学习交流使用，有其他使用不当的违规违法行为后果自负！网络的环境测试，必须是独立住宅ip，网络环境优良，tiktok发布作品才能有流量1、选择服务器我选择的服务器：https://ipraft.com/?i71b7cf然后下载FinalShell连接......
使用Cloudflare Worker搭建自己的AI绘画工具
demo:https://aidraw.foxhank.top0.前言Cloudflare公司推出了workers-ai，可以免费在Cloudflare的全球网络上运行由无服务器GPU提供支持的机器学习模型。WorkersAI可以Cloudflare网络上使用自己的代码运行机器学习模型，也就是说，只要写一个js代码，就可以免费调用cloudfl......
向量数据库Faiss的搭建与使用
Faiss（FacebookAISimilaritySearch）是一个高效的向量相似性搜索库，专为高维向量数据的搜索和聚类设计。以下是如何搭建和使用Faiss的详细步骤。1.环境准备安装依赖首先，确保你的开发环境满足Faiss的要求。Faiss支持Python，假设你要使用Python版本。安装Anaconda或Miniconda（......
怎么实现用frp搭建一个自己的内网穿透服务
使用frp搭建一个自己的内网穿透服务包括以下几个步骤：配置frp服务器（服务端）和frp客户端。Frp是什么：frp（FastReverseProxy）是一款高性能的反向代理应用，广泛用于内网穿透、跨网络访问等场景。以下是frp的一些常见应用场景：1.内网服务的外网访问frp可以将内网中的Web......
博客站搭建需求设计书
前言该文章适合的读者需要自己创作博客网站，并参考他人个人博客网站的需求设计，该文章结尾处有优秀案例收集1.项目概述1.1项目背景创建个人博客网站的动机和目的个人技术能力展示，用于个人的技术文章，技术思维图，产品架构图，个人思维感悟，有趣生活展示，类似于独特的社交名片。1.2......

mPLUG-Owl3环境搭建&推理测试

相关文章

赞助商

阅读排行