Win本地运行PaliGemma

时间：2024-07-24 08:58:53浏览次数：15

标签：本地 Win token PaliGemma CUDA https 驱动显卡

PaliGemma 是 Google 开发的轻量级的具有多模态功能的视觉语言模型 (VLM)。

https://ai.google.dev/gemma/docs/paligemma?hl=zh-cn

它将图片和文本作为输入，可以回答有关图片的问题并提供详细信息和上下文。

这意味着 PaliGemma 可以对图片进行更深入的分析，并提供有用的数据洞见，例如：为图片和短视频添加说明、对象检测以及读取图片中嵌入的文字。

下面是环境搭建和演示代码：

环境搭建

涉及到显卡驱动、CUDA、Python环境、PyTorch这些。

显卡驱动

我这里的3060显卡，Nvidia官方驱动会报跟Win不兼容，查看硬件id，是一个官方驱动中没有的SUBSYS：

说明：SUBSYS 代表的是显卡的子系统供应商和特定配置（通常包括具体的显卡型号和制造商的定制信息）。如果这个ID在NVIDIA的官方列表中找不到，可能是因为该显卡是某个OEM（原始设备制造商）的特别版本，或者是一个非常新的产品，或者是所谓的山寨魔改版本。

最终我是用驱动总裁来完成显卡驱动更新的。

从显卡驱动的数字签名、驱动日期等信息判断我这个是个山寨魔改的3060显卡。

非官方下载的Nvidia驱动中也才有这个驱动，比如：
https://www.driverscloud.com/en/services/GetInformationDriver/76270-0/nvidia-56070-desktop-win10-win11-64bit-international-dch-whqlexe

CUDA

注意，最新版本的PyTorch需要的CUDA版本不是最新的，我们不能安装最新的CUDA。

https://pytorch.org/get-started/locally/

所以我们不能直接下载最新版本的CUDA：
https://developer.nvidia.com/cuda-downloads

而是下载之前版本的：
https://developer.nvidia.com/cuda-toolkit-archive
从上面链接找到12.1版本的CUDA下载。

下载，完成安装后，重启后，可以用下面命令查看

# 显示 CUDA 编译器驱动的版本信息
nvcc -V

默认情况下，CUDA 安装在 C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA 目录下。

开发环境搭建

Miniconda3 提供了一个最小化的安装器，只包含 Conda（一个包和环境管理器）和 Python。这种设置允许用户自己选择安装所需的额外库，从而节省空间并避免安装不必要的包。

下载地址：
https://docs.anaconda.com/miniconda/miniconda-install/

默认会安装在下面目录：

c:\ProgramData\miniconda3

注意要把这个对应的执行目录c:\ProgramData\miniconda3\condabin放入PATH环境变量中，方便使用。

安装完成后，就是搭建环境：

conda create -n pg python=3.12
conda activate  pg
conda install pip

PyTorch

按照CUDA版本和环境选择出现的安装命令安装。

https://pytorch.org/get-started/locally/


pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121

演示代码

导入依赖库

pip install transformers
pip install Pillow requests

transformers：用于加载和使用预训练的模型和处理器。
requests：用于从网络获取图像。
Pillow：用于图像处理。

下面演示了，结合图像和文本提示来生成相关的答案代码。


from transformers import AutoProcessor, PaliGemmaForConditionalGeneration,AutoConfig
import requests
from PIL import Image

access_token="your_huggingface_access_token" # 替换为你的访问令牌

model_id = "google/paligemma-3b-mix-224"

# 加载预训练的模型和相应的处理器
model = PaliGemmaForConditionalGeneration.from_pretrained(model_id,token=access_token)
processor = AutoProcessor.from_pretrained(model_id,token=access_token)

prompt = "What is on the flower?"
image_file = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg?download=true"
raw_image = Image.open(requests.get(image_file, stream=True).raw)
inputs = processor(prompt, raw_image, return_tensors="pt")

# max_new_tokens参数限制生成的最大新词数量。
output = model.generate(**inputs, max_new_tokens=20)

# skip_special_tokens=True参数用于在输出中去掉特殊令牌。
# [len(prompt):]这部分代码意在去除输出中与输入提示相同的部分，只显示模型生成的答案。
print(processor.decode(output[0], skip_special_tokens=True)[len(prompt):])
# bee

总结

从上面代码我们可以看出，PaliGemma不仅能够理解图像本身的视觉信息，还能结合相关的文本描述，提供更加丰富和精准的数据解读。

这种能力使其在各种应用场景中都显得非常有用，比如在自动化客服、智能教育、以及内容创作等领域。通过有效地结合视觉和语言信息，PaliGemma能够提供更为细致和深入的互动体验，极大地拓宽了人工智能在日常生活中的应用范围。

标签：本地,Win,token,PaliGemma,CUDA,https,驱动,显卡
From： https://www.cnblogs.com/ghj1976/p/18320023/win-ben-de-yun-xingpaligemma

WIN7X64SP1极限精简版by双心
WIN7X64SP1极限精简版by双心http://bbs.wuyou.net/forum.php?mod=viewthread&tid=405044&page=1&extra=#pid3534155http://www.cnblogs.com/liuzhaoyzz/p/7774511.htmlWIN7X64SP1极限精简版by双心下载地址1：https://cloud.189.cn/t/UvQF73QVbURz下载地址2：链接: https://pan.ba......
Django 5.0：配置本地开发和生产环境？
这个问题已经以各种形式被问过几次。然而，关于这个主题的大多数答案都有十年或更久的历史了。我的《TwoScoops》书是针对Django3.x的。我认为更新与Django5.0相关的答案和今天可用的托管选项可能会很有用。这是我回顾过的许多旧讨论之一：Django：如何管理开......
如果 Python 脚本正在使用文件夹，如何在文件资源管理器中进行更改时防止 Windows 的“
我有一个简单的脚本，显示在QTreeView中的QListView中选择的目录的内容，我想添加打开文件资源管理器的功能，以让用户编辑目录内的内容。但是，添加新的文件夹和文件可以，但删除或移动文件夹或文件会提示“文件夹正在使用”错误：此操作无法完成，因为该文件已在另一个程......
windows10安装过程，win7升级win10过程
教程是win7老系统升级win101、空的u盘和一台windown操作系统的电脑准备一个u盘，提前备份盘内数据，因为制作启动盘会将u盘格式化需要一台能联网的windows操作系统的电脑用于制作系统安装盘2、浏览器搜索“下载win10安装包”也可直接点击链接下载Windows10 3、下载之......
利用Swin-Unet(Swin Transformer Unet)实现对文档图片里表格结构的识别
项目：https://github.com/jiangnanboy/table_structure_recognition#利用Swin-Unet(SwinTransformerUnet)实现对文档图片里表格结构的识别##实现功能-[x]识别表格中的线条-[]结果转为excel##下载weights模型文件见github将模型文件放到model目录下##训练（te......
windows 系统下常用命令
根据进程名称查找进程PID>tasklist|findstrchrometasklist命令详解tasklist命令显示本地计算机或远程计算机上当前正在运行的进程列表。命令结合筛选器一起使用，可以按照我们的需求进行过滤，查找我们需要了解的进程信息。tasklist替换tlist.exe工具。findstr命令详......
【分享】WinRAR五大实用功能详解：让文件管理更高效
WinRAR作为一款功能强大的压缩和解压缩工具，拥有许多实用功能。今天来分享其中的5个功能，一起来看看这些功能如何设置吧！功能一：文件压缩文件压缩是WinRAR的基本功能，通过压缩文件可以减少存储空间和传输时间。1.选择要压缩的目标文件或文件夹，右键点击并选择【添加到压缩文件.........
Win11系统显示缺少mfc140.dll文件怎么解决？Win11计算机找不到mfc140.dll修复方法
在Win11计算机中，如果出现找不到mfc140.dll的情况，您无需过度担忧。这里为您提供有效的修复方法。您可以通过重新安装相关软件、更新系统、手动下载并注册该文件等方式来解决问题，让您的计算机恢复正常运行。本篇将为大家带来Win11计算机找不到mfc140.dll修复方法的内容，感兴趣的小......
Win11电脑显示msvcp80.dll缺失该如何应对？Win11系统找不到msvcp80.dll的解决之道
在Win11系统中，若遭遇msvcp80.dll不见的情况，无需惊慌。这一问题存在多种有效的解决之道。您可以通过系统的自动修复功能进行尝试，也能从可靠的网站下载该文件并正确安装。或者利用系统还原点，让系统恢复到正常状态。本篇将为大家带来Win11系统找不到msvcp80.dll的解决之道的内容，感......
React中引入使用本地图片
1、css样式中，可以写成如下：.login{ //映射路径background:url('@images/img-login.png')；background-size:100%100%;}.box{ //相对路径background:url('../assets/images/box.png')；background-size:100%100%;}2、在jsx文件中importLoginLogo1......