Anole模型是由上海交通大学GAIR团队研发的全球首个完全开源、自回归、原生训练的多模态大模型,专门用于交错图文生成。
Anole模型无需依赖复杂的扩散模型或其他技术,即可实现文字与图像的无缝交织,提供了一种原生的多模态生成解决方案。
Anole使用了约6,000张图像进行微调,以最少的额外训练实现了出色的图像生成和理解能力。
Anole通过局部微调方法,仅调整了不到40M的参数,便激发了Chameleon模型的图像生成能力,展示了在大型多模态模型中恢复复杂功能的高效性。
Anole不仅支持文本生成图像和交错图文生成,还具备纯文本生成和多模态理解的能力,使其在多种应用场景中都能发挥作用。
github项目地址为:https://github.com/GAIR-NLP/anole。
一、环境安装
1、python环境
建议安装python版本在3.10以上。
2、pip库安装
pip install torch==2.0.0+cu118 torchvision==0.15.1+cu118 torchaudio==2.0.1 --index-url https://download.pytorch.org/whl/cu118
pip install python-dotenv -i https://pypi.tuna.tsinghua.edu.cn/simple
cd chameleon
pip install -e .
3、Anole-7b-v0.1模型下载
git lfs install
git clone https://huggingface.co/GAIR/Anole-7b-v0.1
二、功能测试
1、命令行运行测试
首先设置模型路径为:
export CKPT_PATH= anole-model/Anole-7b-v0.1
(1)文本生成图像测试
python text2image.py -i INSTRUCTION -b BATCH_SIZE -s SAVE_DIR
这个命令用于根据给定的指令生成图像,具体参数包括:
INSTRUCTION:指定用于图像生成的指令或描述。
BATCH_SIZE :设置要一次性生成的图像数量,默认值为10张。
SAVE_DIR:指定保存生成图像的目录路径。
(2)交错图文生成测试
python interleaved_generation.py -i INSTRUCTION -s SAVE_DIR
这个命令用于根据给定的指令生成交错图文,具体参数包括:
INSTRUCTION:指定用于交错图文生成的指令或描述。
SAVE_DIR:指定保存生成图像的目录路径。
2、测试结果
(1)文本生成图像结果
python text2image.py -i 'draw a parrot' -b 3 -s ./result
(2)交错图文生成结果
python interleaved_generation.py -i 'Please introduce the Paris of with pictures.' -s ./result
未完......
更多详细的内容欢迎关注:杰哥新技术
标签:原生,落地,python,模型,生成,图像,Anole,图文 From: https://blog.csdn.net/m0_71062934/article/details/140249346