提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
在这个信息爆炸的时代,人工智能技术正以前所未有的速度发展,尤其是在图像和视频处理领域。作为这一领域的探索者,我们有幸见证了一系列令人惊叹的技术创新。今天,我将带领大家走进一个全新的世界——MMagic,一个融合了多模态、生成式和智能创造的先进AIGC工具箱。
MMagic,全称Multimodal Advanced, Generative, and Intelligent Creation,是基于OpenMMLab 2.0框架开发的一款强大工具。它不仅继承了MMEditing和MMGeneration的优秀基因,还在图像与视频编辑生成领域开辟了新的天地。在这个系列博客中,我们将一起探索MMagic的无限可能,从基础应用到高级技巧,从理论研究到实际应用,全方位揭示这个工具箱的魅力。
一、MMagic介绍
MMagic(Multimodal Advanced, Generative, and Intelligent Creation)是一个面向专业人工智能研究人员和机器学习工程师的开源AIGC(人工智能生成内容)工具箱。它主要用于处理、编辑和生成图像与视频。MMagic提供了多种先进的预训练模型,并支持用户轻松训练和开发新的定制模型。MMagic支持的基础生成模型包括无条件生成对抗网络(GANs)、条件生成对抗网络(GANs)、内部学习、扩散模型等。此外,它还支持多种应用程序,如图文生成、图像翻译、3D生成、图像超分辨率、视频超分辨率、视频插帧、图像补全、图像抠图、图像修复、图像上色和图像生成等。
MMagic的特点包括:
提供处理、编辑、生成图像和视频的SOTA(最先进)算法。
支持流行的图像修复、图文生成、3D生成、图像修补、抠图、超分辨率和生成等任务的应用。
通过OpenMMLab 2.0框架的MMEngine和MMCV,实现了高效、模块化的编辑框架,用户可以像搭建乐高一样定义训练流程。
支持算法:
二、安装步骤
安装激活虚拟环境,python的版本大于等于3.8
conda create --name mmagic python=3.8 -y
conda activate mmagic
安装pytorch,torch的版本PyTorch 2.0+ ,直接下载比较慢,-i 添加阿里云镜像进行下载。
pip install torch==2.3.1 torchvision==0.18.1 torchaudio==2.3.1 --index-url https://download.pytorch.org/whl/cu118 -i https://mirrors.aliyun.com/pypi/simple
使用mim安装mmcv:
pip3 install openmim
mim install 'mmcv>=2.0.0'
mim install 'mmengine'
mim install 'mmagic'
检测是否安装成功:
cd ~
python -c "import mmagic; print(mmagic.__version__)"
下载mmagic项目:
运行下面代码测试是否配置完毕:
from mmagic.apis import MMagicInferencer
config = 'configs/esrgan/esrgan_x4c64b23g32_1xb16-400k_div2k.py'
checkpoint = 'https://download.openmmlab.com/mmediting/restorers/esrgan/esrgan_x4c64b23g32_1x16_400k_div2k_20200508-f8ccaf3b.pth'
img_path = 'tests/data/image/lq/baboon_x4.png'
editor = MMagicInferencer('esrgan', model_config=config, model_ckpt=checkpoint)
output = editor.infer(img=img_path,result_out_dir='output.png')
注意:官方的例子是’stable_diffusion,需要在hugface上下载五个g模型,没科学上网以及硬件gpu资源不足的直接用我的超分代码测试就行。
效果:
原图:
结果: