智谱技术团队近期发布了一则振奋人心的消息,他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源,同时在"智谱清言"App中成功上线。这两款模型的问世,标志着AI辅助艺术创作迈入了一个新的阶段。
CogView3作为一款基于级联扩散的文本转图像模型,其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像,随后通过中继扩散过程将其提升至1024x1024,最终再次迭代,呈现出一幅2048x2048的高清大图。这种层层递进的生成方式,犹如数字画家在画布上逐步完善作品,为用户带来了极致的视觉体验。
据官方评估,CogView3的表现令人惊叹,其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是,CogView3的推理速度仅为SDXL的十分之一,充分展现了智谱团队在模型优化方面的卓越成就。
CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架,采用了Zero-SNR扩散噪声调度,并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能,还大幅降低了训练和推理成本,实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间,为未来图像生成技术的发展开辟了新的可能性。
对于渴望探索这一前沿技术的开发者和研究者,智谱技术团队已经开放了CogView3和CogView3-Plus-3B的源代码仓库。这一举措无疑将推动整个AI图像生成领域的快速发展,为更多创新应用提供坚实的技术基础。
随着CogView3系列模型的问世,文生图技术的应用前景更加广阔。从个人创作到商业设计,从教育辅助到娱乐产业,这项技术都有望带来革命性的变革。我们可以预见,在不久的将来,AI辅助创作将成为常态,让更多人能够轻松实现自己的艺术构想。
CogView3 是一种使用中继扩散技术的新型文本到图像生成系统。 它将生成高分辨率图像的过程分解为多个阶段。 通过中继超分辨率过程,在低分辨率生成结果中加入高斯噪声,然后从这些噪声图像开始扩散过程。 结果表明,CogView3 的胜率高达 77.0%,优于 SDXL。 此外,通过对扩散模型的逐步提炼,CogView3 可以生成与之相当的结果,同时将推理时间缩短到 SDXL 的 1/10。
开源仓库地址:
https://github.com/THUDM/CogView3
Plus 开源模型仓库:
https://huggingface.co/THUDM/CogView3-Plus-3B
https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B
https://wisemodel.cn/models/ZhipuAI/CogView3-Plus-3B
提示词优化
虽然 CogView3 系列模型是通过长图像描述进行训练的,但我们强烈建议在生成文本到图像之前使用大型语言模型(LLM)重写提示,因为这将显著提高生成质量。
python prompt_optimize.py --api_key "Zhipu AI API Key" --prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4" --model "glm-4-plus"
推理模型(Diffusers)
pip install git+https://github.com/huggingface/diffusers.git
from diffusers import CogView3PlusPipeline
import torch
pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")
# Enable it to reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()
prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
prompt=prompt,
guidance_scale=7.0,
num_images_per_prompt=1,
num_inference_steps=50,
width=1024,
height=1024,
).images[0]
image.save("cogview3.png")
推理模型(SAT)
https://github.com/THUDM/CogView3/blob/main/sat/README.md
标签:prompt,文生,模型,CogView3,Plus,https,图像 From: https://blog.csdn.net/weixin_41446370/article/details/142971355