首页 > 其他分享 >智谱CogView3-Plus模型开源 文生图技术迎来新纪元

智谱CogView3-Plus模型开源 文生图技术迎来新纪元

时间:2024-10-16 14:20:54浏览次数:8  
标签:prompt 文生 模型 CogView3 Plus https 图像

智谱技术团队近期发布了一则振奋人心的消息,他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源,同时在"智谱清言"App中成功上线。这两款模型的问世,标志着AI辅助艺术创作迈入了一个新的阶段。

CogView3作为一款基于级联扩散的文本转图像模型,其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像,随后通过中继扩散过程将其提升至1024x1024,最终再次迭代,呈现出一幅2048x2048的高清大图。这种层层递进的生成方式,犹如数字画家在画布上逐步完善作品,为用户带来了极致的视觉体验。

在这里插入图片描述
据官方评估,CogView3的表现令人惊叹,其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是,CogView3的推理速度仅为SDXL的十分之一,充分展现了智谱团队在模型优化方面的卓越成就。

在这里插入图片描述
CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架,采用了Zero-SNR扩散噪声调度,并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能,还大幅降低了训练和推理成本,实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间,为未来图像生成技术的发展开辟了新的可能性。

在这里插入图片描述
对于渴望探索这一前沿技术的开发者和研究者,智谱技术团队已经开放了CogView3和CogView3-Plus-3B的源代码仓库。这一举措无疑将推动整个AI图像生成领域的快速发展,为更多创新应用提供坚实的技术基础。

随着CogView3系列模型的问世,文生图技术的应用前景更加广阔。从个人创作到商业设计,从教育辅助到娱乐产业,这项技术都有望带来革命性的变革。我们可以预见,在不久的将来,AI辅助创作将成为常态,让更多人能够轻松实现自己的艺术构想。

CogView3 是一种使用中继扩散技术的新型文本到图像生成系统。 它将生成高分辨率图像的过程分解为多个阶段。 通过中继超分辨率过程,在低分辨率生成结果中加入高斯噪声,然后从这些噪声图像开始扩散过程。 结果表明,CogView3 的胜率高达 77.0%,优于 SDXL。 此外,通过对扩散模型的逐步提炼,CogView3 可以生成与之相当的结果,同时将推理时间缩短到 SDXL 的 1/10。

在这里插入图片描述

在这里插入图片描述

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

https://wisemodel.cn/models/ZhipuAI/CogView3-Plus-3B

提示词优化

虽然 CogView3 系列模型是通过长图像描述进行训练的,但我们强烈建议在生成文本到图像之前使用大型语言模型(LLM)重写提示,因为这将显著提高生成质量。

python prompt_optimize.py --api_key "Zhipu AI API Key" --prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4" --model "glm-4-plus"

推理模型(Diffusers)

pip install git+https://github.com/huggingface/diffusers.git
from diffusers import CogView3PlusPipeline
import torch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")

# Enable it to reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

推理模型(SAT)

https://github.com/THUDM/CogView3/blob/main/sat/README.md

标签:prompt,文生,模型,CogView3,Plus,https,图像
From: https://blog.csdn.net/weixin_41446370/article/details/142971355

相关文章

  • Vue 3中集成Element Plus组件库
    文章目录一、ElementPlus简介二、安装ElementPlus2.1安装ElementPlus2.2引入ElementPlus三、使用ElementPlus组件3.1创建组件3.2组件引入四、总结随着前端开发的快速发展,组件库已经成为开发实践中不可或缺的部分。Vue3作为一个现代的J......
  • Mybatis-plus 3.5.4 的AOP问题 java.lang.ClassCastException: class org.springfram
    报错,然后我把mapper上的@repository删掉就好了,为什么ChatGPT说:ChatGPT删除@Repository注解后问题解决,可能是与SpringAOP代理机制和MyBatisPlus结合时的一些细节有关。以下是原因分析:@Repository和SpringAOP代理的影响@Repository注解的主要作用是将类标记为持......
  • Flux 文生图模型,一键整合包!解压即用,出图效果惊艳
    朋友们!今天给大家带来一款全新且超强的AI文生图神器——Flux文生图模型!(最低N卡3060以上电脑)由知名AI开发团队BlackForestLabs(黑森林实验室)打造,这款高质量的文本到图像生成模型在多个方面展现了超凡的性能。无论是细腻的手部细节、复杂的多主体场景,还是中文文本......
  • uniapp判断 APP-PLUS / H5 / MP-WEIXIN
    js---APP:      /*#ifdefAPP-PLUS*/            console.log('APP-PLUS');      /*#endif*/ H5:      /*#ifdefH5*/      console.log('H5');      /*#endif*/ MP-WEIXIN:    ......
  • tauri2.0-admin桌面端后台系统|tauri2+vite5+element-plus管理后台EXE程序
    原创Tauri2.0+Vue3+ElementPlus客户端通用后台管理系统Tauri2Admin。tauri2-vue3-admin基于最新跨平台框架Tauri2.0整合Vite5+Vue3全家桶搭建的一款轻量级桌面端后台管理系统模板。封装tauri2多窗口切换管理,提供4种通用布局模板,支持vue-i18n国际化、面包屑导航、多标签快捷路......
  • OPPO K12 Plus手机震撼登场,重新定义中端旗舰新标杆!
    在这个金秋十月,首先揭开序幕的手机发布会,紧随4月24日OPPOK12系列的亮相,OPPO今日再度发力,正式推出了备受期待的OPPOK12Plus系列新机。一直以来,OPPOK系列以其均衡的配置和出色的性价比赢得了市场的认可。在今年的“618”购物节期间,仅上市一个多月,OPPOK12系列就凭借其持久耐用......
  • 本地部署ComfyUI并添加强大的Flux.1开源文生图模型远程制作AI图片
    文章目录前言1.本地部署ComfyUI2.下载Flux.1模型3.下载CLIP模型4.下载VAE模型5.演示文生图6.公网使用Flux.1大模型6.1创建远程连接公网地址7.固定远程访问公网地址前言本文将详细介绍如何在本地部署ComfyUI并搭建Flux.1文生图神器,......
  • [20241013]sqlplus spool与文件覆盖.txt
    [20241013]sqlplusspool与文件覆盖.txt--//这个问题在8月份遇到的问题,我发现在sqlplus下spoola.sql文件,并没有在当前目录产生a.sql文件,后来我发现建立在环境变量--//ORACLE_PATH定义的目录下,当时以为自己打开多个会话,没有注意自己工作的当前目录。事后我测试,问题视乎消失了,我再......
  • MyBatis-Plus 多表联查Mybatis-Plus Join
    com.github.yulichangMybatis-PlusJoin简介在MyBatis-Plus中,使用com.github.yulichang提供的扩展库(Mybatis-PlusJoin),可以非常方便地实现多表联表查询,而不需要手动编写复杂的SQL。这种扩展库简化了联表操作,提供了一种基于Lambda表达式的查询方式。MyBatis-Plus-......
  • AI绘画StableDiffusion零基础入门—文生图:全面解析AI绘画中提示词的妙用和各种语法,Pro
    AI绘画的一个必不可少的环节就是告诉AI描述画面的Prompt(提示词),但是这种很长很乱、穿插着各种奇怪的数字符号、高深莫测的提示词,究竟在说着什么?难道真的是咒语吗?魔法?咒语?你绝对不曾想到,有生之年竟然能迎来这么一个奇迹时代:画画竟然还能用魔法,岂不是只要会念咒、人人都......