智谱CogView3-Plus模型开源文生图技术迎来新纪元

时间：2024-10-16 14:20:54浏览次数：8

标签：prompt 文生模型 CogView3 Plus https 图像

智谱技术团队近期发布了一则振奋人心的消息，他们最新研发的文生图模型CogView3及其升级版CogView3-Plus-3B已正式开源，同时在"智谱清言"App中成功上线。这两款模型的问世，标志着AI辅助艺术创作迈入了一个新的阶段。

CogView3作为一款基于级联扩散的文本转图像模型，其生成过程堪称精妙。模型首先生成一幅512x512像素的低分辨率图像，随后通过中继扩散过程将其提升至1024x1024，最终再次迭代，呈现出一幅2048x2048的高清大图。这种层层递进的生成方式，犹如数字画家在画布上逐步完善作品，为用户带来了极致的视觉体验。

在这里插入图片描述
据官方评估，CogView3的表现令人惊叹，其性能竟比当前顶尖的开源文生图模型SDXL高出77%。更值得一提的是，CogView3的推理速度仅为SDXL的十分之一，充分展现了智谱团队在模型优化方面的卓越成就。

在这里插入图片描述
CogView3-Plus的推出更是将这一技术推向了新的高峰。该版本引入了先进的DiT框架，采用了Zero-SNR扩散噪声调度，并创新性地加入了文本-图像联合注意力机制。这些改进不仅提升了模型的整体性能，还大幅降低了训练和推理成本，实现了效能与效率的完美平衡。CogView3-Plus采用的16维VAE潜在空间，为未来图像生成技术的发展开辟了新的可能性。

在这里插入图片描述
对于渴望探索这一前沿技术的开发者和研究者，智谱技术团队已经开放了CogView3和CogView3-Plus-3B的源代码仓库。这一举措无疑将推动整个AI图像生成领域的快速发展，为更多创新应用提供坚实的技术基础。

随着CogView3系列模型的问世，文生图技术的应用前景更加广阔。从个人创作到商业设计，从教育辅助到娱乐产业，这项技术都有望带来革命性的变革。我们可以预见，在不久的将来，AI辅助创作将成为常态，让更多人能够轻松实现自己的艺术构想。

CogView3 是一种使用中继扩散技术的新型文本到图像生成系统。它将生成高分辨率图像的过程分解为多个阶段。通过中继超分辨率过程，在低分辨率生成结果中加入高斯噪声，然后从这些噪声图像开始扩散过程。结果表明，CogView3 的胜率高达 77.0%，优于 SDXL。此外，通过对扩散模型的逐步提炼，CogView3 可以生成与之相当的结果，同时将推理时间缩短到 SDXL 的 1/10。

在这里插入图片描述

开源仓库地址:

https://github.com/THUDM/CogView3

Plus 开源模型仓库:

https://huggingface.co/THUDM/CogView3-Plus-3B

https://modelscope.cn/models/ZhipuAI/CogView3-Plus-3B

https://wisemodel.cn/models/ZhipuAI/CogView3-Plus-3B

提示词优化

虽然 CogView3 系列模型是通过长图像描述进行训练的，但我们强烈建议在生成文本到图像之前使用大型语言模型（LLM）重写提示，因为这将显著提高生成质量。

python prompt_optimize.py --api_key "Zhipu AI API Key" --prompt {your prompt} --base_url "https://open.bigmodel.cn/api/paas/v4" --model "glm-4-plus"

推理模型（Diffusers）

pip install git+https://github.com/huggingface/diffusers.git

from diffusers import CogView3PlusPipeline
import torch

pipe = CogView3PlusPipeline.from_pretrained("THUDM/CogView3-Plus-3B", torch_dtype=torch.float16).to("cuda")

# Enable it to reduce GPU memory usage
pipe.enable_model_cpu_offload()
pipe.vae.enable_slicing()
pipe.vae.enable_tiling()

prompt = "A vibrant cherry red sports car sits proudly under the gleaming sun, its polished exterior smooth and flawless, casting a mirror-like reflection. The car features a low, aerodynamic body, angular headlights that gaze forward like predatory eyes, and a set of black, high-gloss racing rims that contrast starkly with the red. A subtle hint of chrome embellishes the grille and exhaust, while the tinted windows suggest a luxurious and private interior. The scene conveys a sense of speed and elegance, the car appearing as if it's about to burst into a sprint along a coastal road, with the ocean's azure waves crashing in the background."
image = pipe(
    prompt=prompt,
    guidance_scale=7.0,
    num_images_per_prompt=1,
    num_inference_steps=50,
    width=1024,
    height=1024,
).images[0]

image.save("cogview3.png")

推理模型（SAT）

https://github.com/THUDM/CogView3/blob/main/sat/README.md

标签：prompt,文生,模型,CogView3,Plus,https,图像
From： https://blog.csdn.net/weixin_41446370/article/details/142971355

Vue 3中集成Element Plus组件库
文章目录一、ElementPlus简介二、安装ElementPlus2.1安装ElementPlus2.2引入ElementPlus三、使用ElementPlus组件3.1创建组件3.2组件引入四、总结随着前端开发的快速发展，组件库已经成为开发实践中不可或缺的部分。Vue3作为一个现代的J......
Mybatis-plus 3.5.4 的AOP问题 java.lang.ClassCastException: class org.springfram
报错，然后我把mapper上的@repository删掉就好了，为什么ChatGPT说：ChatGPT删除@Repository注解后问题解决，可能是与SpringAOP代理机制和MyBatisPlus结合时的一些细节有关。以下是原因分析：@Repository和SpringAOP代理的影响@Repository注解的主要作用是将类标记为持......
Flux 文生图模型，一键整合包！解压即用，出图效果惊艳
朋友们！今天给大家带来一款全新且超强的AI文生图神器——Flux文生图模型！（最低N卡3060以上电脑）由知名AI开发团队BlackForestLabs（黑森林实验室）打造，这款高质量的文本到图像生成模型在多个方面展现了超凡的性能。无论是细腻的手部细节、复杂的多主体场景，还是中文文本......
uniapp判断 APP-PLUS / H5 / MP-WEIXIN
js---APP： /*#ifdefAPP-PLUS*/ console.log('APP-PLUS'); /*#endif*/ H5： /*#ifdefH5*/ console.log('H5'); /*#endif*/ MP-WEIXIN： ......
tauri2.0-admin桌面端后台系统|tauri2+vite5+element-plus管理后台EXE程序
原创Tauri2.0+Vue3+ElementPlus客户端通用后台管理系统Tauri2Admin。tauri2-vue3-admin基于最新跨平台框架Tauri2.0整合Vite5+Vue3全家桶搭建的一款轻量级桌面端后台管理系统模板。封装tauri2多窗口切换管理，提供4种通用布局模板，支持vue-i18n国际化、面包屑导航、多标签快捷路......
OPPO K12 Plus手机震撼登场，重新定义中端旗舰新标杆！
在这个金秋十月，首先揭开序幕的手机发布会，紧随4月24日OPPOK12系列的亮相，OPPO今日再度发力，正式推出了备受期待的OPPOK12Plus系列新机。一直以来，OPPOK系列以其均衡的配置和出色的性价比赢得了市场的认可。在今年的“618”购物节期间，仅上市一个多月，OPPOK12系列就凭借其持久耐用......
本地部署ComfyUI并添加强大的Flux.1开源文生图模型远程制作AI图片
文章目录前言1.本地部署ComfyUI2.下载Flux.1模型3.下载CLIP模型4.下载VAE模型5.演示文生图6.公网使用Flux.1大模型6.1创建远程连接公网地址7.固定远程访问公网地址前言本文将详细介绍如何在本地部署ComfyUI并搭建Flux.1文生图神器，......
[20241013]sqlplus spool与文件覆盖.txt
[20241013]sqlplusspool与文件覆盖.txt--//这个问题在8月份遇到的问题，我发现在sqlplus下spoola.sql文件，并没有在当前目录产生a.sql文件，后来我发现建立在环境变量--//ORACLE_PATH定义的目录下,当时以为自己打开多个会话，没有注意自己工作的当前目录。事后我测试，问题视乎消失了，我再......
MyBatis-Plus 多表联查Mybatis-Plus Join
com.github.yulichangMybatis-PlusJoin简介在MyBatis-Plus中，使用com.github.yulichang提供的扩展库（Mybatis-PlusJoin），可以非常方便地实现多表联表查询，而不需要手动编写复杂的SQL。这种扩展库简化了联表操作，提供了一种基于Lambda表达式的查询方式。MyBatis-Plus-......
AI绘画StableDiffusion零基础入门—文生图：全面解析AI绘画中提示词的妙用和各种语法，Pro
AI绘画的一个必不可少的环节就是告诉AI描述画面的Prompt（提示词），但是这种很长很乱、穿插着各种奇怪的数字符号、高深莫测的提示词，究竟在说着什么？难道真的是咒语吗？魔法？咒语？你绝对不曾想到，有生之年竟然能迎来这么一个奇迹时代：画画竟然还能用魔法，岂不是只要会念咒、人人都......

智谱CogView3-Plus模型开源文生图技术迎来新纪元

提示词优化

推理模型（Diffusers）

推理模型（SAT）

相关文章

赞助商

阅读排行

智谱CogView3-Plus模型开源 文生图技术迎来新纪元

提示词优化

推理模型（Diffusers）

推理模型（SAT）

相关文章

赞助商

阅读排行

智谱CogView3-Plus模型开源文生图技术迎来新纪元