首页 > 其他分享 >ChatGPT4+Stable Diffusion + Midjourney V5 意味着什么?

ChatGPT4+Stable Diffusion + Midjourney V5 意味着什么?

时间:2023-04-14 14:14:30浏览次数:44  
标签:Diffusion GPT4 GPT3.5 prompt AI ChatGPT4 V4 V5

AI绘画服务Midjourney发布了v5版模型.

网络上已经有了一些关于v5的介绍文章, 一般都在惊叹v5版模型生成超写实照片的能力.

当然了, 这肯定是很强的能力, 能轻松生成以假乱真的照片. 不过坦诚的说, 开源的Stable Diffusion社区也出过超写实照片版本的模型了, 而且关键是, 在创作领域, "写实"只是其中一种风格. 很多时候, 我们需要的或许是其他不同的艺术风格.

很多人忽视了这一次 MidJourney V5真正牛逼的特点, 那就是, V5更倾向于自然语言的输入, 而不是一系列关键词(prompt)!

这对AI绘画模型是一个革命性的变化. 在之前, 所有AI绘画模型, 都要求以一系列提示关键词组合即"Prompt"为输入; AI绘画结果的质量和prompt密切相关, 甚至还诞生了一个名词"prompt工程师", 即专门研究AI绘画模型提示词的工程师

但是, 现在MidJourney V5居然支持自然语言输入了!

有人会说, 即使用人类语言描述, 我也不太会描写那些脑海中的细节啊.

别忘了, 我们还有GPT4.

如果, 我们让GPT4来生成文本描述, 甚至直接利用已有的prompt扩展成自然语言描述呢? 话痨GPT是不是能把MJ V5的潜力挖掘到极致!

Talk is cheap, show me the pictures!

以下, 我们就看看, 同一个咒语在Stable Diffusion, Midjourney V4, V5, V5+GPT3.5, V5+GPT4 的加持之下, 能达到什么样的水准.

先看一个星际大战场景

咒语: 

starcraft,terran,battlecruiser,combat,base,galaxy,laser gun,fire, quality,extremely detailed CG,unity 8K wallpaper,hyperdetailed,highres,cyber screen frame,absurderes,intricate and refined delicate detailed,cinematic lighting,strong rim light,brighter colours,depth of field

SD:

这个效果只能说勉强(顺便说一句, SD在科幻内容的训练语料似乎不足, 整体表现较弱).

MidJourney V4(上) | V5(下)

V4的水平已经比SD要好, V5的细节明显的更进一步.

那么, 我们在V5+Prompt的基础上再引入GPT呢?

只要简单和GPT说一句: "用英文描述一幅ai绘画的prompt, 关键词如下", 然后灌输给它prompt.

我们就得到了GPT给出的话痨版描述, 要注意的是, GPT3.5和GPT4给出的答案是不同的:

GPT3.5生成的自然文本:

This Al-generated artwork depicts a battle scene in the world of Starcraft,Create a stunning AI-generated painting with the prompt of a battle scene set in the StarCraft universe. The focus of the painting is a Terran battlecruiser engaged in combat, hovering over a strategic base in the midst of a bustling galaxy. The battlecruiser is equipped with a powerful laser gun, firing at enemy forces with intense bursts of fire. The painting should be of extremely high quality and hyperdetailed, featuring intricate and refined delicate details. The unity 8K wallpaper should showcase the painting's impressive high resolution, cyber screen frame, and absurderes style. The cinematic lighting should be strong, with a powerful rim light casting the battlecruiser and base in a bright glow. The colours should be brighter and more intense, adding depth and dimension to the painting's composition. Finally, the depth of field should add a sense of realism, focusing the viewer's attention on the battlecruiser while blurring the background for added visual impact.

4GPT4 生成的自然文本:

Title: "Terran Triumph: An Epic StarCraft Battle in 8K"

In this extremely detailed CG masterpiece, inspired by the iconic StarCraft universe, a Terran battlecruiser dominates the scene, surrounded by a fierce and electrifying combat. Set against the backdrop of a distant galaxy, the intricately designed base bustles with activity, as laser guns discharge fiery beams in a thrilling display of high-resolution warfare.

This stunning 8K wallpaper showcases hyperdetailed visuals, immersing viewers in the captivating world of StarCraft. The cyber screen frame adds a futuristic touch, while the absurdly high resolution ensures that even the most refined, delicate details are meticulously captured.

Cinematic lighting, accompanied by strong rim light, illuminates the scene, highlighting the battlecruiser's sleek design and intensifying the sense of action. Brighter colors punctuate the chaos, guiding the viewer's eye through the vast expanse of the conflict. The depth of field effect brings the central elements into sharp focus, while the unity of the composition anchors the viewer in the heart of the battle.

This exceptional 8K wallpaper pays homage to the beloved StarCraft franchise, combining cutting-edge technology and artistic skill to deliver an unforgettable visual experience filled with intricate details, refined delicacy, and unparalleled realism.

那么具体应用起来如何呢?

分别把生成文本扔到MidJourneyV5里, 结果如下:

V5+GPT3.5

V5+GPT4:

很明显, 无论是使用GPT3.5还是GPT4 驱动V5, 都比直接用prompt驱动的V5 细节更多, 而GPT4给出的结果更甚GPT3.5一筹!

各自抽一张大图对比, GPT3.5(上) V.S. 下GPT4(下):

注意看飞船的细节, 细节!

好吧, 要承认, 人类不但不需要去画画, 甚至都不需要动点脑筋去琢磨prompt组合了, 生成文本都交给GPT4就好. 我们只需要简单的告诉GPT4几个关键点, 细节驱动文本的生成, 都交给AI. 

上面这例子给到GPT的prompt还略复杂, 后面有非常简单的例子, 作为人类, 只需要告诉AI寥寥几个词, 然后有了Midjourney V5+GPT4这对无敌组合, 从此, 还没上岗的prompt工程师可以直接失业了.

以下, 我们给出更多的实例, 一起来看看SD(prompt only), MJ V4(prompt only), V5 prompt, V5+GPT3.5, V5+GPT4的对比吧!

(为了节省篇幅, 不再给出GPT的话痨输出, prompt仍然奉上, 大伙儿可以自行让GPT生成)

魔法美少女

咒语:

magic girl,library underground,candles,anime,posing,very long hair,white hair,detailed beautiful hair,floating hair,diamond earring,emotionless,ribbon choker,intricated filigree,aqua eyes,glowing eyes,crystal textured skin,cloaks,detached collar,summoning,light smile,bracelets,white lace detailed stockings,frilled hat,beautiful pupil,hair ornament,parted lips,magic book,masterpiece,best quality,extremely detailed CG,unity 8K wallpaper,hyperdetailed,highres,cyber screen frame,absurderes,intricate and refined delicate detailed,cinematic lighting,strong rim light,brighter colours,depth of field,

SD系列:

MJ V4 | V5

V5+GPT3.5 | GPT4:

大图:

阳光下的少女

咒语:

Meticulous painting, sunshine, delicate, light, ancient girl, delicate facial features, watery eyes, game

SD:

MJ V4 | V5:

MJ+GPT3.5 | GPT4:

大图:

盔甲美少女

咒语: 

extremely detailed CG unity 8k wallpaper, masterpiece,1girl, ahoge, armor, armored_dress, artoriapendragon(fate), blonde_hair, braid, glowing, holding, holding_sword, holding_weapon, looking_at_viewer, solo, weapon, yellow_eyes,album cover,movie poster

SD:

V4 | V5:

V5+GPT3.5 | GPT 4:

大图:

再来看看场景:

一个日漫风格的:

咒语:

street on a hill, urban, sunny day, animation concept art, clean, studio ghibli style, Clear reflection,  Makoto Shinkai style, Anno Hideaki, Toriyama Akira, Oshii Mamoru, Mamoru Hosoda, Katsura Masakazu, cyberpunk, 1.2 Neon lights, 0.4 8k, octane render, animated by madhouse inc, studio trigger, vibrant color scheme, epic composition, golden ratio, cinematic

SD

V4 | V5:

V5+GPT3.5 | GPT4:

大图:

  • 一个幻想风格的城堡场景:

咒语:

Beautiful fantasy, castle courtyard with a stunning maple tree in the centre, autumn, hyperdetailed, beautiful lighting, Arches, steps, symmetry, shadows, Jordon grimmer, Grzegorz rutkowski, Breath of the wild, Studio ghibli

SD:

V4|V5

V5+GPT3.5 | GPT4:

大图:

新海诚风格的小镇山顶早晨

咒语:

house and street on a hill, sunrise, 2d, urban, by Makoto Shinkai

SD:

V4 | V5:

V5+GPT3.5 | GPT4:

大图:

其实... 连英文prompt都不需要烦恼, 简单的找GPT翻译就可以.

比如以下的一个中文关键词描述:

"孙悟空形象的高达,手持机械长棒,极致细节,大师之作,超级华丽,概念美术,游戏CG,杰作,高解析度,穆迪照明,延德尔效应,巨大的星空之门背景,金属,巨型机甲,月光,紫色光粒子特效,雷电特效,对称", 

让GPT4翻译一下:

A Gundam with the likeness of Sun Wukong, wielding a mechanical staff, in 8K resolution, as a wallpaper. A masterpiece with ultimate attention to detail, super glamorous, created as concept art on Pixiv for game CG. Featuring high-resolution, moody lighting, and the Van Der Waals effect, with a massive gateway to the starry sky as the background. The metallic giant mecha is illuminated by moonlight, adorned with purple light particle effects, lightning effects, and symmetric features.

然后就成了可以用的咒语了

MJ V4 | V5:

V5+GPT3.5 | GPT4:

大图:

AI正在用人类想象不到的速度在占领内容创作领域.

从不久前的ControlNet控制生成人物动作, 到今天V5完全自然语言的绘画生成,  AI每天都在刷新我们的认知; 

作为人类的我们, 除了颤抖,  也许也可以想想, 可以在AI能力的缝隙之上, 去占领一个什么样的新位置:)

标签:Diffusion,GPT4,GPT3.5,prompt,AI,ChatGPT4,V4,V5
From: https://www.cnblogs.com/botai/p/ChatGPT4-Stable_Diffusion-MidjourneyV5.html

相关文章

  • 如何训练个人的ChatGpt4
    如何在自己的计算机上安装类似ChatGPT的个人AI并在没有互联网的情况下运行它本文旨在为任何人安装此软件。最初它有一个视频,伴随着操作方法,但是事情变化很快,我的三次尝试只是推迟了我发表这篇文章。我以后可能会包括它。我努力创建一个简单的分步说明,为极端新手安装个人AI。......
  • Mac | iOS | Windows:安装Stable diffusion教程
    热烈欢迎,请直接点击!!!进入博主AppStore主页,下载使用各个作品!!!注:博主将坚持每月上线一个新app!!!Apple已支持的开源库:https://machinelearning.apple.com/research/stable-diffusion-coreml-apple-silicon一、MAC部署安装:https://github.com/apple/ml-stable-diffusiongitclone......
  • 最新版本 Stable Diffusion 开源 AI 绘画工具之图生图进阶篇
    (✨目录)......
  • 在英特尔 CPU 上加速 Stable Diffusion 推理
    前一段时间,我们向大家介绍了最新一代的英特尔至强CPU(代号SapphireRapids),包括其用于加速深度学习的新硬件特性,以及如何使用它们来加速自然语言transformer模型的分布式微调和推理。本文将向你展示在SapphireRapidsCPU上加速StableDiffusion模型推理的各种技术......
  • AIGC教程:如何使用Stable Diffusion生成风格化游戏物品和图标
    GameLook报道/随着生成型AI的能力提升,越来越多的开发者开始尝试用StableDiffusion提升自己的研发效率。在RPG游戏的制作当中,数量庞大的游戏内物品是非常耗时且费力的部分,装备、道具、药剂等物品可能数以千计,从概念设计到最终放到游戏里的资源,可能耗费很长时间和......
  • stable diffusion打造自己专属的LORA模型
    通过Lora小模型可以控制很多特定场景的内容生成。但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹~_~)。甚至可以训练一个专属家庭版的模型(familymodel),非常有意思。将自己的训练好的Lora模型放到stableDiffusionlora目录中,同时配上美丽的封面图。......
  • stable diffusion打造自己专属的LORA模型
    通过Lora小模型可以控制很多特定场景的内容生成。但是那些模型是别人训练好的,你肯定很好奇,我也想训练一个自己的专属模型(也叫炼丹~_~)。甚至可以训练一个专属家庭版的模型(familymodel),非常有意思。将自己的训练好的Lora模型放到stableDiffusionlora目录中,同时配上美丽的封面图。......
  • ChatGPT4实现前一天
    目录提出需求代码实现需求分析单元测试等价类划分决策表软件测试作业,用ChatGPT4来帮个小忙,小划水,勿喷勿喷,近期有相关作业的同学看到我的文章,建议修改一下,别撞车了,哈哈哈~提出需求个人输入需求:Java实现键盘输入日期输出前一天,需要考虑润年和非润年,2月是否有29号,大月小月的区......
  • mac m1安装stable-diffusion-webui
    1.准备安装环境[email protected]下载stable-diffusion-webuigitclonehttps://github.com/AUTOMATIC1111/stable-diffusion-webui.git3.下载huggingface模型https://huggingface.co/runwayml/stable-diffusi......
  • 内核实验(二):自定义一个迷你Linux ARM系统,基于Kernel v5.15.102, Busybox,Qemu
    原文:https://blog.csdn.net/yyzsyx/article/details/129576582文章目录一、篇头二、内核部分2.1源码下载2.1.1官网2.1.2镜像站点2.1.3代码下载2.2编译2.2.1设置工具链2.2.2配置2.2.3make2.2.4编译成功三、busybox部分3.1源码下载3.2编译3.2.1配置3.2.3编译3.2.4查......