首页 > 其他分享 >「复刻」版DragGAN开源

「复刻」版DragGAN开源

时间:2023-05-28 10:22:23浏览次数:55  
标签:功能 DragGAN prompt 可以 开源 复刻 图像 InternGPT

  DragGAN 非官方实现来了!完美复刻拖拽秒P图功能,可以直接上手尝试。

  还记得前几天发布的 DragGAN 吗?

  没错,就是那个「轻轻点两下」1 秒修图的工具。

  拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不对?修!

  搞不好,「让大象转个身」这个远古 PS 段子,可能就要成真了

  这个 AI 修图工具演示视频一经发布,瞬间在国内外火得一塌糊涂。

  许多网友纷纷直呼,「PS 不存在了」。

  还没几天,DragGAN 非官方实现竟能上手试用了。 这一功能已经被集成到 InternGPT 中 ,界面长这样↓

  体验地址:https://igpt.opengvlab.com/

  没想到,演示入口一开放,直接被挤爆。

  官方演示

  从官方放出的演示视频来看,再现的 DragGAN 效果绝了。

  咧嘴笑

  先是怎么把一个没笑的人p笑。只要选中两个嘴角,直接 Drag 就好了。

  可以看到,最终生成的结果毫无违和感。因为面部肌肉也在一起变化,不是单纯的咧嘴。

  合上嘴

  脸部编辑

  这个瘦脸功能大家就太熟悉了,选中两个脸蛋往里挤,输出还是非常自然的。

  男性瘦脸。不过这个有点瘦过了,输出结果一眼假,下巴太尖了。

  这个必须强推!植发!多少秃头人士的福音。

  不过从输出结果看,就算选中额头那里,也是全部地方的毛发等比例增长,最后的结果有点像美猴王。

  转脸

  脸部转动也是一个很实用的功能,补齐的部分非常自然。

  其它功能

  除了小范围的修图,InternGPT 本身还有很多其它可以进行的亮眼操作。

  移除遮盖的对象

  单击想要在图片中进行操作的部分,在 prompt 中输入「移除」就可以了。

  图像生成

  这个功能比较有意思,先上传一张图片,输入 prompt 让 DragGAN 分割,然后再输入一个 prompt 生成想要的图片。

  露出黑脚了?(不是)

  视频高光解说

  用 prompt 还可以一键剪辑视频。

  交互式视觉问答

  甚至识别完图片上的信息还能联网直接查询。

  交互式图像生成

  随手的涂鸦都能一键变成美图。

  反正看完这些功能小编是真震惊了。所有功能就突出两个特点:「傻瓜式操作,且究极好用」。

  这谁能不爱?

  技术实现

  看了这么多酷炫的功能,那么这个 InternGPT 到底是什么?

  InternGPT(简称 iGPT)/InternChat(简称 iChat)是一种基于指向语言驱动的视觉交互系统,用户可以通过点击、拖动和绘制与 ChatGPT 进行互动。

  与依赖纯语言的现有交互系统不同, 通过整合指向指令,iGPT 显著提高了用户与聊天机器人之间的沟通效率,以及聊天机器人在视觉为中心任务中的准确性,尤其在复杂的视觉场景中更是如此。

  论文地址:https://arxiv.org/pdf/2305.05662.pdf

  下图就是 InternGPT 的整体架构。

  我们可以看到,这个 GPT 既可以处理图像、视频,也可以处理语音、文字。

  对于图像或视频输入,InternGPT 就会用 SAM(图像分割模型)、OCR(图像识别模型)等等进行处理。

  在识别出地理位置、物品或者线条之后,还有一整个工具箱进行进一步处理,其中都是我们耳熟能详的工具。

  比如 BLIP(音频)、Stable Diffusion(图像)、Pix2Pix(图像翻译)等等。

  同样地,对于文字或者语音输入,InternGPT 就会调用 GPT-4、LLaMA 等模型或工具进行处理,后续同样有一整个工具箱。

  InternGPT 的整体架构

  使用提示

  而在使用过程中,整个流程也是非常方便的。

  用户在图片上传成功后,可以发送如下消息与 iGPT 进行多模态相关的对话:

  "what is it in the image?" or "what is the background color of image?".

  同样,用户也可以交互式地操作、编辑或者生成图片,具体如下:

  · 点击图片上的任意位置,然后按下 Pick 按钮,预览分割区域。也可以按下 OCR 按钮,识别具体位置处存在的所有单词;

  · 要在图像中删除掩码区域,可以发送如下消息:

  “remove the masked region”

  · 要在图像中替换掩码的物体为其他物体,可以发送如下消息:

  “replace the masked region with {your prompt}”

  · 想生成新图像,可以发送如下消息:

  “generate a new image based on its segmentation describing {your prompt}”

  · 想通过涂鸦创建新图像,按下 Whiteboard 并在白板上绘制。绘制完成后,需要按下保存按钮并发送如下消息:

  “generate a new image based on this scribble describing {your prompt}”

  网友评论

  那个令人震惊的 DragGAN 现在有一个非官方的版本。正式版本将在 6 月发布,这只是未来的预览。

  DragGAN 已经集成到 InternGPT 了,这么快就出来了,修图神器。

  参考资料:

  https://igpt.opengvlab.com/

标签:功能,DragGAN,prompt,可以,开源,复刻,图像,InternGPT
From: https://www.cnblogs.com/botai/p/DragGAN-copy.html

相关文章

  • 千乎万唤始出来,支持gpt3和gpt4支持画图,的在线gpt应用接入案例开源上线啦
    了解OPENAI平台用户一直在说,这个接口要怎么对接,如何在体验。由于我一直忙于接口中台开发,所以在线基于OPENAI接口实例例子就一直没有写。现在终于写完了。基于纯HTML+CSS+JS小白也能轻松上手部署。代码简单清晰。这里不多做其他赘述,更多关于平台信息如下小白畅玩免费支持C......
  • 开源可观测性平台Signoz【日志采集篇】
    转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。原创不易,请文明转载,谢谢。在开源可观测性平台Signoz系列【开篇】中,介绍了signoz的基础理论知识、安装部署及一些初始化配置。本文则记录signoz怎么采集日志,包括docker容器日志和主机日志1.收集容器日志1.1收......
  • 基于Expression Lambda表达式树的通用复杂动态查询构建器——《原型篇一》[已开源]
    续接上编,本篇来讲讲俄罗斯套娃的设计与实现。首先简单地完善一下前面提到的例子,代码如下:测试实体类//测试实体类publicclassTable{publicintA;publicintB;}独立条件类//独立条件:publicclassField{publicLogicalLogical{get;set;} ......
  • 《安富莱嵌入式周报》第313期:搬运机器人,微软出的C语言手册,开源生物信号采集板,开源SMD
    周报汇总地址:http://www.armbbs.cn/forum.php?mod=forumdisplay&fid=12&filter=typeid&typeid=104 更新一期视频教程:DSP视频教程第12期:TI开源分享IQmathDSP源码,适用于所有Cortex-M内核,本期教程做个手把手移植(2022-05-22)https://www.armbbs.cn/forum.php?mod=viewthread&......
  • 牧云 • 主机管理助手|正式开放应用市场,梦幻联动雷池WAF等多款开源软件
     0x00 前言上个月,我司长亭开源了雷池WAF,不到三天就吸引了超过上千个师傅使用,几个交流群里,师傅们讨论的热火朝天,其中两个话题引起了我们牧云 • 主机管理助手 ( Collie ) 团队的关注:没有新主机安装雷池安装配置麻烦,希望有一键安装的脚本 别着急, Collie 会出手:......
  • 开源工作流WorflowCore学习之工作流简单审核
    在开源趋势下,很多开源的组件在国内,乃至全网都少有案例。为了做这个工作流翻了许多帖子和github的帖子在这里对github ZL.WorflowCoreDemo,和PizzaRestaurantWorkflow-main表示感谢,同时也感谢给博客园的帖子。本案例再利用ZL.WorflowCoreDemo中的项目直接进行新加的。关于如何......
  • 微软Playwright开源自动化框架初探-安装和调试(java版)
    最近在研究部门的UI自动化框架(java+selenium+testNG+openCV等),发现在调试脚本时,需要先下载谷歌浏览器。无头/有头模式还需要代码区分。还有一个体验问题,程序启动太慢,从运行到浏览器启动,差不多需要30s左右,等得有点着急。  在知乎/CSDN中找到多篇文章推荐自动化测试利器-Playwrigh......
  • 清华大学开源软件镜像站 常用下载地址
    https://mirrors.tuna.tsinghua.edu.cn/常用发行版isohttps://mirrors.tuna.tsinghua.edu.cn/zabbix/zabbix/6.4/rhel/7/x86_64/zabbix域名选择https://mirrors.tuna.tsinghua.edu.cn自动选择https://mirrors6.tuna.tsinghua.edu.cn只解析IPv6https://mirrors4.tuna.tsinghu......
  • 开源 RPC 框架有哪些
    一类是跟某种特定语言平台绑定的,另一类是与语言无关即跨语言平台的。跟语言平台绑定的开源RPC框架主要有下面几种。Dubbo:国内最早开源的RPC框架,由阿里巴巴公司开发并于2011年末对外开源,仅支持Java语言。Motan:微博内部使用的RPC框架,于2016年对外开源,仅支持Java语言。T......
  • 皕杰报表 + 开源可视化工具 = 实用的商业智能组合方案
    在商业智能解决方案中,数据的展现及业务规律的呈现是商业智能中及其重要的组成部分。长久以来,由于数据源复杂多样性,以及中国传统文化的对于数据表格的工整、对称等等的影响下,报表工具一直担当着商业智能的数据展现中主角的位置;最近随着显示屏技术的发展、大屏价格的下调,数据大屏及数......