首页 > 其他分享 >RealCustom:缩小真实文本词的范围,实现实时开放域文本到图像的定制

RealCustom:缩小真实文本词的范围,实现实时开放域文本到图像的定制

时间:2024-11-16 08:49:31浏览次数:1  
标签:范式 RealCustom 给定 相似性 定制 文本 可控性

RealCustom:缩小真实文本词的范围,实现实时开放域文本到图像的定制 文本到图像定制旨在为给定的主题合成文本驱动的图像,最近彻底改变了内容创作。现有的作品遵循伪词范式,即将给定的主题表示为伪词,然后将其与给定的文本组合在一起。然而,伪词与给定文本固有的纠缠扩散范围导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时达到最优。首次提出了RealCustom,通过将主语扩散精确地限制在相关部分,将相似性与可控性脱钩,这是通过将真实文本单词从其一般内涵逐渐缩小到特定主语,并利用其交叉注意力来区分相关性来实现的。具体来说,RealCustom引入了一种新颖的训练推理解耦框架:(1)在训练过程中,RealCustom通过一种新颖自适应评分模块,学习视觉条件与原始文本条件之间的一般对齐,以自适应地调节信息量;(2) 在推理过程中,提出了一种新的自适应掩码引导策略,迭代更新给定主题的扩散范围和扩散量,以逐渐缩小真实文本单词的生成范围。综合实验表明,RealCustom在开放域中具有卓越的实时定制能力,首次实现了给定主题前所未有的相似性和给定文本的可控性。 现有范式与改进范式之间的比较,如图3-19所示。 图3-19 现有范式与改进范式之间的比较 在图3-19中,(a)现有的范式将给定的主题表示为伪词(例如S*),将相同的整个信息范围与给定的文本纠缠在一起,导致了双重最优悖论,即给定主题的相似性和给定文本的可控性不能同时达到最优。(b)提出了RealCustom,这是一种新颖的范式,它首次通过精确给定的主题限制为仅包含相关部分的信息,而其余部分完全由给定的文本控制,从而将相似性与可控性脱钩。这是通过迭代更新指定受试者的扩散范围和扩散量来实现的。(c)定量比较表明,范式比现有范式的最新技术实现了更高的相似性和可控性。CLIP图像得分(CLIP-I)和CLIP文本得分(CLIP-T)用于评估相似性和可控性。 提出的RealCustom采用了一种新颖的训练推理解耦框架,如图3-20所示。   图3-20 提出的RealCustom采用了一种新颖的训练推理解耦框架 在图3-20中,(a)在训练过程中,所提出的自适应评分模块学习了视觉和原始文本条件之间的一般对齐,该模块根据文本和当前生成的特征准确推导出视觉条件。(b)在推理过程中,通过改进的自适应掩码引导策略,将一个真实的目标(例如玩具)从其最初的一般含义逐步缩小到给定的主题(例如,独特的棕色树懒玩具),该策略由两个分支组成,即文本到图像(T2I)分支,其中视觉条件设置为0,以及文本和图像到图像(TI2I)分支,其视觉条件设置指定的主题。T2I分支旨在通过聚合目标真实单词(例如玩具)的交叉注意力来计算信息扩散范围,而TI2I分支旨在将信息扩散量注入该范围。 自适应评分模块的图示,如图3-21所示。   图3-21自适应评分模块的图示 在图3-21中,文本特征和当前生成的特征首先被聚合到文本和视觉上下文中,然后与图像特征在空间上连接起来,以预测文本和视觉得分。然后根据当前的时间步长,对这些分数进行融合。最终,根据融合分数只选择关键特征的一个子集。 改进方法与现有方法的定性比较,如图3-22所示。   图3-22 改进方法与现有方法的定性比较 在图3-22中,与现有作品相比,RealCustom可以产生更高质量的定制结果,这些结果与给定主题具有更好的相似性,与给定文本具有更好的可控性。此外,RealCustom展示了卓越的多样性(不同的拍摄对象姿势、位置等)和生成质量(例如,第3行的秋叶场景)。

标签:范式,RealCustom,给定,相似性,定制,文本,可控性
From: https://www.cnblogs.com/wujianming-110117/p/18548967

相关文章

  • CSS入门(主要讲解选择器,CSS的创建,背景,文本)
    一.理解id和class选择器id选择器CSS中id选择器以"#"来定义。以下的样式规则应用于元素属性id="para1":#para1{text-align:center;color:red;}注意:ID属性不要以数字开头,数字开头的ID在Mozilla/Firefox浏览器中不起作用。class选择器class选择器在......
  • 基于 Python 的机器学习的新闻文本分类系统,附源码
    博主介绍:✌程序员徐师兄、7年大厂程序员经历。全网粉丝12w+、csdn博客专家、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java技术领域和毕业项目实战✌......
  • 泷羽sec之超文本标记语言
    ......
  • OpenAI模型whisper 音频转文本
    最近有一个音频转文本的需求,了解到了OpenAI的whisper模型可以实现。Whisper是OpenAI提供的一个通用语音识别模型,支持多语言的音频转文本功能,并具有较高的准确性。它的主要用途包括自动语音识别(ASR)、语言翻译(将音频直接翻译成英文文本)等。Whisper支持将长时间音频文件(如对......
  • 想定制RK3562主板Android系统的开机动画和桌面壁纸吗?看这篇文章就够了
    本文介绍瑞芯微RK3562开发板在安卓Android13系统替换开机动画和桌面壁纸的方法,使用触觉智能EVB3562开发板演示,搭载4核A53处理器,主频高达2.0GHz;内置独立1T算力NPU,可用于轻量级人工智能应用。开机动画替换将做好的开机动画文件bootanimation.zip包拷贝至vendor/rockchip/common/......
  • 重磅更新!Fluent Editor 开源富文本支持 LaTeX 可编辑公式啦~
    你好,我是Kagol,个人公众号:前端开源星球。FluentEditor是一个基于Quill2.0的富文本编辑器,在Quill基础上扩展了丰富的模块和格式,框架无关、功能强大、开箱即用。源码:https://github.com/opentiny/fluent-editor/(欢迎Star⭐)官网:https://opentiny.github.io/fluent-edito......
  • awk是一种在 Linux 和 Unix 系统中非常强大且常用的文本处理工具
    一、awk介绍awk是一种在Linux和Unix系统中非常强大且常用的文本处理工具,它的名字来源于其三位创始人AlfredAho、PeterWeinberger和BrianKernighan的姓氏首字母。awk可以对文本文件(或来自标准输入的文本流)按行进行扫描,并根据用户指定的规则来处理文本,比如提取特......
  • AlignSum:数据金字塔与层级微调,提升文本摘要模型性能 | EMNLP'24
    来源:晓飞的算法工程笔记公众号,转载请注明出处论文:AlignSum:DataPyramidHierarchicalFine-tuningforAligningwithHumanSummarizationPreference论文地址:https://arxiv.org/abs/2410.00409论文代码:https://github.com/csyanghan/AlignSum创新点发现在文本......
  • 鸿蒙 next 使用并封装富文本 hp-richtext
    鸿蒙next使用并封装富文本hp-richtext使用鸿蒙第三方富文本(https://ohpm.openharmony.cn/#/cn/detail/@ohasasugar%2Fhp-richtext),并再将其包一层实现自己的富文本组件,这样的好处是以后可以自己再里面添加一下逻辑,或者以后可以更换成其他的富文本组件。import{HPRichTe......
  • 【Unity 天气系统插件】Enviro 3 - Sky and Weather 高度可定制的云、雾和光照系统
    Enviro3-SkyandWeather是一款功能强大的Unity插件,专门用于模拟逼真的天空、天气和环境效果。它适用于需要动态天气和日夜循环的游戏或应用,如开放世界RPG、模拟类游戏等。Enviro3提供了大量的设置选项和自定义功能,帮助开发者在Unity中创建沉浸式的自然环境效果。......