首页 > 其他分享 >迈向生成式几何 AI

迈向生成式几何 AI

时间:2024-03-18 14:58:24浏览次数:21  
标签:生成式 AI 迈向 生成 图像 几何 360

在这里插入图片描述
AI 生成 360° 图像。[原始图像由作者使用 CopernicAI 生成。

一、说明

   近年来,能动人工智能取得了显著的进步,使机器能够生成图像、文本甚至音乐。然而,仍然缺少一些数据模式。那就是几何事物的生成。本篇注意这个事情并给出观点。

二、AI生成模式概说

   一些最著名的生成模型包括 GPT-4,一种可以生成类似人类文本的语言模型,以及 DALL-E 2,一种可以从文本描述创建高质量图像的图像生成模型。Stable Diffusion 在生成高质量图像方面取得了重大进展。随着研究的不断进步,生成式人工智能的可能性似乎几乎是无限的。
在这里插入图片描述
宇航员骑马的照片,由Stable DIffusion生成。[图片来自Wikimedia Commons。

三、生成模型的局限性

   然而,大多数生成式 AI 模型都是针对欧几里得域上定义的数据量身定制的,例如 2D 图像或 1D 音频信号。然而,在许多领域中,数据通常是在非欧几里得几何上定义的,从而产生了几何深度学习领域(参见几何深度学习简介)。

   几何深度学习的方法很广泛,但最常见的情况之一是群设置(请参阅群上的几何深度学习),例如在球体上定义的观测值。球形数据出现在许多领域,从对地球的观测到虚拟现实中的全景 360° 照片和视频,再到对在天球上观测到的大爆炸遗迹光的天文观测。
在这里插入图片描述

   球面数据示例。[原图由作者创作。
   为了将生成式 AI 的优势带给这些数据和其他具有复杂几何形状的数据,我们需要合并几何和生成式 AI。

四、生成式 AI 架构

   现代生成式 AI 模型通常采用以下方法之一。

   GAN(生成对抗网络)使用生成器和判别器网络,通过在零和博弈中将两者相互对抗来生成新的数据样本。
VAE(变分自动编码器)是一种生成模型,用于学习输入数据的压缩表示并使用它来生成新样本。
归一化流是一类生成模型,它使用一系列可逆变换来对数据的概率分布进行建模。
   扩散模型使用去噪扩散过程来生成高质量的图像。
   就生成的图像质量而言,目前最先进的技术通常是通过GAN或扩散模型来实现的。因此,我们专注于这些方法,并探索如何将它们扩展到几何设置。

五、面向 360° 图像的生成式几何 AI

   为了具体起见,让我们关注球面数据的常见情况,特别是 360° 全景图像。
在这里插入图片描述

   360°全景图像的小行星视图。[图片来自Wikimedia Commons。
   虽然在最近的开创性研究论文[1,2]中,归一化流动和扩散模型都已扩展到球面设置,但这些方法侧重于球面坐标上的密度场,而在这里,我们对球体上的像素化图像感兴趣。

   为了将 GAN 和扩散模型扩展到球形数据,必须扩展这些方法的底层架构,以对底层球形几何进行本机建模。为了实现这一点,我们需要将构成此架构构建块的底层扩展到球体。过去,这种球形层一直受到计算限制的困扰。然而,最近,这些计算限制在混合离散-连续(DISCO)框架[3]中得到了克服,该框架提供了既高效又计算高效的球面层(参见我们最近关于混合离散-连续几何深度学习的文章)。

   GAN建立在判别器(即分类器)和支持密集预测的生成器之上,通常它们本身建立在图像数据的CNN层上(有关详细信息,请参阅GAN的简要介绍)。所有这些组件都已经扩展到球体[3,4];因此,我们拥有将 GAN 扩展到球形数据所需的所有构建块。

   扩散模型需要学习分数,或者等效的降噪器,通常基于 U-Net 风格的架构(有关详细信息,请参阅稳定扩散简介)。同样,用于高分辨率图像的U-Net已经扩展到球体[3],因此我们恰好拥有了需要处理的构建块。

六、与此同时,我们在进行什么研究?

   在CopernicAI,我们正在研究这些类型的架构,以将生成式AI引入几何数据,例如360°图像。

   然而,在这些新模型准备就绪之前,我们已经对 Stable Diffusion 进行了改造,以支持 360° 图像的生成。

   Stable Diffusion 无法正确模拟 360° 数据的基本球面性质,因此通过改造所能实现的目标在某种程度上受到限制,并且生成图像的质量会受到一些影响。尽管如此,我们已经可以生成相当不错的 360° 图像。
在这里插入图片描述

   AI 生成的 360° 图像显示为小行星。[作者使用CopernicAI生成的原始图像。
CopernicAI 刚刚发布了一个提示,因此现在任何人都可以创建 AI 生成的 360° 图像供他们使用。

   如上所述,随着球体的基本几何形状是正确的模型的未来发展,生成的 360° 图像的质量只会提高。

引用
[1] Rezende、Papamakarios、Racanière、Albergo、Kanwar、Shanahan、Cranmer,Tori 和 Spheres 上的归一化流动,ICML (2020),arXiv:2002.02428

[2] De Bortoli、Mathieu、Hutchinson、Thornton、Teh、Doucet、基于黎曼分数的生成建模,NeurIPS (2022),arXiv:2202.02763

[3] Ocampo、Price、McEwen,通过离散连续 (DISCO) 卷积进行可扩展和等变球形 CNN,ICLR (2023),arXiv:2209.13603

[4] McEwen、Wallis、Mavor-Parker,用于可扩展和旋转等变球形 CNN 的球体上的散射网络,ICLR (2022),arXiv:2102.02828

标签:生成式,AI,迈向,生成,图像,几何,360
From: https://blog.csdn.net/gongdiwudu/article/details/136808958

相关文章

  • Ai绘画工具,Stable Diffusion Lora使用攻略
    一、Lora是什么LoRA,英文全称Low-RankAdaptationofLargeLanguageModels,直译为大语言模型的低阶适应,这是微软的研究人员为了解决大语言模型微调而开发的一项技术。可以理解为Stable-Diffusion中的一个插件,仅需要少量的数据就可以进行训练的一种模型。在生成图片时,LoRA......
  • 【推荐】免费AI论文写作-「智元兔 AI」
    还在为写论文焦虑?免费AI写作大师来帮你三步搞定!智元兔AI是ChatGPT的人工智能助手,并且具有出色的论文写作能力。它能够根据用户提供的题目或要求,自动生成高质量的论文。不论是论文、毕业论文、散文、科普文章、新闻稿件,还是商业文案、推广文案,智元兔AI都能够根据用户需求进......
  • 又发现一款免费好用的 AI 写代码神器,好用到爆,GitHub Copilot 可以扔了。。
    大家好,我是R哥。近两年AI太火了,风靡全球,AI编程工具也没有落下,比如微软的GitHubCopilot,还有阿里的通义灵码,连JetBrains系列工具都逼出了自家的AI功能。大家知道我是效率狂人,同样也是工具狂人,之前给大家分享了不少开发神器,其中也不乏国内的优秀选手,不是我吹,在某些方面,国......
  • 2024Android研发必问高级面试题,,谈谈Android-Binder机制及AIDL使用
    中高级Android需要的知识技能技能:1.了解android的签名机制(实现原理,具体操作等等),打包机制(多渠道打包,打包流程等等)2.了解apk安装文件压缩(压缩图片,代码压缩,.so文件压缩等等)3.事件分发,View绘制流程,webview相关知识点(与Native的交互,性能优化等)4.熟悉数据库的使用(基本API,第三......
  • 轻松创建基于 GPT-4 的 AI 原生应用 - Dify
    Dify 是一个易用的 LLMOps 平台,旨在让更多人可以创建可持续运营的原生AI应用。Dify提供多种类型应用的可视化编排,应用可开箱即用,也能以后端即服务的API提供服务。LLMOps(LargeLanguageModelOperations)是一个涵盖了大型语言模型(如GPT系列)开发、部署、维护和优化的一......
  • 【ai学习】 扣子使用,创建自己的AI应用
     扣子介绍扣子是新一代AI大模型智能体开发平台。整合了插件、长短期记忆、工作流、卡片等丰富能力,扣子能帮你低门槛、快速搭建个性化或具备商业价值的智能体,并发布到豆包、飞书等各个平台。说白了: 扣子和GPTs一样可以帮助你创建自己的AI应用。字节扣子国内版:coze.cn......
  • Jailbreaking Large Language Models in Few Queries via Disguise and Reconstructio
    本文是LLM系列文章,针对《MakingThemAskandAnswer:JailbreakingLargeLanguageModelsinFewQueriesviaDisguiseandReconstruction》的翻译。让他们问答:通过伪装和重建在少数查询中打破大型语言模型的牢笼摘要1引言2背景和问题陈述3LLM微调中的安全偏......
  • 问题分析 | 为什么主库Waiting for semi-sync ACK from slave会阻塞set global super_
    作者:卢文双资深数据库内核研发本文首发于2023-12-0321:33:21https://dbkernel.com问题描述为什么主库上有Waitingforsemi-syncACKfromslave的时候,执行setglobalsuper_read_only=ON会导致等待全局读锁?问题复现MySQL主从高可用集群,semi-sync超时无限大:setglob......
  • 亮点抢先看!4月16-17日,百度Create大会开设“AI公开课”,大咖带你打造赚钱工具
    3月16日,2024百度CreateAI开发者大会正式开放售票,嘉宾套票定价399元。据悉,本次大会以“创造未来(CreatetheFuture)”为主题,设有20+深度论坛、超30节AI公开课、3000平AI互动体验区和AI音乐节等精彩环节,将于4月16日至17日在深圳国际会展中心(宝安)举办。作为全球首个AI开发者大会,百......
  • AI换脸技术:探索人工智能在图像合成领域的前沿
    引言人工智能(ArtificialIntelligence,AI)的迅猛发展给图像处理领域带来了革命性的变化。其中,一项备受关注的技术就是AI换脸(FaceSwapping),它使得将一个人的面部特征迅速、准确地“换”到另一个人脸上成为可能。这项技术不仅在娱乐产业中大放异彩,还在医学、安全监控等领域有着广泛......