首页 > 其他分享 >HOI生成——InterFusion

HOI生成——InterFusion

时间:2024-11-21 19:51:21浏览次数:1  
标签:姿势 渲染 InterFusion 生成 HOI anchor 人体

InterFusion

快速阅读

提供了一个2stage的HOI(human-object interations)生成策略。输入为text prompt,输出为HOI的mesh。第一阶段进行人体姿态生成,通过text生成对应的人体mesh,并作为anchor送入第二阶段。第二阶段分为整体生成和局部生成,在局部上把之前的anchor作为条件,对人体和物体进行分别生成与优化。在整体上以综合描述作为指导,并与 SDS-H 和 SDS-O 共同优化

Method

Stage 1 人体anchor生成:

  1. 利用 ChatGPT 生成有关人类日常事件或动作的prompt,形成 "verb-ing a/an/the object"结构。共生成了 235 条提示结果,涵盖了日常生活中的大多数互动。

  2. 使用预先训练好的 PIXIE 模型估算三维人类姿势,从而创建了一个由总计 55K 个三维伪 SMPL 姿势组成的综合 Syn-HOI 姿势数据集。

  3. 我们从多个视角渲染SMPL产生的图像,并使用 CLIP 的encoder得出姿势特征embdding。

  4. 将数据集,CLIP embedding means和姿势参数对连接起来。

  5. 进一步使用 KMeans 聚类技术构建了一个代码集,其中每个聚类包括一个姿势子集,代表了与中心点关键姿势相似的姿势。

  6. 选取k = 7 作为合适的姿势,然后,我们利用 GPT-4V 选择最精确的姿势作为最终查询的关键姿势。也可以在聚类中根据需求选择姿势作为anchor进行HOI生成。

  7. 为了限制使用从获取的姿态中获得的人体结构先验来优化几何形状和外观,进一步引入了COAP,该网络将3D查询点p映射到占用值,直接指示空间点是否位于3D身体内。

    1. 确定每个身体部分的位置
    2. 对生成进行约束?

Stage2:人体渲染优化+物体生成

  1. 将anchor与输入文本一起使用以引导生成详细的三维HOI场景。对于人类模型,它建立了一个基本的几何结构,对于对象模型,则定义了应保持未占用的区域。
  2. 对文本进行识别,从而使其对不同的组件(human/obj)都能够产生语义指导,通过DeepFloyd模型[6]产生
  3. 引入了相机追踪模块,在不同文本条件下增强优化过程调整相机姿态,对每个场景方面进行最佳渲染。

人类渲染部分

有个和graphi不同的地方,这里是mesh作为条件,使用H_nerf直接生成人体姿态。graphi是抠出了人体姿态之后在上方进行纹理生成

  1. 优化头部区域

    1. 确定头部位置(COAP)

    2. 为头部区域特别增加文本提示 the head of从而对头部进行特别的渲染

      训练的损失函数如下,用来对头部进行关注,并且平衡与整个人体姿态的风格

  2. 人体mesh生成

    在生成时,anchor作为条件,anchor外的点也可以被占用,但随着它们远离锚点表面而概率逐渐降低。这种方法允许在锚点上添加几何细节,以确保模型与文本中描述的人类风格保持一致,并且结构根植于锚定姿势。使用的损失函数如下(可以进行身体的生成,为何不直接进行空mesh的生成,之后再渲染类似于3stage?)

  3. Object生成

    Nerf生成obj

  4. 整体渲染

    通过alpha混合渲染来整合H-NeRF和O-NeRF。alpha方法从每个点的密度计算出一个alpha值,并确定其对场景颜色的贡献。更高的alpha值表示更大的渲染影响。

标签:姿势,渲染,InterFusion,生成,HOI,anchor,人体
From: https://www.cnblogs.com/yujiesun-818/p/18561381

相关文章

  • 微信小程序处理后台返回的文件流生成图片
    原生js,文件流变成图片以前写过,今天在微信小程序中也遇到类似的问题 //形参arrayBuffer传入的就是后端返回的文件流arrayBufferToImage:function(arrayBuffer){constfileSystem=wx.getFileSystemManager();constfilePath=wx.env.USER_DATA_PATH+'/tem......
  • 可视化CSS3渐变背景颜色代码生成插件
    在线预览 特效下载 这是一款可以在线生成CSS3渐变背景颜色代码的可视化插件。你可以通过调节界面上给出的颜色、色相、饱和度和亮度滑块,以及渐变方向滑块来生成各种线性渐变,屏幕上会给出相应的CSS3线性渐变代码。该渐变背景颜色插件可以设置的选项有:BaseColor:Hue:色相......
  • 千鹿设计助手pod素材极速生成,创意无限!
    在这个瞬息万变的电商战场,每一秒都至关重要!您是否厌倦了冗长繁琐的设计流程,渴望一种能够瞬间点燃创意火花,同时高效产出个性化商品素材的解决方案?现在,让我们携手踏入千鹿设计助手中的POD(PrintonDemand,按需打印)素材生成的全新纪元,体验前所未有的高效与便捷!【一键生成,效率倍增......
  • Amazing QR!一款 Python 二维码生成器!
    大家好,我是Java陈序员。如今在生活中,二维码随处可见。信息获取、网站跳转、结账支付……一扫二维码全部搞定。今天,给大家介绍一款基于Python实现的二维码生成器!关注微信公众号:【Java陈序员】,获取开源项目分享、AI副业分享、超200本经典计算机电子书籍等。工具介绍Amazin......
  • 【数据库开发】数据库生成唯一序号
    在数据库管理系统中,序列(Sequence)是一种数据库对象,主要用于生成唯一的数值。不同的数据库系统对序列的支持方式可能不同。下面是DB2和MySQL中关于序列的一些信息:DB2中的序列在IBM的DB2数据库中,序列是一个独立的对象,可以被多个表或应用程序共享。通过使用CREATESEQUENCE语句来创......
  • 【花雕学编程】Arduino FOC 之B样条曲线生成与步进电机控制
    Arduino是一个开放源码的电子原型平台,它可以让你用简单的硬件和软件来创建各种互动的项目。Arduino的核心是一个微控制器板,它可以通过一系列的引脚来连接各种传感器、执行器、显示器等外部设备。Arduino的编程是基于C/C++语言的,你可以使用ArduinoIDE(集成开发环境)来编写、......
  • 信任的大型语言模型:通过知识库和双解码器定制和基于事实的文本生成
    在人工智能的世界中,大型语言模型(LLMs)的表现如同一位天才演员,尽管它们在内容生成方面技艺非凡,却常常因生成内容的领域限制而“演过了头”。就像《哈利·波特》中的榴莲糖,味道总是让人意外。为了让这些模型“脚踏实地”,我们需要确保其生成的内容基于一个经过验证的背景。这就......
  • 一键生成美观的彩页演示+AI的训练过程科普
    一键生成美观彩页+AI训练揭秘:让你的内容瞬间高大上!阅读时间:8分钟|字数:1300+你是否曾为制作精美的演示文稿而烦恼?是否对AI的训练过程充满好奇?今天,让我们一起探索如何用AI一键生成美观彩页,同时揭秘ChatGPT的训练过程!......
  • 解锁AI文本生成奥秘:Greedy、Beam、Top-k、Top-p与温度控制策略全揭秘
    InferenceStrategy(推理策略)推理策略(InferenceStrategy)是指在生成模型(如Transformer、GPT等)进行文本生成或预测时,决定每一步选择的输出(Token)的方法。不同的推理策略对生成的结果有着显著影响,主要体现在输出的质量、多样性、生成速度等方面。以下将深入探讨常见的推理策......
  • 似乎可以用源代码生成器生成用于单元测试的代理方法
    对于类中的非public方法,如果要进行单元测试就比较麻烦,因为单元测试项目里通常不能正常访问非public方法,此时解决方法一般有两个:一是把方法声明为internal,然后将单元测试项目设置为友元程序集。缺点是要改访问修饰符,对于我这种强迫症很不友好(二是用反射访问。缺点是接口要是改......