首页 > 其他分享 >BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

BACON: Supercharge Your VLM with Bag-of-Concept Graph to Mitigate Hallucinations

时间:2024-07-05 10:44:31浏览次数:18  
标签:box Supercharge Concept VLM graph BACON bounding

目录

[Yang Z., Feng R., et al. BACON: Supercharge your vlm with bag-of-concept graph to mitigate hallucinations. 2024.]

本文提出了一种新的数据格式: BACON (BAg-of-Concept graph).

BACON

  • BACON 希望将一个图片转换为 \(G = (D, O, R, B)\) 的数据格式:
    • \(D\) 为文本描述;
    • \(O\) 为图片中的目标实体;
    • \(R\) 为实体的关系;
    • \(B\) 为实体的 bounding box.

  • 为了构建这个图, 作者利用 GPT-4V 或者 (在本文收集的 BACON dataset 上微调后的) LLaVA-13B 上进行实体和关系的抽取. 通过 In-context learning, GPT-4V 能够给出 \((D, O, R)\), 当然作者说这些是提供模板了的.

  • 接着, bounding box 通过 Grounding DINO 得到. 需要注意的时候, DINO 返回的是同一类实体的 bounding box, 所以可能会有多个, 所以再通过 LLaVA 和 CLIP 进行筛选和过滤 (下图展示的就是 graph grounding 的过程)

代码

[official]

标签:box,Supercharge,Concept,VLM,graph,BACON,bounding
From: https://www.cnblogs.com/MTandHJ/p/18285305

相关文章

  • CogVLM/CogAgent环境搭建&推理测试-CSDN博客
    引子最近在关注多模态大模型,之前4月份的时候关注过CogVLM(https://blog.csdn.net/zzq1989_/article/details/138337071?spm=1001.2014.3001.5501)。模型整体表现还不错,不过不支持中文。智谱AI刚刚开源了GLM-4大模型,套餐里面包含了GLM-4V-9B大模型,模型基于GLM-4-9B的多模态模型GL......
  • CoLLEGe: Concept Embedding Generation for Large Language Models
    本文是LLM系列文章,针对《CoLLEGe:ConceptEmbeddingGenerationforLargeLanguageModels》的翻译。CoLLEGe:大型语言模型的概念嵌入生成摘要1引言2相关工作3CoLLEGe:概念学习与语言嵌入生成4用于训练CoLLEGe的数据集5实验6结论和讨论摘要当前的语言......
  • LMDeploy量化部署LLM&VLM实践
    一、前提知识:大模型部署背景:什么是模型部署:部署面临的挑战:受Transformer架构影响:常见GPU算力还能一战,但是显存带宽受限严重,时间花费在数据交换上居多大模型部署方法:模型参数以定点数或整数形式存储,实际计算时,反量化为浮点数去计算,再用定点数和整数去存储计算结......
  • AI推介-多模态视觉语言模型VLMs论文速览(arXiv方向):2024.05.25-2024.05.31
    文章目录~1.EmpoweringVisualCreativity:AVision-LanguageAssistanttoImageEditingRecommendations2.Bootstrap3D:Improving3DContentCreationwithSyntheticData3.Video-MME:TheFirst-EverComprehensiveEvaluationBenchmarkofMulti-modalLLMsin......
  • ACM CCS CONCEPTS 翻译
    根据ACM的出版要求,请在正文中关键词的下面补充CCSCONCEPTS部分。CCS操作如下:登录https://dl.acm.org/ccs选择,根据自己研究方向选择类目,复制张贴CCS中所选类目的文字。并将CCS的代码复制在文件的备注栏(请参考ACM-2的操作指引)。目前首页总共有13个类目,含义和内容分别如下:G......
  • Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonom
    发表时间:2024文章要点:文章对LLM增强强化学习(LLM-enhancedRL)的现有文献进行了总结。在agent-environment交互的范式下,讨论LLM对RL算法的帮助。文章先给出LLM-enhancedRL的概念:themethodsthatutilizethemulti-modalinformationprocessing,generating,reasoning,etc.......
  • CogVLM/CogAgent环境搭建&推理测试
    ​引子对于多模态大语言模型,一直没有怎么接触。刚巧一朋友有问到这方面的问题,也就顺手调研下。智谱AI的东西一直以来,还是很不错的。ChatGLM的忠实fans,看到白嫖网站github上有他们开源的多模态CogVLM/CogAgent,那就顺手看看了。OK,让我们开始吧。一、模型介绍CogVLM 是一个强大......
  • process concept
    进程的定义程序和进程Aprogramisapassiveentity(是被动的主体),suchasafilecontainingalistofinstructionsstoredondisk(oftencalledanexecutablefile(就是可执行文件))Aprogrambecomesaprocesswhenanexecutablefileisloadedintomemory.(可执......
  • Verification -- Basic Concepts ~ 5. Assertion Based Verification
    AssertionBasedVerification基于断言的验证(ABV)是一种将断言用作验证数字设计正确性的主要手段的技术。断言是描述在设计中必须始终为真的条件的语句,通常使用硬件描述语言(如SystemVerilog或VHDL)编写。ABV背后的基本思想是结合使用功能和形式验证设计是否满足其功能要求。Sy......
  • Verification -- Basic Concepts ~ 4. Constraint Random Verification
    ConstraintRandomVerificationConstraintRandomVerification(CRV)是一种用于生成具有特定约束的随机测试用例的技术,以确保生成的输入激励满足某些设计要求。在CRV中,定义了一组捕获设计要求的约束,例如数据范围、时序要求和接口协议。然后,测试平台生成一组满足这些约束条......