• 2024-09-03Grounding DINO: Marrying DINO with Grounded Pre-Training for Open-Set Object Detection 论文初读
    AbstractInthispaper,wepresentanopen-setobjectdetector,calledGroundingDINO,bymarryingTransformer-baseddetectorDINOwithgroundedpre-training,whichcandetectarbitraryobjectswithhumaninputssuchascategorynamesorreferringexpre
  • 2024-05-28检测一切!Grounding DINO 1.5:最强开集目标检测模型
    前言 目标检测领域,迎来了新进展——GroundingDINO1.5,IDEA研究院团队出品,在端侧就可实现实时识别。欢迎关注公众号CV技术指南,专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。本文转载自量子位仅用于学术分享,若侵权请联系删除CV方向的准研究生们,未来
  • 2024-04-04[CVPR2023]Detecting and Grounding Multi-Modal Media Manipulation-DGM4
    DGM4人造DeepFake数据——Multi-ModalMediaManipulationDataset再造数据集的意义此前的其他相关数据集要么是单模态的Fake图片篡改:文本篡改要么是多模态小规模数据human-generated:outofcontextpairs:并且都是二分类问题(单纯分类为“是否”为fake数据)DGM
  • 2024-02-26Grounding DINO
    GroundingDINOMarryingDINOwithGroundedPre-TrainingforOpen-SetObjectDetection目录GroundingDINOMarryingDINOwithGroundedPre-TrainingforOpen-SetObjectDetectionAbstract1.Introduction2.RelatedWork3.GroundingDINO3.1.FeatureExtractionandEnh
  • 2023-12-30GroundingDINO-根据文本提示检测任意目标
    1.背景介绍GroundingDINO是一种新的SOTA零样本物体检测模型。在这篇文章中,我们将讨论GroundingDINO模型的优势,分析其具体的模型架构,并提供真实的测试样例。闲话少说,我们直接开始吧!2.零样本目标检测大多数目标检测模型被训练来识别预先定义的特定类别的集合,这方面的主要缺陷是缺乏
  • 2023-12-06【论文阅读笔记】【多模态-Referring & Grounding】 Grounded Language-Image Pre-training
    GLIPCVPR2022(Oral,BestPaperFinalist)读论文思考的问题论文试图解决什么问题?写作背景是什么?问题:如何将视觉-语言预训练技术应用在以目标检测为代表的fine-grainedimageunderstanding上面?如何在增加训练数据的同时,使目标检测模型具有良好的语义理解能力,能
  • 2023-12-05GLIP:Grounded Language-Image Pre-training
    GroundedLanguage-ImagePre-training目录GroundedLanguage-ImagePre-training简介摘要Introduction统一的损失函数方法总结参考资料GLIPv1:GroundedLanguage-ImagePre-trainingGLIPv2:UnifyingLocalizationandVLUnderstanding代码地址:https://github.com/micr
  • 2023-10-26多模态大模型的grounding能力
    数据集a)QW-VL:VisualGenome,RefCOCO,RefCOCO+,RefCOCOg,b)CogVLM:Visual7W,Flickr30K-Entitiesc)Kosmos2:GRITOFAUnifyingArchitectures,Tasks,andModalitiesThroughaSimpleSequence-to-SequenceLearningFramework将多模态任务统一为seq2seq,最大模型900M文本,图片
  • 2023-04-30使用Dino+SAM+Stable diffusion 自动进行图片的修改
    SAM是Mata发布的“SegmentAnythingModel”可以准确识别和提取图像中的对象。它可以分割任何的图片,但是如果需要分割特定的物体,则需要需要点、框的特定提示才能准确分割图像。所以本文将介绍一种称为GroundingDino的技术来自动生成SAM进行分割所需的框。除了分割以外,我
  • 2023-04-21meta seg_anything and grounding_dino
    https://github.com/IDEA-Research/GroundingDINOhttps://github.com/facebookresearch/segment-anything
  • 2023-03-01[3] ScanRefer论文精读 3DVisual Grounding开山之作
    论文名称:ScanRefer:3DObjectLocalizationinRGB-DScansusingNaturalLanguage这篇文章最主要的工作,我觉得是两个,第一,提出了一个问题;第二,比较简单地解决了这个问题
  • 2023-02-28ZIAO日报 202302
    2023.22023年2月14日10:23 2023.2.14继续读《Multi-ViewTransformerfor3DVisualGrounding》,读到了relatedwork读了三分之一;做好了集群的分用户以及部分配置;
  • 2023-02-17当前我对Visual Grounding的看法
    3DVisualGrounding在看到相关论文的时候,我有一种非常严重的直觉——我的博士课题大概就是做这个了,虽然还没找老师聊。简要解释:在这个任务中,研究者的主要目标是探索如何
  • 2022-11-25【五期伍捷威】CCF-A(AAAI'20)Federated Learning for Vision-and-Language Grounding Problems
    Li,Li,etal."Areviewofapplicationsinfederatedlearning."Computers&IndustrialEngineering149(2020):106854.CCF-A(AAAI'20)  本论文提出了一种联
  • 2022-10-12【四期陶富强】CCF-A(AAAI 20)Federated learning for vision-and-language grounding problems.
    [1] LiuF,WuX,GeS,etal.Federatedlearningforvision-and-languagegroundingproblems[C]//ProceedingsoftheAAAIConferenceonArtificialIntelligence.