- 2024-11-08LLM | 论文精读 | CVPR | 基于问题驱动图像描述的视觉问答增强引言
论文标题:EnhancingVisualQuestionAnswering throughQuestion-DrivenImageCaptionsasPrompts作者:Övg̈uÖzdemir,ErdemAkagünd̈uz期刊:CVPR2024引言视觉问答(VisualQuestionAnswering,VQA)是计算机视觉与自然语言处理交叉领域中的典型多模态任
- 2024-11-07【论文精读】BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
【论文精读】BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding作者:JacobDevlin,Ming-WeiChang,KentonLee,KristinaToutanova发表会议:NAACL2019论文地址:arXiv:1810.04805BERT是近年来NLP领域影响最大的模型。在CV领域,很早
- 2024-10-31LLM | 论文精读 | 地学视觉语言大模型:Towards Vision-Language Geo-Foundation Model: A Survey
论文标题:TowardsVision-LanguageGeo-FoundationModel:ASurvey作者:YueZhou,LitongFeng,YipingKe,XueJiang,JunchiYan,XueYang,WayneZhang期刊:未提供DOI:https://arxiv.org/abs/2406.09385email:
[email protected]创作不易,恳请大家点赞收藏支持:)论
- 2024-10-3010月30日记录(《代码大全》(第二版)精读笔记)
《代码大全》中对于“代码质量”和“设计原则”的探讨深刻而全面,给我留下了深刻的印象。在当今快速发展的软件开发环境中,理解和应用这些概念对于提升开发效率和软件质量至关重要。首先,关于代码质量,麦克康奈尔强调了代码不仅需要正确实现功能,还必须具备良好的可读性和可维护性。代
- 2024-10-29如何使用ai高效学习?
如何使用ai高效学习?chatgpt:chatgpt.com,把上课讲义截图,复制给gpt(一次限制不超过2张,建议1张,避免ai偷懒)。指令为:“请为我解释这张图中的知识点,请就这个问题进行全面、深入、详细的解答,以中文回答我。我很乐意为你的优质回答支付100美元的小费。“如果感到自己缺乏理解,请在gpt对话
- 2024-10-29【论文精读】On the Relationship Between Self-Attention and Convolutional Layers
【论文精读】OntheRelationshipBetweenSelf-AttentionandConvolutionalLayers作者:Jean-BaptisteCordonnier,AndreasLoukas,MartinJaggi发表会议:ICLR2020论文地址:arXiv:1911.03584v2目录【论文精读】OntheRelationshipBetweenSelf-AttentionandConv
- 2024-10-17ResNet论文精读
ResNet是一种深度卷积神经网络架构,由微KaimingHe等人于2015年提出。ResNet的核心在于引入了残差学习的概念,通过构建残差块来解决深度神经网络训练中的梯度消失和梯度爆炸问题,从而使得训练非常深的网络成为可能。左图为普通结构,右图是ResNet的基础架构–残差块,在残差块中,
- 2024-10-17论文精读:多源域自适应目标检测中的目标相关知识保存(CVPR2022)
原文标题:Target-RelevantKnowledgePreservationforMulti-SourceDomainAdaptiveObjectDetection中文标题:多源域自适应目标检测中的目标相关知识保存论文地址:https://arxiv.org/pdf/2204.07964代码地址:无官方实现?我有点纳闷难道顶会不公布代码的吗这篇文章是由北
- 2024-10-13【AI论文精读3】RAG论文综述1-P4-生成和增强
【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI大项目】【AI应用】P1,P2,P3四、生成在检索之后,直接将所有检索到的信息输入到大语言模型(LLM)中以回答问题并不是一种良好的做法。接下来将从两个方面介绍调整方法:调整检索到的内容和调整大语言模型。4.1上
- 2024-10-12【AI论文精读12】RAG论文综述2(微软亚研院 2409)P4-隐性事实查询L2
AI知识点总结:【AI知识点】AI论文精读、项目、思考:【AI修炼之路】P1,P2,P3四、隐性事实查询(L2)4.1概述ps:P2有四种查询(L1,L2,L3,L4)的举例对比隐性事实查询是指那些依赖于数据中未立即显现的关联,需要通过常识推理或基本逻辑推断才能得出的查询。这类信息可能分散在多个
- 2024-10-08【RAG论文精读3】RAG论文综述1(2312.10997)-第1部分
收录于我的专栏:AI修炼之路简介论文中英文名Retrieval-AugmentedGenerationforLargeLanguageModels:ASurvey面向大型语言模型的检索增强生成:综述论文地址arxiv地址:https://arxiv.org/abs/2312.10997精读理由这篇综述论文对RAG在大型语言模型中的应用进行了
- 2024-09-26[大语言模型-论文精读] Diffusion Model技术-通过时间和空间组合扩散模型生成复杂的3D人物动作
GenerationofComplex3DHumanMotionbyTemporalandSpatialCompositionofDiffusionModelsLMandelli,SBerretti -arXivpreprintarXiv:2409.11920,2024通过时间和空间组合扩散模型生成复杂的3D人物动作摘要本文提出了一种新的方法,用于生成在
- 2024-09-26[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成
MoRAG--Multi-Fusion Retrieval AugmentedGenerationforHumanMotionKSShashank,SMaheshwari,RKSarvadevabhatla -arXivpreprintarXiv:2409.12140,2024MoRAG-基于多部分融合的检索增强型人体动作生成1.目录MoRAG--Multi-Fusion Retrieval Augment
- 2024-09-22[大语言模型-论文精读] 以《黑神话:悟空》为研究案例探讨VLMs能否玩动作角色扮演游戏?
1.论文简介论文《CanVLMsPlayActionRole-PlayingGames?TakeBlackMythWukongasaStudyCase》是阿里巴巴集团的PengChen、PiBu、JunSong和YuanGao,在2024.09.19提交到arXiv上的研究论文。论文:https://arxiv.org/abs/2409.12889代码和数据:https://varp-
- 2024-09-20ACL会议2024-MPLMM精读
论文地址:MultimodalPromptLearningwithMissingModalitiesforSentimentAnalysisandEmotionRecognition-ACLAnthology代码地址:GitHub-zrguo/MPLMM:[ACL2024Main]OfficialPyTorchimplementationofthepaper"MultimodalPromptLearningwithMissingMo
- 2024-09-18精读《C Primer Plus》——作用域(scope)
作用域(scope)参考:CPrimerPlus第6版第12章存储类别、链接和内存管理1.分类2.blockscope/块作用域2.1.定义block/块是用一块花括号括起来的代码区域块作用域变量的范围是从定义处到包含该定义块的末尾声明在内层块中的变量,其作用域仅局限于该声明所在的块
- 2024-09-10论文精读-U-KAN Makes Strong Backbone for Medical Image Segmentation and Generation
论文链接:https://arxiv.org/abs/2406.02918 论文代码:https://yes-u-kan.github.io/一、参考文献[1]LiC,LiuX,LiW,etal.U-KANMakesStrongBackboneforMedicalImageSegmentationandGeneration[J].arXivpreprintarXiv:2406.02918,2024.[2]LiuZ,Wan
- 2024-09-09医学人工智能必读顶刊综述推荐|顶刊速递·24-09-09
小罗碎碎念本期主题:医学AI综述最近应该很不少小伙伴在准备硕士/博士的开题,如果你的课题是与医学AI相关的,那么这期推文建议你好好读一读,共计13篇顶刊综述——病理组学7篇,影像组学6篇。虽然我只分了两类,但是里面包含了多模态的综述,也就是说你可以在这些文献中获取与基因
- 2024-09-03论文精读
如何读一篇论文第一步阅读title、abstract和figures。通过阅读title、abstract、figures和实验部分,可以对论文有一个大致的理解。大部分深度学习论文,都会总结出一两张图片让你理解起来更方便,而不需要通过阅读整篇论文。第二步阅读introduction,conclusions,figures和浏览
- 2024-08-15【公式推导】Elucidating the Design Space of Diffusion-Based Generative Models 【论文精读】
ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels论文精读关注B站可以观看更多实战教学视频:hallo128的个人空间【更新中】EDM论文精读论文链接(1)论文:ElucidatingtheDesignSpaceofDiffusion-BasedGenerativeModels(2)引用:KarrasT,Aittala
- 2024-08-13精读代码,实战进阶&实践Task2
背景从零入门AI生图原理&实践是Datawhale2024年AI夏令营第四期的学习活动(“AIGC”方向),基于魔搭社区“可图Kolors-LoRA风格故事挑战赛”开展的实践学习——适合想入门并实践AIGC文生图、工作流搭建、LoRA微调的学习者参与学习内容提要:从文生图实现方案逐渐进阶,教程
- 2024-08-09多尺度病理图像纹理特征作为肺腺癌预后预测的新指标|文献精读·24-08-09
小罗碎碎念这一期推文分享的文献是2022年发表于JournalofTranslationalMedicine的一篇文章,目前IF=6.1。这篇文章值得刚入门病理AI领域的老师/同学仔细研读,因为思路清晰,该讲到的流程基本都涉及了,详细讲述了病理图像的各种纹理特征,并给出了具体的计算方式。此外,还介
- 2024-08-03Task2 baseline01 精读 #datawhale夏令营
写在前面这个是datawhale夏令营2024年第三期的第二次Task的笔记,由于Task2要求的是精读代码,而我在第一篇文章中已经精读的差不多了,这篇文章我就总结升华一下上篇文章的内容,并且补充说明一下上一篇文章说的不太完善的__main__函数后面的部分内容。好了,我们开始今天的探索之旅
- 2024-07-07大一暑期记录(1)
在暑假开始的第一周我阅读了王建民老师推荐的书籍《大道至简:软件工程实践者的思想》的前五章,其中第一章通过引用愚公移山这一故事讲解了编程的精义鼓舞了我这个编程菜鸟的内心,这一张内容较为易懂所以看得很快,但从第二章就开始涉及团队的协作与管理以及一些专业术语,这让这本书的理
- 2024-07-06LSS (Lift, Splat, Shoot)论文精读
图1:我们提出了一个模型,该模型给定多视图相机数据(左侧),直接在鸟瞰视图(BEV)坐标系(右侧)中推断语义。我们展示了车辆分割(蓝色)、可行驶区域(橙色)和车道分割(绿色)。然后,这些BEV预测被投影回输入图像(左侧的点)。论文地址:Lift,Splat,Shoot:EncodingImagesfromArbitrar