首页 > 其他分享 >李沐论文精读系列

李沐论文精读系列

时间:2024-02-18 23:12:58浏览次数:30  
标签:transformer 精读 模型 论文 gpt 神经网络 2021 李沐

吴恩达的视频课是基本功,李沐的动手课是入门,论文精读系列是对行业现状的科普。

已经读过的,将要读的论文链接

1,如何读论文:
  标题,摘要,intro介绍,method算法,exp实验,conclusion结论。
  快速找到合适自己的文章精读。
  第一遍:标题,摘要,结论,图表
  第二遍,完整读,看是不是真的相关,要不要读引用
  第三遍,精读,脑补整个实验过程,自己做一遍会用什么方法,能不能在他的方向上加深研究。
2,alexnet ,图像识别,深度卷积神经网络开山之作。
3,resnet ,图像识别,残差神经网络,让层变得更深
4,transformer,继MLP,CNN,RNN之后的第四大类模型。原来在进行序列处理时,是通过注意力连接编码器和解码器,但现在不用循环或卷积,纯基于注意力机制
5,GNN,图神经网络,把序列或关系或像素都通过矩阵表示成图。
6,前面都是判别模型,现在要讲的GAN是生成模型。GAN是生成模型和辨别模型的对抗。
7,BERT,使NLP能在大数据集上使用深的神经网络。他是transformer 模型的双向编码器表示
8,Vision transformer ,2021,transformer 模型直接搬到计算机视觉领域。
9,MAE,2021,CV版的Bert。
10,moco,2020,视觉领域使用对比学习,无监督表征学习,表明无监督学习在视觉领域真的可以。
11,swin transformer ,2021,在vit 之后进一步证明了transformer 可以在视觉领域取得广泛应用。
12,新意度*有效性(效果好,成本低,安全)*问题大小=价值。
13,CLIP,来自openai ,2021,算图片特征和预训练出的文本特征的相似性,从而识别图片。
14,双流网络,视频理解领域的开山之作。2014,把关注空间信息的那支神经网络叫做空间流卷积神经网络,把关注运动信息的卷积神经网络叫做时间流神经网络,把输入的单帧图片和光流图片转为分类概率,两个概率加权平均,得到最终预测。
15,gpt,生成式预训练,Gpt用了transform 的解码器,
16,codex,来自openai,是gpt的应用,用GitHub的代码预训练好gpt模型,从而根据文档生成代码。局限性是文档不能太长,代码不能太复杂。
17,alphacode,来自deep mind,允许更长的文档,可以生成更复杂的代码。
18,i3d模型,在双流基础上进一步发展。
19,DETR,2020,eccv最佳论文,解决了目标检测领域需要去除冗余框的非极大值抑制问题。
用transformer 全局建模进行集合预测,不会输出那么多冗余的框。
20,DALLE2,openai ,根据文本生成图片,根据文本对已有图片进行修好。不让用,没开源,但GitHub 上有dalle mini,但模型效果不好
清华,谷歌都相继推出了文字生成图片的模型,他们都是基于扩散模型,这几年对GAN已经挖掘完了,但扩散模型刚开始。
21,vilt ,2021,多模态,把目标检测从多模态框架中移除了。还是基于transformer ,视觉文本多模态。
22,clip用在各个领域:分割,目标检测,目标跟踪,视频,3D,语音,图像生成,多模态,
23,Chain of thought ,属于大语言模型(gpt和Bert那种预测词语)。
24,whisper ,来自openai ,gpt作者爬了70万带标号的语音数据,直接训练了一个transformer模型,发现它能打败很多开源的或商用的语音识别模型。
25,neural corpus indexer,用transformer 做文本检索
26,chat gpt,在gpt3.5的基础上微调而来。他用了跟instruct gpt一样的方法,这个是有论文的。
27,1000万训练个语言模型,api收费,大公司就这么盈利的。
Anthropic LLM,chatgpt 的竞争对手,谷歌的。
28,gpt4,上传网页图片能生成对应网页源代码。

标签:transformer,精读,模型,论文,gpt,神经网络,2021,李沐
From: https://www.cnblogs.com/zhaot1993/p/18020127

相关文章

  • 《Boosting Document-Level Relation Extraction by Mining and Injecting Logical Ru
    代码原文地址摘要文档级关系抽取(DocRE)旨在从文档中抽取出所有实体对的关系。DocRE面临的一个主要难题是实体对关系之间的复杂依赖性。与大部分隐式地学习强大表示的现有方法不同,最新的LogiRE 通过学习逻辑规则来显式地建模这种依赖性。但是,LogiRE需要在训练好骨干网络之后,......
  • 读论文-基于会话的推荐系统研究
    前言今天读的一篇论文名为《基于会话的推荐系统研究》(Asurveyonsession-basedrecommendersystems),文章于2021年发表于ACMComputingSurveys(CSUR);要引用这篇论文,请使用以下格式:[1]Wang,Shou**,etal."Asurveyonsession-basedrecommendersystems."ACMComputin......
  • 《SagDRE: Sequence-Aware Graph-Based Document-Level Relation Extraction with Ada
    代码原文地址关键参考文献:Document-LevelRelationExtractionwithAdaptiveThresholdingand LocalizedContextPooling摘要关系抽取(RE)是许多自然语言处理应用的重要任务,它的目标是从文档中抽取出实体之间的关系。文档级RE任务面临着许多挑战,因为它不仅需要跨句子......
  • 中国首次对论文撤稿和科研不端行为进行全国性审查
    相关:史无前例:中国首次对论文撤稿和科研不端行为进行全国性审查2月15日就是截止日期了,届时,各个大学必须提交一份过去三年内从英文和中文期刊撤稿的所有学术文章的综合清单。教育部科技信息化司于2023年11月20日发布的通知显示,提交的清单还需要进一步解释论文被撤稿的原因,并对涉......
  • 《Learning from Context or Names?An Empirical Study on Neural Relation Extractio
    代码原文地址预备知识:1.什么是对比学习?对比学习是一种机器学习范例,将未标记的数据点相互并列,以教导模型哪些点相似,哪些点不同。也就是说,顾名思义,样本相互对比,属于同一分布的样本在嵌入空间中被推向彼此。相比之下,属于不同分布的那些则相互拉扯。摘要神经模型在关系抽取(RE......
  • 读论文-基于会话的推荐系统综述(A survey on session-based recommender systems)
    前言今天读的论文是一篇于2021年发表于"ACMComputingSurveys(CSUR)"的论文,文章写到,推荐系统在信息过载时代和数字化经济中非常重要。基于会话的推荐系统(SBRSs)是新的推荐系统范式,不同于其他模型化长期静态用户偏好的推荐系统,SBRSs专注于捕捉短期动态用户偏好。尽管SBRSs已被深......
  • 【论文笔记】用于遥感图像语义分割的几何边界引导特征融合与空间-语义上下文聚合技术
    作者:YupeiWang发表年代:2023使用的方法:边界指导、上下文聚合来源:IEEETIP方向:语义分割期刊层次:CCFA;计算机科学1区;IF13.3文献链接:https://doi.org/10.1109/TIP.2023.3326400WangY,ZhangH,HuY,etal.Geometricboundaryguidedfeaturefusionandspa......
  • MPNN论文阅读笔记
    arXiv:1704.01212v2[cs.LG]12Jun2017MPNN消息传递神经网络,专为图数据设计其前向传播可划分为两个阶段:消息传递与读出消息传播阶段如下:Mt是t时刻的消息函数,Ut为t时刻的节点更新函数,evw是边vw的特征,htv是顶点v在t时刻的hiddenfeature,h0v则为最初的节点特征,经过消息的多次......
  • 读论文-顺序推荐系统:挑战、进展和前景(Sequential recommender systems: challenges,
    前言今天读的论文为一篇于2019年发表的论文,是关于顺序推荐系统(SequentialRecommenderSystems,SRSs)的研究,作者对SRSs的挑战、进展和前景进行了系统综述。要引用这篇论文,请使用以下格式:Wang,Shou,etal."Sequentialrecommendersystems:challenges,progressandprospect......
  • 读论文-协同过滤技术综述(A Survey of Collaborative Filtering Techniques)
    前言今天读的一篇论文题目为《协同过滤技术综述》(ASurveyofCollaborativeFilteringTechniques),文章发表于《人工智能研究进展》(AdvancesinArtificialIntelligence)。要引用这篇论文,请使用下述格式:XiaoyuanSu,TaghiM.Khoshgoftaar,"ASurveyofCollaborativeF......