吴恩达的视频课是基本功,李沐的动手课是入门,论文精读系列是对行业现状的科普。
1,如何读论文:
标题,摘要,intro介绍,method算法,exp实验,conclusion结论。
快速找到合适自己的文章精读。
第一遍:标题,摘要,结论,图表
第二遍,完整读,看是不是真的相关,要不要读引用
第三遍,精读,脑补整个实验过程,自己做一遍会用什么方法,能不能在他的方向上加深研究。
2,alexnet ,图像识别,深度卷积神经网络开山之作。
3,resnet ,图像识别,残差神经网络,让层变得更深
4,transformer,继MLP,CNN,RNN之后的第四大类模型。原来在进行序列处理时,是通过注意力连接编码器和解码器,但现在不用循环或卷积,纯基于注意力机制。
5,GNN,图神经网络,把序列或关系或像素都通过矩阵表示成图。
6,前面都是判别模型,现在要讲的GAN是生成模型。GAN是生成模型和辨别模型的对抗。
7,BERT,使NLP能在大数据集上使用深的神经网络。他是transformer 模型的双向编码器表示
8,Vision transformer ,2021,transformer 模型直接搬到计算机视觉领域。
9,MAE,2021,CV版的Bert。
10,moco,2020,视觉领域使用对比学习,无监督表征学习,表明无监督学习在视觉领域真的可以。
11,swin transformer ,2021,在vit 之后进一步证明了transformer 可以在视觉领域取得广泛应用。
12,新意度*有效性(效果好,成本低,安全)*问题大小=价值。
13,CLIP,来自openai ,2021,算图片特征和预训练出的文本特征的相似性,从而识别图片。
14,双流网络,视频理解领域的开山之作。2014,把关注空间信息的那支神经网络叫做空间流卷积神经网络,把关注运动信息的卷积神经网络叫做时间流神经网络,把输入的单帧图片和光流图片转为分类概率,两个概率加权平均,得到最终预测。
15,gpt,生成式预训练,Gpt用了transform 的解码器,
16,codex,来自openai,是gpt的应用,用GitHub的代码预训练好gpt模型,从而根据文档生成代码。局限性是文档不能太长,代码不能太复杂。
17,alphacode,来自deep mind,允许更长的文档,可以生成更复杂的代码。
18,i3d模型,在双流基础上进一步发展。
19,DETR,2020,eccv最佳论文,解决了目标检测领域需要去除冗余框的非极大值抑制问题。
用transformer 全局建模进行集合预测,不会输出那么多冗余的框。
20,DALLE2,openai ,根据文本生成图片,根据文本对已有图片进行修好。不让用,没开源,但GitHub 上有dalle mini,但模型效果不好
清华,谷歌都相继推出了文字生成图片的模型,他们都是基于扩散模型,这几年对GAN已经挖掘完了,但扩散模型刚开始。
21,vilt ,2021,多模态,把目标检测从多模态框架中移除了。还是基于transformer ,视觉文本多模态。
22,clip用在各个领域:分割,目标检测,目标跟踪,视频,3D,语音,图像生成,多模态,
23,Chain of thought ,属于大语言模型(gpt和Bert那种预测词语)。
24,whisper ,来自openai ,gpt作者爬了70万带标号的语音数据,直接训练了一个transformer模型,发现它能打败很多开源的或商用的语音识别模型。
25,neural corpus indexer,用transformer 做文本检索
26,chat gpt,在gpt3.5的基础上微调而来。他用了跟instruct gpt一样的方法,这个是有论文的。
27,1000万训练个语言模型,api收费,大公司就这么盈利的。
Anthropic LLM,chatgpt 的竞争对手,谷歌的。
28,gpt4,上传网页图片能生成对应网页源代码。