三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。
但是本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。
1、LLaMA: Open and Efficient Foundation Language Models
Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample
https://arxiv.org/pdf/2302.13971
开源的LLaMA,并且开放了模型权重,但是需要申请才可以下载,不过有网友已经将它全部公开下载了,这对我们来说是个好事。这个模型在超过一万亿令牌上进行训练,主要包括以下几个模型:
这些模型是在完全公开的数据上进行训练的,它们在各种QA和常识推理任务中都能在零样本和少样本中取得出色的表现。
这些开源的模型既没有经过微调,也没有RLHF化,所以还需要我们自行调教,这也正好适合我们的弯道超车,下载地址我们以前已经发布过了,有兴趣的可以去看看。
完整文章:
https://avoid.overfit.cn/post/f1efb21c3ca54c9aa266aa9a623a42f6
标签:10,LLaMA,模型,论文,https,2023 From: https://www.cnblogs.com/deephub/p/17232517.html