首页 > 其他分享 >2023年3月的10篇论文推荐

2023年3月的10篇论文推荐

时间:2023-03-19 10:13:59浏览次数:51  
标签:10 LLaMA 模型 论文 https 2023

三月有很多的重大产品发布,包括刚刚发布的GPT4,还有Meta刚发布就被泄露的LLaMA,midjourney V5,还有ChatGPT的API(非常便宜)等等。

但是本文整理的是本月应该阅读的10篇论文,将包括多模态语言模型、扩散模型、机器翻译等主题。

1、LLaMA: Open and Efficient Foundation Language Models

Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample

https://arxiv.org/pdf/2302.13971

开源的LLaMA,并且开放了模型权重,但是需要申请才可以下载,不过有网友已经将它全部公开下载了,这对我们来说是个好事。这个模型在超过一万亿令牌上进行训练,主要包括以下几个模型:

 

 

这些模型是在完全公开的数据上进行训练的,它们在各种QA和常识推理任务中都能在零样本和少样本中取得出色的表现。

 

 

这些开源的模型既没有经过微调,也没有RLHF化,所以还需要我们自行调教,这也正好适合我们的弯道超车,下载地址我们以前已经发布过了,有兴趣的可以去看看。

完整文章:

https://avoid.overfit.cn/post/f1efb21c3ca54c9aa266aa9a623a42f6

标签:10,LLaMA,模型,论文,https,2023
From: https://www.cnblogs.com/deephub/p/17232517.html

相关文章

  • 100道python基础题——(9)
    多组输入问题:编写一个程序,接受一行序列作为输入,并在将句子中的所有字符大写后打印行。假设向程序提供以下输入:HelloworldPracticemakesperfect则输出为:HELLOWORLDP......
  • Spring Study-lesson13-整合Mybatis-2-2023-3-19
    进一步优化将UserMapperImpl进行优化,继承系统提供的一个父类:extendsSqlSessionDaoSupport  新建一个:UserMapperImpl2类 继承父类,实现UserMapper接口。简化成一行......
  • Spring Study-lesson13-整合Mybatis-1-2023-3-19
    在配置前要加载依赖以及build (pom.xml中添加各种依赖)以及连接数据库<?xmlversion="1.0"encoding="UTF-8"?><projectxmlns="http://maven.apache.org/POM/4.0.0"......
  • 100道python基础题——(7)
    问题:编写一个程序,以2位数字,X,Y作为输入,生成一个二维数组。数组的第i行和第j列中的元素值应该是i*j。注意:i=0,1..,X-1;j=0,1,­Y-1。例子假设程序有以下输入:......
  • 110Js自执行函数
    JavaScript自执行函数(Self-ExecutingFunctions),也被称为立即执行函数(ImmediatelyInvokedFunctionExpressions,IIFE),是一种常见的JavaScript编程模式。这种模式的基本思路......
  • day18(2023.3.18)
    1.ArrayList容器① 运行结果: 2.ArrayList容器② 运行结果: 3.ArrayList容器③ 运行结果: 4.Vector容器 运行结果: 5.LinkedList容器(List标准......
  • 8-10
    编写程序定义类Point,有数据成员x,y.为其定义友元函数实现重载“+”。1#include<iostream>2#include<string>3#include<string.h>4#include<stdio.h>5u......
  • 2023年春面向对象第一单元
    23年春面向对象第一单元分析与总结目录 前言 架构  解析方法  数据结构  类图分析 基于度量的程序结构分析 BUG分析 互测相关 总结前言OO第一单元......
  • java学习日记20230317-多态
    多态方法和对象爱过你具有多种形态,是面向对象的第三大特征,多态是建立在封装和继承的基础上;方法的重载体现多态方法的重写体现多态对象的多态一个对象的编译类型和......
  • 2023.3.18软件工程日报
    时间:6小时代码量:500行今日把地铁系统的基本功能实现了,包括三个功能,前两个功能在上课的时候已经构思并基本实现,但是第三个功能确实费了些时间,但是也基本完成,目前仍需要在......