首页 > 其他分享 >大模型涉及到的比较经典的论文

大模型涉及到的比较经典的论文

时间:2023-12-24 18:00:14浏览次数:36  
标签:本文 training 模型 论文 introduces paper 经典 GPT

大模型涉及到的比较经典的论文:

 

    • 2014 Neural Machine Translation by Jointly Learning to Align and Translate - This paper introduces an attention mechanism in RNNs to improve the long sequence modelling of RNNs. This paper introduces an attention mechanism to RNNs to improve their long sequence modelling capabilities. This enables RNNs to translate longer sentences more accurately.
      2014 Neural Machine Translation by Jointly Learning to Align and Translate - 本文介绍了 RNN 中的注意机制,以改进 RNN 的长序列建模。本文引入了 RNN 的注意力机制,以提高其长序列建模能力。这使得 RNN 能够更准确地翻译较长的句子。
    • 2017 Attention Is All You Need - This paper introduces the structure of the original Transformer and is the basis for the Transformer family.
      2017 Attention Is All You Need - 本文介绍了原始 Transformer 的结构,是 Transformer 系列的基础。
    • 2018 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding - This paper ushered in the era of pre-training in NLP. BERT came out of nowhere.
      2018 BERT:用于语言理解的深度双向变换器的预训练 - 这篇论文开创了 NLP 预训练的时代。 BERT 不知从何而来。
    • 2018 Improving language understanding by generative pre-training - This paper introduces another popular pre-training model, also known to later generations as GPT-1.
      2018 Improving language Understanding by Generative Pre-training - 本文介绍了另一种流行的预训练模型,也被后人称为 GPT-1。
    • 2019 Language models are unsupervised multitask learners - This paper introduces GPT-2.
      2019 语言模型是无监督多任务学习器 - 本文介绍了 GPT-2。
    • 2020 Language Models are Few-Shot Learners - This paper introduces GPT-3.
      2020 语言模型是少样本学习者 - 本文介绍了 GPT-3。
    • 2022 Training lanquage models to follow instructions with human feedback - This paper presents an RLHF approach to using supervised learning to fine-tuning. It is also known as a paper that illustrates the kernel of ChatGPT's thinking. Presumably, ChatGPT is an extended version of InstructGPT that enables fine-tuning on larger datasets.
      2022 训练语言模型遵循人类反馈的指令 - 本文提出了一种使用监督学习进行微调的 RLHF 方法。也被誉为阐释ChatGPT思想核心的论文。据推测,ChatGPT 是 InstructGPT 的扩展版本,可以在更大的数据集上进行微调。
    • 2023 GPT-4 Technical Report We report the development of GPT-4, a large-scale, multimodal model which can accept image and text inputs and produce text outputs.
      2023 GPT-4 技术报告 我们报告了 GPT-4 的开发,这是一种大规模、多模式模型,可以接受图像和文本输入并产生文本输出。
    • awesome-chatgpt-papers https://www.aliyundrive.com/s/RenfDZjta8T 提取码:5y6m

摘自:https://github.com/OpenMindClub/awesome-chatgpt#the-technical-principle-of-chatgpt

 

 

 

 

 

<iframe height="240" style="display: none !important" width="320"></iframe>

标签:本文,training,模型,论文,introduces,paper,经典,GPT
From: https://www.cnblogs.com/wanghengbin/p/17924667.html

相关文章

  • 【线性回归模型评价指标解析】
    线性回归模型评价指标解析(文章目录)前言线性回归是统计学中一种常见的方法,用于建立自变量与因变量之间的线性关系模型。在实际应用中,我们常常需要对线性回归模型的性能进行评估,以了解模型的拟合程度和预测能力。本文将介绍线性回归中几种常见的模型评价指标,包括均方误差(MeanS......
  • 大模型的评测
    https://hf-mirror.com/spaces/HuggingFaceH4/open_llm_leaderboardHowitworks......
  • 【论文精读#1】SPGAN-DA:用于领域自适应遥感图像语义分割的语义保留生成对抗网络
    作者:YanshengLi发表年代:2023使用的方法:无监督领域自适应(UDA)、GAN、ClassMix、边界增强来源:IEEETGRS方向:语义分割期刊层次:CCFB;工程技术1区;IF8.2文献链接:https://doi.org/10.1109/TGRS.2023.3313883LiY,ShiT,ZhangY,etal.SPGAN-DA:Semantic-Pres......
  • ml.net例子笔记8-生成式AI-大模型LLM
    生成式AI生成式AI是指能够通过学习数据和语言,生成新的、在某种程度上相似的输出,这种技术由深度学习特别是神经网络的快速发展推动。一、数据:AI的燃料首先,要理解生成式AI,我们必须了解它的基础——数据。数据是AI的燃料,没有数据,AI就无法运行。在生成式AI中,我们需要大量的高质量......
  • 详解十大经典排序算法(六):快速排序(QuickSort)
    算法原理分区(Partition):选择一个基准元素,将数组分为两个子数组,小于基准的放在左边,大于基2准的放在右边。递归排序:对左右两个子数组分别进行快速排序。合并:不需要实际的合并操作,因为在分解和递归排序阶段已经完成了排序。算法描述快速排序是一种基于分治思想的高效排序算法,由英国......
  • 【软考】-- 信息系统项目管理师(高级)历年论文题目
    考试年度试题一试题二2023年下11.05资源管理2023年下11.04合同管理2023年下10.29工作绩效域2023年下10.28干系人管理2023年上风险管理2022年下质量管理2022年上干系人管理2021年上范围管理合同管理2020年下成本管理采购管理2019年下整体管理沟通管理2019年上风险管理与安全管理人力......
  • 网络与数据安全领域的框架模型
    1.PDR模型PDR模型是由美国国际互联网安全系统公司(ISS)提出,它是最早体现主动防御思想的一种网络安全模型。保护(Protection)就是采用一切可能的措施来保护网络、系统以及信息的安全。保护通常采用的技术及方法主要包括加密、认证、访问控制、防火墙以及防病毒等。检测(Detection)可以......
  • Pix4Dmapper空间三维模型的应用实例:GIS选址分析
      本文介绍基于无人机影像建模完成后的结果,利用ArcMap软件进行空间选址分析,从而实现空间三维模型应用的方法。目录1空间分析目标确立2基于基本约束条件的选址求解2.1坡度计算与提取2.2海拔提取2.3LAS数据初探2.4淹没分析2.5区域相交2.6面积约束3基于择优条件的选址求......
  • 论文推荐:大型语言模型能自我解释吗?
    这篇论文的研究主要贡献是对LLM生成解释的优缺点进行了调查。详细介绍了两种方法,一种是做出预测,然后解释它,另一种是产生解释,然后用它来做出预测。最近的研究发现,即使LLM是在特定数据上训练的,也不能认识到训练的知识与推理上下文之间的联系。因此一些人认为之为“X链”的方法非......
  • 中文TigerBot-70B大模型:领先Llama-2,全球开源新标杆,300B数据驱动
    引言随着大型语言模型(LLM)在自然语言处理领域的日益重要,新型多语言多任务模型——TigerBot-70B的问世,标志着全球范围内一个新的技术里程碑的达成。TigerBot-70B不仅在性能上匹敌行业巨头如OpenAI的模型,而且其创新算法和数据处理方式在行业内引起广泛关注。Huggingface模型下载:https:......