首页 > 编程语言 >【LLM 】7个基本的NLP模型,为ML应用程序赋能

【LLM 】7个基本的NLP模型,为ML应用程序赋能

时间:2024-01-08 16:03:18浏览次数:29  
标签:NLP 语言 BERT ML 模型 T5 参数 LLM 文本


【LLM 】7个基本的NLP模型,为ML应用程序赋能_数据

在上一篇文章中,我们已经解释了什么是NLP及其在现实世界中的应用。在这篇文章中,我们将继续介绍NLP应用程序中使用的一些主要深度学习模型。

BERT

  • 来自变压器的双向编码器表示(BERT)由Jacob Devlin在2018年的论文《BERT:用于语言理解的深度双向变压器的预训练》中首次提出。
  • BERT模型的主要突破是,它在训练过程中查看文本时,以双向方式扫描文本,而不是从左到右或从左到左和从右到左的组合序列。
  • BERT一般有两种类型:BERT(基本)和BERT(大)。不同之处在于可配置参数:基本参数为1100万,大参数为3.45亿。

XLNet

  • XLNet于2019年发表在论文《XLNet:语言理解的广义自回归预训练》中。
  • XLNet在20次基准测试中以很大的优势优于BERT,因为它利用了自回归模型和双向上下文建模的最佳效果。XLNet采用了一种新提出的建模方法,称为“置换语言建模”。
  • 与基于前一个标记的上下文预测句子中单词的语言模型中的传统标记化不同,XLNet的置换语言建模考虑了标记之间的相互依赖性。
  • XLNet的性能测试结果比BERT提高了2-15%。

RoBERTa

  • RoBERTa是在2019年的论文《RoBERTa:一种稳健优化的BERT预训练方法》中提出的。
  • RoBERTa对BERT的体系结构和培训程序进行了更改。具体而言,RoBERTa删除了下一句预测(NSP)目标,使用了比BERT大得多的数据集,并用动态掩蔽取代了静态掩蔽。
  • RoBERTa的性能测试结果比BERT提高了2-20%。

ALBERT

  • ALBERT模型是在2019年的论文《ALBERT:语言表征自我监督学习的精简BERT》中提出的。
  • ALBERT是在BERT模型的基础上开发的。它的主要突破是显著降低了参数,但与BERT相比保持了相同的性能水平。
  • 在ALBERT中,参数在12层变压器编码器之间共享,而在原始BERT中每层编码器都有一组唯一的参数。

StructBERT

  • StructBERT是在2019年的论文《StructBERT:将语言结构纳入深度语言理解的预训练》中提出的。
  • StructBERT通过将语言结构纳入训练过程,进一步扩展了BERT。
  • StructBERT还引入了单词结构目标(WSO),它有助于模型学习单词的排序。

T5

  • T5是在2019年的论文《用统一的文本到文本转换器探索迁移学习的极限》中介绍的。T5是“文本到文本传输转换器”的缩写。
  • T5发布了一个干净、庞大、开源的数据集C4(Colossal clean Crawled Corpus)。
  • T5将所有NLP任务分类为“文本到文本”任务。
  • T5型号有五种不同尺寸,每种型号都有不同数量的参数:T5小型(6000万个参数)、T5基础(2.2亿个参数),T5大型(7.7亿个参数。

ELECTRA

  • ELECTRA是在2020年的论文“ELECTRA:将文本编码器预训练为鉴别器而非生成器”中提出的。
  • ELECTRA提出了一种新的预训练框架,它结合了生成器和鉴别器。
  • ELECTRA将掩蔽语言模型的训练方法改为替换标记检测。
  • ELECTRA在小型模型上表现更好。

自我介绍

  • 做一个简单介绍,酒研年近48 ,有20多年IT工作经历,目前在一家500强做企业架构.因为工作需要,另外也因为兴趣涉猎比较广,为了自己学习建立了三个博客,分别是【全球IT瞭望】,【架构师研究会】和【开发者开聊】,有更多的内容分享,谢谢大家收藏。
  • 企业架构师需要比较广泛的知识面,了解一个企业的整体的业务,应用,技术,数据,治理和合规。之前4年主要负责企业整体的技术规划,标准的建立和项目治理。最近一年主要负责数据,涉及到数据平台,数据战略,数据分析,数据建模,数据治理,还涉及到数据主权,隐私保护和数据经济。 因为需要,比如数据资源入财务报表,另外数据如何估值和货币化需要财务和金融方面的知识,最近在学习财务,金融和法律。打算先备考CPA,然后CFA,如果可能也想学习法律,备战律考。
  • 欢迎爱学习的同学朋友关注,也欢迎大家交流。全网同号【架构师研究会】

【LLM 】7个基本的NLP模型,为ML应用程序赋能_人工智能_02

欢迎收藏  【全球IT瞭望】,【架构师酒馆】和【开发者开聊】.

标签:NLP,语言,BERT,ML,模型,T5,参数,LLM,文本
From: https://blog.51cto.com/jiagoushipro/9146252

相关文章

  • 【LLM】人工智能应用构建的十大预训练NLP语言模型
    在人工智能领域,自然语言处理(NLP)被广泛认为是阅读、破译、理解和理解人类语言的最重要工具。有了NLP,机器可以令人印象深刻地模仿人类的智力和能力,从文本预测到情感分析再到语音识别。什么是自然语言处理?语言模型在NLP应用程序的开发中起着至关重要的作用。然而,从头开始构建复杂的NLP......
  • 【LLM】2023年大型语言模型训练
    2022年底,大型语言模型(LLM)在互联网上掀起了风暴,OpenAI的ChatGPT在推出5天后就达到了100万用户。ChatGPT的功能和广泛的应用程序可以被认可为GPT-3语言模型所具有的1750亿个参数尽管使用像ChatGPT这样的最终产品语言模型很容易,但开发一个大型语言模型需要大量的计算机科学知识、时间......
  • 【LLM】大型语言模型:2023年完整指南
    Figure1:Searchvolumesfor“largelanguagemodels”近几个月来,大型语言模型(LLM)引起了很大的轰动(见图1)。这种需求导致了利用语言模型的网站和解决方案的不断开发。ChatGPT在2023年1月创下了用户群增长最快的记录,证明了语言模型将继续存在。谷歌对ChatGPT的回应Bard于2023年2月......
  • 前端三剑客——HTML5+CSS3+JavaScript
    核心技术●实战训练营●项目实战(微视频版)  《前端三剑客——HTML5+CSS3+JavaScript》采用“核心技术→实战训练营→企业级项目实践”的结构和“由浅入深,由深到精”的模式进行讲解。  全书科学设置七大阶段由浅入深循序渐进,为解决实际问题而生。第一阶段、第三阶段、第五阶段......
  • 赋能开发者实现LLMOps全流程
    在人工智能领域,大模型已经成为引领技术革新的重要驱动力。为了更好地赋能开发者,百度智能云千帆大模型平台近日宣布推出SDK版本,并实现开源发布。通过使用该SDK,开发者可以轻松接入并调用百度智能云千帆大模型平台的能力,实现LLMOps全流程。LLMOps全流程是指从数据收集、标注、预处理、......
  • 248-html中的DOMContentLoaded事件
    DOMContentLoaded事件在HTML文档解析完成,并且所有的DOM元素已经创建完成,但是在页面的样式表、图像和子框架之类的外部资源加载完成之前触发。这个事件通常用于在页面完全加载之前执行一些JavaScript代码,而无需等待其他资源的加载。DOMContentLoaded事件相较于load事件而言......
  • springboot项目中,Mapper接口映射xml文件出错问题,显示Invalid bound statement
    在进行springboot开发过程中遇到的一个问题,显示org.apache.ibatis.binding.BindingException:Invalidboundstatement(notfound);大概意思应该就是找不到Mapper接口对应的xml映射文件,检查了以后,发现应该是没有正确扫描到映射文件的路径。1.保证java文件夹下面的Mapper接口包名称......
  • 粉色系小白猫登录表单模板html代码
    粉色系登录模板<linkrel="stylesheet"href="css/font-awesome.min.css"type="text/css"media="all"><!--formsectionstart--><sectionclass="w3l-hotair-form"><h1>粉色系登录表单</h......
  • 粉色登录注册html代码
    登录注册页面登陆注册会员登录&emsp;还没有账号&nbsp;立即注册手机号/账号登陆记住密码&emsp;&emsp;&emsp;&emsp;忘记密码<divstyle="display:block;width:330px;height:40px;"> <spanid="lab_type2">使用第三方直接登陆</span> </div> <......
  • 【入门】从零开始学习和了解ml5.js
    学习ml5.js可以分为几个主要步骤。下面是一个简要的指南,帮助你入门ml5.js:准备环境:首先,确保你有一个可用的开发环境,例如一个文本编辑器和一个现代的Web浏览器。你可以在本地搭建一个简单的Web服务器,也可以直接使用在线的代码编辑器。引入ml5.js:在你的HTML文件中引入ml5.js库。你可......