首页 > 其他分享 >【833】BERT相关(Hugging Face)

【833】BERT相关(Hugging Face)

时间:2023-04-23 10:33:06浏览次数:50  
标签:833 Transformer 训练 BERT 模型 Hugging Face input

参考:BERT入门——tensorflow

参考:李宏毅-ELMO, BERT, GPT讲解


个人理解:BERT是一个语言模型,把它作为一个抽取Feature的东西,因此它已经把文本进行的加工,最终只需要把BERT接入具体的任务,来训练下游任务的参数即可!

  • Case 1:
    input: single sentence
    output: class
    example: sentiment analysis, document classification
  • Case 2:
    input: single sentence
    output: class of each word
    example: slot filling
  • Case 3:
    input: two sentences
    output: class
    example: natural language inference
  • Case 4: 
    input: document, query
    output: two integers (s, e)
    example: extraction-based question answering (QA)

BERT简介

BERT是一种预训练语言模型(pre-trained language model, PLM),其全称是Bidirectional Encoder Representations from Transformers。
  • 语言模型:对于任意的词序列,它能够计算出这个序列是一句话的概率。比如词序列A:“知乎|的|文章|真|水|啊”,这个明显是一句话,一个好的语言模型也会给出很高的概率,再看词序列B:“知乎|的|睡觉|苹果|好快”,这明显不是一句话,如果语言模型训练的好,那么序列B的概率就很小很小。
  • 预训练:预训练是一种迁移学习的概念。所谓预训练模型,举个例子,假设我们有大量的维基百科数据,那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型,当我们需要在特定场景使用时,例如做医学命名实体识别,那么,只需要简单的修改一些输出层,再用我们自己的数据进行一个增量训练,对权重进行一个轻微的调整即可。预训练语言模型有很多,典型的如ELMO、GPT、BERT等。

  • Transformer:Bert是基于Transformer实现的,BERT中包含很多Transformer模块,其取得成功的一个关键因素是Transformer的强大作用。
    Transformer可以理解为一个神经网络模块,模块内部有其复杂的网络结构,我们可以暂且将其视为黑盒,这并不影响对Bert的理解。总之,这个模块通过自注意力机制实现快速并行,改进了RNN最被人诟病的训练慢的缺点,并且可以增加到非常深的深度,充分发掘DNN模型的特性,提升模型准确率。
    BERT的原理一层层深究下去是这样的:【BERT】–【Transformer】–【self-attention】–【attention机制】–【seq2seq】

Hugging Face BERT实战参考:

HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入【中文材料,视频,代码,PyTorch】

How to Finetune BERT for Text Classification (HuggingFace Transformers, Tensorflow 2.0) on a Custom Dataset

Hugging Face Official Site - BERT resources

Fine-tune a pretrained model

 

标签:833,Transformer,训练,BERT,模型,Hugging,Face,input
From: https://www.cnblogs.com/alex-bn-lee/p/17345757.html

相关文章

  • face
    1、指标Uniqueness:模型预测图片集里面有几个人/实际有几个人,越接近1越好,说明模型能够衡量人与人之间的差别详细:C代表数据集实际共有多少人(label),首先对C个人:X1,X2,...XC,每个人Xi分别通过待评测的Feval模型生成10张(或者C12张,C210张...)特征向量,然后计算这10张的平均特征向量......
  • AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL:各种基于GPT-4自治系统总结
    ChatGPT和LLM技术的出现使得这些最先进的语言模型席卷了世界,不仅是AI的开发人员,爱好者和一些组织也在研究探索集成和构建这些模型的创新方法。各种平台如雨后春笋般涌现,集成并促进新应用程序的开发。AutoGPT的火爆让我们看到越来越多的自主任务和代理利用了GPT-4的API。这些发展......
  • Eigen Faces
    处理图像一张\((H,W)\)大小的图像可以按像素点展开为\((1,HW)\)大小数组.我们将训练集中所有图像展开到一个\((N,HW)\)大小的数组中;然后求一个\((1,HW)\)大小的平均脸参考代码:#Supposeimgsisa(N,W,H)nparrayimg2D=imgs.reshape(imgs.shape[0],-1)......
  • 道德与社会问题简报 #3: Hugging Face 上的道德开放性
    ......
  • Java JVM、JNI、Native Function Interface、Create New Process Native Function API
    JavaJVM、JNI、NativeFunctionInterface、CreateNewProcessNativeFunctionAPIAnalysis目录1.JAVAJVM2.JavaJNI:JavaNativeInterface3.JavaCreateNewProcessNativeFunctionAPIAnalysisInLinux4.JavaCreateNewProcessNativ......
  • Burley SubSurface Profile
    BurleySubSurfaceProfile的渲染方程可以基于经典的双向反射分布函数(BRDF)公式,通过增加次表面散射项的计算来实现次表面散射的效果。该渲染方程具体为:\(I_{o}({x_{o}},\omega_{o})=I_{e}(x_{o},\omega_{o})+\int_{H^{+}}\!f_{r}(\omega_{i},D){(\omega_{i},{x_{o}})}\time......
  • Hugging News #0414: Attention 在多模态情景中的应用、Unity API 以及 Gradio 主题构
    每一周,我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新,包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等,我们将其称之为「HuggingNews」,本期HuggingNews有哪些有趣的消息,快来看看吧!社区动向Attention在视觉领域的应用注......
  • 如何使用Microsoft JARVIS(HuggingGPT)
    在人工智能领域,每天都有新的大型语言模型推出,事情正在以惊人的速度变化。在短短几个月的开发中,我们现在可以离线在我们的PC上运行类似ChatGPT的LLM。不仅如此,我们还可以训练AI聊天机器人并创建个性化的AI助手。但最近让我感兴趣的是微软对人工智能开发的实践方法。微软目前正在开......
  • TypeScript type 关键字和 interface 关键字
    前言type和interface都可以声明TS类型。typePoint1={x:number;y:number;};interfacePoint2{x:number;y:number;};它们两个声明这个对象类型有任何区别吗?很明显没有,我认为最能区分它们两个的标志是,type有一个=赋值等号。typetype可以做类......
  • 11 Geometry(Curves and Surface)
    关键点BezierCurvesBezierSurfaces1.BezierCurves贝塞尔曲线用一系列的控制点定义一个曲线,并且定义了一系列控制。如下定义起止点为p0、p3,且定义起始切线,则绘制出一条曲线。1.1deCasteljauAlogrithmThreeinputpoints定义一个时间t,然后取b0b1与b1b2的相应比......