【833】BERT相关（Hugging Face）

时间：2023-04-23 10:33:06浏览次数：55

标签：833 Transformer 训练 BERT 模型 Hugging Face input

参考：BERT入门——tensorflow

参考：李宏毅-ELMO, BERT, GPT讲解

个人理解：BERT是一个语言模型，把它作为一个抽取Feature的东西，因此它已经把文本进行的加工，最终只需要把BERT接入具体的任务，来训练下游任务的参数即可！

Case 1:
input: single sentence
output: class
example: sentiment analysis, document classification
Case 2:
input: single sentence
output: class of each word
example: slot filling
Case 3:
input: two sentences
output: class
example: natural language inference
Case 4:
input: document, query
output: two integers (s, e)
example: extraction-based question answering (QA)

BERT简介

BERT是一种预训练语言模型（pre-trained language model, PLM），其全称是Bidirectional Encoder Representations from Transformers。

语言模型：对于任意的词序列，它能够计算出这个序列是一句话的概率。比如词序列A：“知乎|的|文章|真|水|啊”，这个明显是一句话，一个好的语言模型也会给出很高的概率，再看词序列B：“知乎|的|睡觉|苹果|好快”，这明显不是一句话，如果语言模型训练的好，那么序列B的概率就很小很小。
预训练：预训练是一种迁移学习的概念。所谓预训练模型，举个例子，假设我们有大量的维基百科数据，那么我们可以用这部分巨大的数据来训练一个泛化能力很强的模型，当我们需要在特定场景使用时，例如做医学命名实体识别，那么，只需要简单的修改一些输出层，再用我们自己的数据进行一个增量训练，对权重进行一个轻微的调整即可。预训练语言模型有很多，典型的如ELMO、GPT、BERT等。
Transformer：Bert是基于Transformer实现的，BERT中包含很多Transformer模块，其取得成功的一个关键因素是Transformer的强大作用。
Transformer可以理解为一个神经网络模块，模块内部有其复杂的网络结构，我们可以暂且将其视为黑盒，这并不影响对Bert的理解。总之，这个模块通过自注意力机制实现快速并行，改进了RNN最被人诟病的训练慢的缺点，并且可以增加到非常深的深度，充分发掘DNN模型的特性，提升模型准确率。
BERT的原理一层层深究下去是这样的：【BERT】–【Transformer】–【self-attention】–【attention机制】–【seq2seq】

Hugging Face BERT实战参考：

HuggingFace简明教程,BERT中文模型实战示例.NLP预训练模型,Transformers类库,datasets类库快速入【中文材料，视频，代码，PyTorch】

How to Finetune BERT for Text Classification (HuggingFace Transformers, Tensorflow 2.0) on a Custom Dataset

Hugging Face Official Site - BERT resources

Fine-tune a pretrained model

标签：833,Transformer,训练,BERT,模型,Hugging,Face,input
From： https://www.cnblogs.com/alex-bn-lee/p/17345757.html

face
1、指标Uniqueness：模型预测图片集里面有几个人/实际有几个人，越接近1越好，说明模型能够衡量人与人之间的差别详细：C代表数据集实际共有多少人（label），首先对C个人：X1,X2,...XC，每个人Xi分别通过待评测的Feval模型生成10张（或者C12张，C210张...）特征向量，然后计算这10张的平均特征向量......
AutoGPT、AgentGPT、BabyAGI、HuggingGPT、CAMEL：各种基于GPT-4自治系统总结
ChatGPT和LLM技术的出现使得这些最先进的语言模型席卷了世界，不仅是AI的开发人员，爱好者和一些组织也在研究探索集成和构建这些模型的创新方法。各种平台如雨后春笋般涌现，集成并促进新应用程序的开发。AutoGPT的火爆让我们看到越来越多的自主任务和代理利用了GPT-4的API。这些发展......
Eigen Faces
处理图像一张\((H,W)\)大小的图像可以按像素点展开为\((1,HW)\)大小数组.我们将训练集中所有图像展开到一个\((N,HW)\)大小的数组中;然后求一个\((1,HW)\)大小的平均脸参考代码:#Supposeimgsisa(N,W,H)nparrayimg2D=imgs.reshape(imgs.shape[0],-1)......
道德与社会问题简报 #3: Hugging Face 上的道德开放性
......
Java JVM、JNI、Native Function Interface、Create New Process Native Function API
JavaJVM、JNI、NativeFunctionInterface、CreateNewProcessNativeFunctionAPIAnalysis目录1.JAVAJVM2.JavaJNI:JavaNativeInterface3.JavaCreateNewProcessNativeFunctionAPIAnalysisInLinux4.JavaCreateNewProcessNativ......
Burley SubSurface Profile
BurleySubSurfaceProfile的渲染方程可以基于经典的双向反射分布函数（BRDF）公式，通过增加次表面散射项的计算来实现次表面散射的效果。该渲染方程具体为：\(I_{o}({x_{o}},\omega_{o})=I_{e}(x_{o},\omega_{o})+\int_{H^{+}}\!f_{r}(\omega_{i},D){(\omega_{i},{x_{o}})}\time......
Hugging News #0414: Attention 在多模态情景中的应用、Unity API 以及 Gradio 主题构
每一周，我们的同事都会向社区的成员们发布一些关于HuggingFace相关的更新，包括我们的产品和平台更新、社区活动、学习资源和内容更新、开源库和模型更新等，我们将其称之为「HuggingNews」，本期HuggingNews有哪些有趣的消息，快来看看吧！社区动向Attention在视觉领域的应用注......
如何使用Microsoft JARVIS（HuggingGPT）
在人工智能领域，每天都有新的大型语言模型推出，事情正在以惊人的速度变化。在短短几个月的开发中，我们现在可以离线在我们的PC上运行类似ChatGPT的LLM。不仅如此，我们还可以训练AI聊天机器人并创建个性化的AI助手。但最近让我感兴趣的是微软对人工智能开发的实践方法。微软目前正在开......
TypeScript type 关键字和 interface 关键字
前言type和interface都可以声明TS类型。typePoint1={x:number;y:number;};interfacePoint2{x:number;y:number;};它们两个声明这个对象类型有任何区别吗？很明显没有，我认为最能区分它们两个的标志是，type有一个=赋值等号。typetype可以做类......
11 Geometry(Curves and Surface)
关键点BezierCurvesBezierSurfaces1.BezierCurves贝塞尔曲线用一系列的控制点定义一个曲线，并且定义了一系列控制。如下定义起止点为p0、p3，且定义起始切线，则绘制出一条曲线。1.1deCasteljauAlogrithmThreeinputpoints定义一个时间t，然后取b0b1与b1b2的相应比......

【833】BERT相关（Hugging Face）

BERT简介

相关文章

赞助商

阅读排行