深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

时间：2024-09-19 13:20:25浏览次数：14

标签：BERT Transformer 架构训练 17 模型 Hugging 2.2 2.1

文章目录

1 大模型的架构
2 Hugging Face模型训练步骤
3 使用预训练的模型
- 3.1 下载distilbert-base-uncased
- 3.2 获得给定文本的特征
4 微调一个预训练的DistilBERT模型
5 参考附录

1 大模型的架构

首先，人工智能(AI)有多种实现方式，而机器学习是其中的一种；而基于机器学习又延伸出了深度学习，深度学习的思想就是分层，通过多个层的叠加实现对数据的分级表达。

而神经网络又是深度学习的一种表现形式，是由模仿人脑神经元的机制而得名，又由于多层的神经网络具有庞大的参数，因此叫做大模型(庞大参数量的机器学习(神经网络)模型)。

所以，大模型的核心是层次堆叠；
因此，为了实现这种效果就有了多种神经网络的大模型架构。

大模型的常用架构主要包括Transformer，BERT，GPT，T5等；
每种架构都有其独特的设计理念和应用场景。

1.1 Transformer架构

Transformer是目前大模型的主流架构，由Vaswani等人于2017年提出。
它使用了注意力机制替代了传统的RNN和LSTM，能够更好的捕捉长距离依赖关系。

一、关键组件：
(1)自注意力机制：计算序列中各元素之间的相关性，生成每个元素的加权表示。
(2)多头注意力机制：将注意力机制并行化处理，提高模型的表示能力。
(3)位置编码：由于模型本身不具备顺

标签：BERT,Transformer,架构,训练,17,模型,Hugging,2.2,2.1
From： https://blog.csdn.net/qq_20466211/article/details/142246941

【程序员写的诗】《悔思践》日期：2017-05-20 作者：橙附：AI豆包点评和解释
悔思践《悔思践》日期：2017-05-20作者：橙问君心，愁几何。望空杯，颜现愁。苦衷苦，鸿志立。乐中乐，断践行。不践行，愁中悔。悔中望，年已高。鸿志行，行中思。苦中践，乐其行。行不晚，怕其断。老不悔，喜不尽。创作背景背景：感觉自己一事无成，有感而发------写于2017-05-20程......
Odoo17.0 小红书
小红书是近年来年轻人中非常流行的社交分享购物平台，本章我们将介绍如何使用我们的小红书模块来完成平台和odoo的对接。当前版本：17.0.1.0基础配置首先，我们要在系统中安装我们的小红书模块：安装完模块之后，我们到主菜单-小红书-配置-店铺中新建一个店铺：将我们在小红书商......
Day 19 回溯法part01| LeetCode 77.组合，216. 组合总和 III，17. 电话号码的字母组合
理论基础回溯法（回溯搜索法）回溯函数就是递归函数本质是穷举解决的问题组合问题（不强调元素顺序，需去重）切割问题子集问题：一个N个数的集合里有多少符合条件的子集排列问题（强调元素顺序）棋盘问题：N皇后回溯法模板（可抽象为树形结构——N叉树来解决问题）递归返回值以及......
1749. 任意子数组和的绝对值的最大值
题目链接1749.任意子数组和的绝对值的最大值思路前缀和/动态规划-最大子数组和-简单变体题解链接两种方法：动态规划/前缀和（附题单！Python/Java/C++/Go/JS）关键点无时间复杂度\(O(n)\)空间复杂度\(O(1)\)代码实现（动态规划）：classSolution:defmax......
MyBatis 增删改查【后端 17】
MyBatis增删改查引言MyBatis是一个优秀的持久层框架，它支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集。MyBatis可以使用简单的XML或注解用于配置和原始映射，将接口和Java的POJOs(PlainOldJavaObject......
代码随想录算法训练营，9月18日 | 77.组合，216.组合总和III，17.电话号码的字母组合
回溯算法理论基础：1.回溯是递归的副产品，有递归就有回溯。2.回溯的本质是穷举，想让回溯法高效些，可以加一些剪枝的操作3.组合问题：N个数里面按一定规则找出k个数的集合切割问题：一个字符串按一定规则有几种切割方式子集问题：一个N个数的集合里有多少符合条件的子集排列问题：N个数按......
CF1716C Robot in a Hallway 题解
容易发现合法路径一定形如：先弯弯曲曲地走（即向下、向右、向上、向右地移动），再直接向右走到头，碰到边界后折回来。所以考虑枚举弯曲地走的部分，这部分的最快时间容易求出。只需考虑快速求出剩余部分的最快时间，设对于第\(i\)第\(j\)列，这个时间为\(f_{i,j}\)。发现移动和等待格子......

深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

文章目录

1 大模型的架构

1.1 Transformer架构

相关文章

赞助商

阅读排行