首页 > 其他分享 >深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

深度学习-17-深入理解BERT基于Hugging Face的模型训练步骤

时间:2024-09-19 13:20:25浏览次数:9  
标签:BERT Transformer 架构 训练 17 模型 Hugging 2.2 2.1

文章目录

1 大模型的架构

首先,人工智能(AI)有多种实现方式,而机器学习是其中的一种;而基于机器学习又延伸出了深度学习,深度学习的思想就是分层,通过多个层的叠加实现对数据的分级表达。

而神经网络又是深度学习的一种表现形式,是由模仿人脑神经元的机制而得名,又由于多层的神经网络具有庞大的参数,因此叫做大模型(庞大参数量的机器学习(神经网络)模型)。

所以,大模型的核心是层次堆叠;
因此,为了实现这种效果就有了多种神经网络的大模型架构。

大模型的常用架构主要包括Transformer,BERT,GPT,T5等;
每种架构都有其独特的设计理念和应用场景。

1.1 Transformer架构

Transformer是目前大模型的主流架构,由Vaswani等人于2017年提出。
它使用了注意力机制替代了传统的RNN和LSTM,能够更好的捕捉长距离依赖关系。

一、关键组件:
(1)自注意力机制:计算序列中各元素之间的相关性,生成每个元素的加权表示。
(2)多头注意力机制:将注意力机制并行化处理,提高模型的表示能力。
(3)位置编码:由于模型本身不具备顺

标签:BERT,Transformer,架构,训练,17,模型,Hugging,2.2,2.1
From: https://blog.csdn.net/qq_20466211/article/details/142246941

相关文章

  • 【程序员写的诗】《悔思践》日期:2017-05-20 作者:橙 附:AI豆包点评和解释
    悔思践《悔思践》日期:2017-05-20作者:橙问君心,愁几何。望空杯,颜现愁。苦衷苦,鸿志立。乐中乐,断践行。不践行,愁中悔。悔中望,年已高。鸿志行,行中思。苦中践,乐其行。行不晚,怕其断。老不悔,喜不尽。创作背景背景:感觉自己一事无成,有感而发------写于2017-05-20程......
  • Hugging Face NLP课程学习记录 - 2. 使用 Hugging Face Transformers
    HuggingFaceNLP课程学习记录-2.使用HuggingFaceTransformers说明:首次发表日期:2024-09-19官网:https://huggingface.co/learn/nlp-course/zh-CN/chapter2关于:阅读并记录一下,只保留重点部分,大多从原文摘录,润色一下原文2.使用HuggingFaceTransformers管道的内部......
  • Odoo17.0 小红书
    小红书是近年来年轻人中非常流行的社交分享购物平台,本章我们将介绍如何使用我们的小红书模块来完成平台和odoo的对接。当前版本:17.0.1.0基础配置首先,我们要在系统中安装我们的小红书模块: 安装完模块之后,我们到主菜单-小红书-配置-店铺中新建一个店铺: 将我们在小红书商......
  • test.c:12:17: error: break statement not within loop or switch
     001、[root@localhosttest]#lstest.c[root@localhosttest]#cattest.c#include<stdio.h>intmain(void){inti;printf("i=");scanf("%d",&i);if(i>0){puts(&qu......
  • Day 19 回溯法part01| LeetCode 77.组合,216. 组合总和 III,17. 电话号码的字母组合
    理论基础回溯法(回溯搜索法)回溯函数就是递归函数本质是穷举解决的问题组合问题(不强调元素顺序,需去重)切割问题子集问题:一个N个数的集合里有多少符合条件的子集排列问题(强调元素顺序)棋盘问题:N皇后回溯法模板(可抽象为树形结构——N叉树来解决问题)递归返回值以及......
  • 1749. 任意子数组和的绝对值的最大值
    题目链接1749.任意子数组和的绝对值的最大值思路前缀和/动态规划-最大子数组和-简单变体题解链接两种方法:动态规划/前缀和(附题单!Python/Java/C++/Go/JS)关键点无时间复杂度\(O(n)\)空间复杂度\(O(1)\)代码实现(动态规划):classSolution:defmax......
  • MyBatis 增删改查【后端 17】
    MyBatis增删改查引言MyBatis是一个优秀的持久层框架,它支持定制化SQL、存储过程以及高级映射。MyBatis避免了几乎所有的JDBC代码和手动设置参数以及获取结果集。MyBatis可以使用简单的XML或注解用于配置和原始映射,将接口和Java的POJOs(PlainOldJavaObject......
  • 9.17
    今天是中秋节,祝大家中秋节快乐。今天发《机器学习》作业二,明天是个特殊的日子,不发博客。 一.单选题(共2题,40分)1. (单选题) 在评价模型的性能时,一般是更希望算法模型的(C) A 训练误差小 B 测试误差小 C 泛化误差小 D 以上都是 2.......
  • 代码随想录算法训练营,9月18日 | 77.组合,216.组合总和III,17.电话号码的字母组合
    回溯算法理论基础:1.回溯是递归的副产品,有递归就有回溯。2.回溯的本质是穷举,想让回溯法高效些,可以加一些剪枝的操作3.组合问题:N个数里面按一定规则找出k个数的集合切割问题:一个字符串按一定规则有几种切割方式子集问题:一个N个数的集合里有多少符合条件的子集排列问题:N个数按......
  • CF1716C Robot in a Hallway 题解
    容易发现合法路径一定形如:先弯弯曲曲地走(即向下、向右、向上、向右地移动),再直接向右走到头,碰到边界后折回来。所以考虑枚举弯曲地走的部分,这部分的最快时间容易求出。只需考虑快速求出剩余部分的最快时间,设对于第\(i\)第\(j\)列,这个时间为\(f_{i,j}\)。发现移动和等待格子......