Task2:从baseline代码详解入门深度学习
准备工作
数据集
数据集被划分为三种,分别是:训练集,开发集 测试集。训练集数量最多,用于训练模型,开发集用于在训练中不断调整模型的参数,架构,测试集用于测试模型
模型
-
基于seq2seq模型
主要由encoder decoder两部分构成使用GRU模型
大致可以理解为encoder编码器是用来将要翻译的数据转化成一个向量,解码器再将向量转化为需要的结果(由于seq2seq结构简单,训练速度慢且上限低)
上分方法 -
基于transformer
![](D:\cc\datawhale\屏幕截图 2024-07-17 012537.png)
模型搭建和训练
在训练seq2seq模型时,最简单的上分方法就是增加训练集个数和训练次数。但也可以将数据进行预处理
预处理的思路
- 数据清洗:例如将There's 变为There is
- 分词:将句子分解成单词或词素(构成单词的基本组成部分,一个词素可以是一个完整的单词,也可以是单词的一部分
- 构建词汇表:构建词汇表,给出现过的每个词分配一个唯一的索引
- 添加特殊符号
![](D:\cc\datawhale\屏幕截图 2024-07-17 012748.png)