李rumor 3个月学习NLP路线（补充）

标签：NLP 训练模型分类路线学习文本数据 rumor

原视频链接：bilibili 思维导图

leerumor：nlp_tutorial github

第一个月

1-基础知识

概率论与数理统计、线性代数

python编程、矩阵运算

材料：学习需要2周，建议初学者先看懂线性分类、svm模型、图模型。

教材：李航《统计学习方法》微信读书

视频：吴恩达的cS229公开课 bilibili

林田轩的机器学习基石 bilibili

shuhuai008的白板推导系列 bilibili

2-经典模型

深度学习基础需要两周，先学会神经网络的前后向推导，再去看这些经典的编码器。先有大致的理解，知道都有什么方法，出于什么理论，解决了什么问题，后续的学习中在不断补足。

邱熙鹏《神经网络与深度学习》教材 github

吴恩达的深度学习网课 bilibili

李宏毅的深度学习网课 bilibili

第二个月

3-任务范式与技巧

文本分类 SurveyTranslation

文本分类是NLP应用最多且入门必备的任务，TextCNN堪称第一baseline，往后的发展就是加RNN、加Attention、用Transformer、用GNN了。第一轮不用看得太细，每类编码器都找个代码看一下即可，顺便也为其他任务打下基础。

但如果要做具体任务的话，建议倒序去看SOTA论文，了解各种技巧，同时善用知乎，可以查到不少提分方法。

图源：arxiv

应用：情感分析（SA），话题标签（TL），新闻分类（NC），问题解答（QA），对话行为分类（DAC），自然语言推断（NLI），事件预测（EP）。

情感分析：sentiment analysis ( SA)
话题标记：topic labeling(TL)
新闻分类：news classification (NC)
问答系统：question answering(QA)
对话行为分类：dialog act classification (DAC)
自然语言推理：natural language inference (NLD)
关系分类：relation classification (RC)
事件预测：event prediction (EP)

浅层学习模型：预处理与数据统计，根据所选特征将表示的文本输入分类器。

BOW：用字典大小的向量表示每个文本。向量的单个值表示对应于其在文本中固有位置的词频。
N-gram：相邻单词的信息，并通过考虑相邻单词来构建字典。
TF-IDF（术语频率倒排文档频率）、BM25：使用单词频率并反转文档频率来对文本建模。
word2vec：使用本地上下文信息来获取单词向量。
GloVe：具有局部上下文和全局统计功能-训练单词-单词共现矩阵中的非零元素。

分类器：知乎

概率图模型（PGM-based methods）表示图中特征之间的条件依赖关系，如：贝叶斯网络、隐马尔可夫网络。
K近邻算法（KNN-based Methods）对一个未标记的样本进行分类，在最近接K的标记样本上找到样本数量最多的类别。
支持向量机算法（SVM-based Methods）在一维输入空间或者特征空间中构建最优超平面，是超平面与两类训练集之间的距离最大化，从而达到最佳的泛化能力。目标是使范畴边界沿垂直于超平面的方向的距离最大。
决策树算法（DT-based Methods）是为了确定类与属性之间的相关性，进一步用于预测未知类型的记录类别。
集成算法（Integration-based Methods）旨在聚合多种算法的结果，以获得更好的性能和解释。传统的集成算法是引导聚合，如 RF，增强如自适应提升 (AdaBoost) 和 XGBoost 和堆叠（stackin）。

深度学习模型：ReNN、CNN、RNN、GNN、MLP、Attention、Transformer、BERT（RoBERTa等）

文本匹配

双塔模型：先看SiamCNN，了解完结构后，再深入优化编码器的各种方法；

基于匹配：句子表示间的交互，了解BERT那种TextA+TextB拼接的做法之后，可以再看看阿里的RE2这种轻量级模型

序列标注

序列标注主要是对Embedding、编码器、结果推理三个模块进行优化，

可以先读懂Bi-LSTM+CRF这种经典方案的源码，再去根据需要读论文改进。

文本生成

文本生成是最复杂的，具体的SOTA模型我还没梳理完。

可以先了解Seq2Seq的经典实现，比如基于LSTM的编码解码+Attention、纯Transformer、GPT2以及T5，

再根据兴趣学习VAE、GAN、RL等。

语言模型

了解BERT肯定是必须的，有时间的话再多看看后续改进，很经典的如XLNet、ALBERT、ELECTRA还是不容错过的。

除了上述常用模型之外，还有Capsule Network、TextGCN等红极一时的模型。

BERT分类的优化可以尝试：

多试试不同的预训练模型，比如RoBERT、WWM、ALBERT

除了 [CLS] 外还可以用 avg、max 池化做句表示，甚至可以把不同层组合起来

在领域数据上增量预训练

集成蒸馏，训多个大模型集成起来后蒸馏到一个上

先用多任务训，再迁移到自己的任务

技巧

文本分类是工业界最常用的任务，同时也是大多数NLPer入门做的第一个任务。快速选型的建议：

数据集构建

标签体系的构建：拿到任务时自己先试标一两百条，看有多少是难确定（思考1s以上）的，如果占比太多，那这个任务的定义就有问题。可能是标签体系不清晰或者是要分的类目太难了。

训练评估集的构建：可以构建两个评估集，一个是贴合真实数据分布的线上评估集，反映线上效果，另一个是用规则去重后均匀采样的随机评估集，反映模型的真实能力。

训练集则尽可能和评估集分布一致，有时候我们会去相近的领域拿现成的有标注训练数据，这时就要注意调整分布，比如句子长度、标点、干净程度等，例如做到分不出句子是否是本任务的。

数据清洗：

去掉文本强pattern：比如做新闻主题分类，一些爬下来的数据中带有的XX报道、XX编辑高频字段就没有用，可以对语料的片段或词进行统计，把很高频的无用元素去掉。还有一些会明显影响模型的判断，比如之前我在判断句子是否为无意义的闲聊时，发现加个句号就会让样本由正转负，因为训练预料中的闲聊很少带句号（跟大家的打字习惯有关），于是去掉这个pattern就好了不少
纠正标注错误：这个我真的屡试不爽，生生把自己从一个算法变成了标注人员。简单的说就是把训练集和评估集拼起来，用该数据集训练模型两三个epoch（防止过拟合），再去预测这个数据集，把模型判错的拿出来按 abs(label-prob) 排序，少的话就自己看，多的话就反馈给标注人员，把数据质量搞上去了提升好几个点都是可能的

长文本

任务简单的话（比如新闻分类），直接用fasttext就可以达到不错的效果。

想要用BERT的话，最简单的方法是粗暴截断，比如只取句首+句尾、句首+tfidf筛几个词出来；或者每句都预测，最后对结果综合。

另外还有一些魔改的模型可以尝试，比如XLNet、Reformer、Longformer。

如果是离线任务且来得及的话还是建议跑全部，让我们相信模型的编码能力。

少样本

自从用了BERT之后，很少受到数据不均衡或者过少的困扰，先无脑训一版。

如果样本在几百条，可以先把分类问题转化成匹配问题，或者用这种思想再去标一些高置信度的数据，或者用自监督、半监督的方法。

鲁棒性

在实际的应用中，鲁棒性是个很重要的问题，否则在面对badcase时会很尴尬，怎么明明那样就分对了，加一个字就错了呢？

这里可以直接使用一些粗暴的数据增强，加停用词加标点、删词、同义词替换等，如果效果下降就把增强后的训练数据洗一下。

当然也可以用对抗学习、对比学习这样的高阶技巧来提升，一般可以提1个点左右，但不一定能避免上面那种尴尬的情况。

总结

实际上，落地时主要还是和数据的博弈。数据决定模型的上限，大多数人工标注的准确率达到95%以上就很好了，而文本分类通常会对准确率的要求更高一些，与其苦苦调参想fancy的结构，不如好好看看badcase，做一些数据增强提升模型鲁棒性更实用。

标签：NLP,训练,模型,分类,路线,学习,文本,数据,rumor
From： https://www.cnblogs.com/yagami-light/p/18148054