【Datawhale AI夏令营】 Task1 学习笔记

零规则（Zero Rule）：
- 对于分类问题，零规则模型简单地选择最频繁的类别作为预测结果。
- 对于回归问题，零规则模型预测所有输出值为训练集中目标变量的平均值或中位数。
简单线性回归（Simple Linear Regression）：
- 对于回归问题，使用一个简单的线性模型作为基线，即 (y = mx + b)。
K-近邻算法（K-Nearest Neighbors, KNN）：
- KNN 可以用作基线模型，通过选择少量的最近邻点来进行预测。
随机猜测（Random Guessing）：
- 对于分类问题，可以随机选择类别作为预测结果。
- 对于回归问题，可以在一个合理范围内随机选择数值。
持久性模型（Persistence Model）：
- 对于时间序列预测问题，持久性模型使用上一个时间点的值作为当前时间点的预测值。

二、NLP模型

自然语言处理（Natural Language Processing, NLP）是计算机科学、人工智能和语言学的交叉领域，旨在实现计算机与人类语言的自然互动。NLP的主要目标是开发能够理解、解释、生成和处理人类语言的计算机系统。以下是对NLP的详细介绍：

自然语言处理的主要任务

文本预处理：
- 分词（Tokenization）：将文本分割成单独的词或子词。
- 词性标注（Part-of-Speech Tagging, POS Tagging）：标记每个词的词性（如名词、动词、形容词等）。
- 句法解析（Parsing）：分析句子的语法结构，生成句法树。
- 词形还原（Lemmatization）和词干提取（Stemming）：将词还原到其基本形式或词干。
文本理解：
- 命名实体识别（Named Entity Recognition, NER）：识别文本中的实体，如人名、地名、组织名等。
- 情感分析（Sentiment Analysis）：分析文本中的情感倾向（如正面、负面、中性）。
- 主题建模（Topic Modeling）：识别文本中讨论的主题。
文本生成：
- 机器翻译（Machine Translation）：将一种语言的文本翻译成另一种语言。
- 文本摘要（Text Summarization）：生成文本的简要摘要。
- 对话生成（Dialogue Generation）：生成自然的对话内容，用于聊天机器人等。
问答系统：
- 信息检索（Information Retrieval）：从大量文本数据中检索相关信息。
- 问答生成（Question Answering）：回答用户提出的问题。
语音处理：
- 语音识别（Speech Recognition）：将语音转换为文本。
- 语音合成（Speech Synthesis）：将文本转换为语音。

自然语言处理的技术和方法

统计方法：
- 基于统计和概率的方法，通过分析大量文本数据的频率和模式来理解和生成语言。
机器学习：
- 使用监督学习、无监督学习和半监督学习方法，通过训练模型来完成各种NLP任务。
深度学习：
- 使用神经网络，尤其是循环神经网络（RNN）、长短期记忆网络（LSTM）、卷积神经网络（CNN）和基于注意力机制的Transformer模型，如BERT、GPT等。
预训练语言模型：
- 使用大规模预训练的语言模型（如BERT、GPT-3、T5），在大量文本数据上进行预训练，然后通过微调（fine-tuning）适应特定任务。

自然语言处理的应用

搜索引擎：改进信息检索和查询理解。
虚拟助手：如Siri、Alexa、Google Assistant，提供语音和文本的互动。
自动翻译：如Google Translate，实现多语言之间的自动翻译。
社交媒体分析：分析社交媒体上的用户情感和主题。
内容推荐：根据用户的兴趣推荐相关内容，如新闻、文章、产品等。

自然语言处理的挑战

语言的多样性和复杂性：不同语言的语法、词汇、表达方式差异很大。
歧义和上下文依赖：同一个词或句子在不同上下文中可能有不同的含义。
数据和资源：高质量的标注数据和计算资源需求高。

自然语言处理是一个快速发展的领域，通过不断的技术创新，推动了许多智能应用的发展，使计算机能够更好地理解和处理人类语言。

三、赛题理解

赛题背景

目前神经机器翻译技术已经取得了很大的突破，但在特定领域或行业中，由于机器翻译难以保证术语的一致性，导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果，可以通过术语词典进行纠正，避免了混淆或歧义，最大限度提高翻译质量。

赛事任务

基于术语词典干预的机器翻译挑战赛选择以英文为源语言，中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据，还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练，并基于测试集以及术语词典，提供最终的翻译结果，数据包括：

·训练集：双语数据：中英14万余双语句对

·开发集：英中1000双语句对

·测试集：英中1000双语句对

·术语词典：英中2226条

术语词典干预

术语词典干预是自然语言处理（NLP）和机器翻译领域的一种方法，旨在改进术语翻译的准确性和一致性。它涉及到在翻译过程中引入一个预定义的术语词典（glossary），这个词典包含了特定领域或客户要求的术语及其标准翻译。通过在翻译模型中使用术语词典，可以确保这些术语被准确翻译，从而提高翻译质量。

术语词典干预的主要特点

术语一致性：
- 通过使用术语词典，确保特定术语在整个文档或多个文档中保持一致的翻译。
领域专用性：
- 术语词典通常包含特定领域的专业术语，这对于技术文档、法律文书、医学资料等专业内容的翻译尤为重要。
客户定制化：
- 根据客户的需求定制术语词典，以满足客户特定的术语使用偏好和标准。

术语词典干预的实施方法

术语词典创建：
- 收集和整理特定领域的术语及其对应的翻译，创建一个标准术语词典。
术语识别与标注：
- 在原文中识别术语，并使用标注工具对这些术语进行标记，以便翻译模型识别。
模型干预：
- 在翻译过程中，将术语词典与翻译模型结合，确保模型优先采用词典中的标准翻译。例如，可以通过规则或模型调整，让模型在遇到词典中的术语时，自动替换为指定翻译。

四、实操

参考资料：https://datawhaler.feishu.cn/wiki/TObSwHZdFi2y0XktauWcolpcnyf

步骤

1.下载代码文件

2.启动魔搭GPU环境

3.运行baseline

4.提交submit.txt.文件获取分数

具体操作指南，代码，数据集文件以及baseline文件都包含在链接里面，这里不做赘述

体会感想

相对来说本次task任务量小，操作简单，容易上手，对新手小白而言还是很友好的，按部就班可以轻而易举得出一个提交文件以及分数，不过关于机器学习，语言模型的前置知识，以及对于赛题的个人理解，需要花点时间进行学习，思考

标签：Task1,术语,自然语言,AI,模型,翻译,Datawhale,文本,词典
From： https://blog.csdn.net/weixin_69831681/article/details/140463281