首页 > 其他分享 >【Datawhale AI夏令营】 Task1 学习笔记

【Datawhale AI夏令营】 Task1 学习笔记

时间:2024-07-16 17:26:55浏览次数:10  
标签:Task1 术语 自然语言 AI 模型 翻译 Datawhale 文本 词典

目录

一、baseline

二、NLP模型

自然语言处理的主要任务

自然语言处理的技术和方法

自然语言处理的应用

自然语言处理的挑战

 三、赛题理解

 赛题背景

赛事任务

术语词典干预

术语词典干预的主要特点

术语词典干预的实施方法

四、实操 

步骤

体会感想 


    学习目标:跑通baseline,体验NLP模型解决问题的流程,基本了解赛题“基于术语词典干预的机器翻译挑战赛”要求,理解赛题场景

一、baseline

    在机器学习中,基线(Baseline)是指一个简单的、容易实现的模型或方法,它用于与更复杂的模型进行性能比较。基线模型的作用是提供一个参考点,以便衡量其他更复杂模型的改进和有效性。如果一个复杂的模型不能明显超过基线模型的性能,那么就需要重新考虑复杂模型的价值。

  1. 零规则(Zero Rule)

    • 对于分类问题,零规则模型简单地选择最频繁的类别作为预测结果。
    • 对于回归问题,零规则模型预测所有输出值为训练集中目标变量的平均值或中位数。
  2. 简单线性回归(Simple Linear Regression)

    • 对于回归问题,使用一个简单的线性模型作为基线,即 (y = mx + b)。
  3. K-近邻算法(K-Nearest Neighbors, KNN)

    • KNN 可以用作基线模型,通过选择少量的最近邻点来进行预测。
  4. 随机猜测(Random Guessing)

    • 对于分类问题,可以随机选择类别作为预测结果。
    • 对于回归问题,可以在一个合理范围内随机选择数值。
  5. 持久性模型(Persistence Model)

    • 对于时间序列预测问题,持久性模型使用上一个时间点的值作为当前时间点的预测值。

二、NLP模型

       自然语言处理(Natural Language Processing, NLP)是计算机科学、人工智能和语言学的交叉领域,旨在实现计算机与人类语言的自然互动。NLP的主要目标是开发能够理解、解释、生成和处理人类语言的计算机系统。以下是对NLP的详细介绍:

自然语言处理的主要任务

  1. 文本预处理

    • 分词(Tokenization):将文本分割成单独的词或子词。
    • 词性标注(Part-of-Speech Tagging, POS Tagging):标记每个词的词性(如名词、动词、形容词等)。
    • 句法解析(Parsing):分析句子的语法结构,生成句法树。
    • 词形还原(Lemmatization)和词干提取(Stemming):将词还原到其基本形式或词干。
  2. 文本理解

    • 命名实体识别(Named Entity Recognition, NER):识别文本中的实体,如人名、地名、组织名等。
    • 情感分析(Sentiment Analysis):分析文本中的情感倾向(如正面、负面、中性)。
    • 主题建模(Topic Modeling):识别文本中讨论的主题。
  3. 文本生成

    • 机器翻译(Machine Translation):将一种语言的文本翻译成另一种语言。
    • 文本摘要(Text Summarization):生成文本的简要摘要。
    • 对话生成(Dialogue Generation):生成自然的对话内容,用于聊天机器人等。
  4. 问答系统

    • 信息检索(Information Retrieval):从大量文本数据中检索相关信息。
    • 问答生成(Question Answering):回答用户提出的问题。
  5. 语音处理

    • 语音识别(Speech Recognition):将语音转换为文本。
    • 语音合成(Speech Synthesis):将文本转换为语音。

自然语言处理的技术和方法

  1. 统计方法

    • 基于统计和概率的方法,通过分析大量文本数据的频率和模式来理解和生成语言。
  2. 机器学习

    • 使用监督学习、无监督学习和半监督学习方法,通过训练模型来完成各种NLP任务。
  3. 深度学习

    • 使用神经网络,尤其是循环神经网络(RNN)、长短期记忆网络(LSTM)、卷积神经网络(CNN)和基于注意力机制的Transformer模型,如BERT、GPT等。
  4. 预训练语言模型

    • 使用大规模预训练的语言模型(如BERT、GPT-3、T5),在大量文本数据上进行预训练,然后通过微调(fine-tuning)适应特定任务。

自然语言处理的应用

  1. 搜索引擎:改进信息检索和查询理解。
  2. 虚拟助手:如Siri、Alexa、Google Assistant,提供语音和文本的互动。
  3. 自动翻译:如Google Translate,实现多语言之间的自动翻译。
  4. 社交媒体分析:分析社交媒体上的用户情感和主题。
  5. 内容推荐:根据用户的兴趣推荐相关内容,如新闻、文章、产品等。

自然语言处理的挑战

  1. 语言的多样性和复杂性:不同语言的语法、词汇、表达方式差异很大。
  2. 歧义和上下文依赖:同一个词或句子在不同上下文中可能有不同的含义。
  3. 数据和资源:高质量的标注数据和计算资源需求高。

    自然语言处理是一个快速发展的领域,通过不断的技术创新,推动了许多智能应用的发展,使计算机能够更好地理解和处理人类语言。

 三、赛题理解

 赛题背景

    目前神经机器翻译技术已经取得了很大的突破,但在特定领域或行业中,由于机器翻译难以保证术语的一致性,导致翻译效果还不够理想。对于术语名词、人名地名等机器翻译不准确的结果,可以通过术语词典进行纠正,避免了混淆或歧义,最大限度提高翻译质量。

赛事任务

    基于术语词典干预的机器翻译挑战赛选择以英文为源语言,中文为目标语言的机器翻译。本次大赛除英文到中文的双语数据,还提供英中对照的术语词典。参赛队伍需要基于提供的训练数据样本从多语言机器翻译模型的构建与训练,并基于测试集以及术语词典,提供最终的翻译结果,数据包括:

·训练集:双语数据:中英14万余双语句对

·开发集:英中1000双语句对

·测试集:英中1000双语句对

·术语词典:英中2226条

术语词典干预

    术语词典干预是自然语言处理(NLP)和机器翻译领域的一种方法,旨在改进术语翻译的准确性和一致性。它涉及到在翻译过程中引入一个预定义的术语词典(glossary),这个词典包含了特定领域或客户要求的术语及其标准翻译。通过在翻译模型中使用术语词典,可以确保这些术语被准确翻译,从而提高翻译质量。

术语词典干预的主要特点

  1. 术语一致性

    • 通过使用术语词典,确保特定术语在整个文档或多个文档中保持一致的翻译。
  2. 领域专用性

    • 术语词典通常包含特定领域的专业术语,这对于技术文档、法律文书、医学资料等专业内容的翻译尤为重要。
  3. 客户定制化

    • 根据客户的需求定制术语词典,以满足客户特定的术语使用偏好和标准。

术语词典干预的实施方法

  1. 术语词典创建

    • 收集和整理特定领域的术语及其对应的翻译,创建一个标准术语词典。
  2. 术语识别与标注

    • 在原文中识别术语,并使用标注工具对这些术语进行标记,以便翻译模型识别。
  3. 模型干预

    • 在翻译过程中,将术语词典与翻译模型结合,确保模型优先采用词典中的标准翻译。例如,可以通过规则或模型调整,让模型在遇到词典中的术语时,自动替换为指定翻译。

四、实操 

参考资料:https://datawhaler.feishu.cn/wiki/TObSwHZdFi2y0XktauWcolpcnyf

步骤

    1.下载代码文件

    2.启动魔搭GPU环境

    3.运行baseline

    4.提交submit.txt.文件获取分数

具体操作指南,代码,数据集文件以及baseline文件都包含在链接里面,这里不做赘述

体会感想 

    相对来说本次task任务量小,操作简单,容易上手,对新手小白而言还是很友好的,按部就班可以轻而易举得出一个提交文件以及分数,不过关于机器学习,语言模型的前置知识,以及对于赛题的个人理解,需要花点时间进行学习,思考

标签:Task1,术语,自然语言,AI,模型,翻译,Datawhale,文本,词典
From: https://blog.csdn.net/weixin_69831681/article/details/140463281

相关文章

  • 智慧煤矿:AI视频智能监管解决方案引领行业新变革
    随着科技的飞速发展,人工智能(AI)技术已经渗透到各个行业,为传统产业的转型升级提供了强大的动力。在煤矿行业中,安全监管一直是一个重要的议题。为了提高煤矿的安全生产水平,降低事故发生率,智慧煤矿的概念应运而生,它结合了先进的AI智能监管技术,为煤矿的安全生产、高效运营和可持续发展......
  • AI编程助手MarsCode已经超乎我的想象
    引言随着大模型的引入,AI是否能替代程序员的讨论也越来越多,我认为目前AI还不能完全替代程序员。特别是在创意创新、复杂问题、协作沟通上,AI能力在这几方面有局限性。但不可否认的是,虽然AI不能完全替代程序员,但它确实在很多方面改变了编程的方式。例如,AI可以自动生成代码片......
  • 了解一下人工智能(AI)相关概念
    人工智能(AI)不仅仅是一个技术流行语,其是一种迅速重塑我们生活和工作方式的变革力量。当我们站在一个新时代的顶端时,人工智能技术已经做好了未来的准备,在各个领域释放出前所未有的可能性。现在各种关于人工智能的技术层出不穷,每种不同的技术所针对的技术重点不同,现在就让我们根据......
  • 北京筑龙入选《2024数字化采购发展报告》,以AI大模型催化采购供应链智能化场景落地
    近日,《2024数字化采购发展报告》(以下简称《报告》)在第五届国有企业数智化采购与智慧供应链高峰论坛上重磅发布。《报告》以“技术变革与价值创造”为主题,展示了生成式人工智能在采购业务中的深入应用,赋能企业实现高效数据分析、精准采购决策与卓越业务管理。北京筑龙凭借《......
  • 2024年死磕这4款AI编程工具,助你代码起飞
    2024年,AI编程工具的发展已经非常成熟了,它们可以极大地提高开发效率,帮助程序员解决复杂问题,并优化代码质量。以下是V哥在使用多款AI编程工具后,觉得非常优秀的四款,它们在2024年可能会成为开发者的得力助手。使用这些工具,开发者可以:快速编写代码,减少手动编码的时间。利用AI的......
  • MBR30200PT-ASEMI智能AI应用MBR30200PT
    编辑:llMBR30200PT-ASEMI智能AI应用MBR30200PT型号:MBR30200PT品牌:ASEMI封装:TO-247批号:最新恢复时间:35ns最大平均正向电流(IF):30A最大循环峰值反向电压(VRRM):200V最大正向电压(VF):0.70V~0.90V工作温度:-65°C~175°C芯片个数:2芯片尺寸:mil正向浪涌电流(IFMS):275AMBR30200PT特性:......
  • AI+资源数据分析运营助手
    在数字化浪潮席卷全球的今天,资源管理,作为企业运营的中枢神经,正迎来一场由人工智能(AI)引领的智慧变革。从资源的智能分配到问题的瞬间解决,AI正在重塑资源管理的每一个角落,让效率与精准成为新常态。本文将带您深入探索AI如何赋能资源管理,从理论到实践,从蓝图到现实,一同见证资源管理......
  • 把LangChain跑起来的3个方法
    使用LangChain开发LLM应用时,需要机器进行GLM部署,好多同学第一步就被劝退了,那么如何绕过这个步骤先学习LLM模型的应用,对Langchain进行快速上手?本片讲解3个把LangChain跑起来的方法,如有错误欢迎纠正。Langchain官方文档地址:https://python.langchain.com/基......
  • 浔川AI五子棋v5.0预告——浔川总社部
    《浔川AI五子棋v5.0预告》亲爱的棋友们,大家好!我们怀着无比激动的心情,向您预告即将震撼登场的浔川AI五子棋v5.0版本!这一次,我们将为您带来前所未有的五子棋体验,让您在智慧的博弈中感受更多的乐趣与挑战。一、更强大的AI对手在v5.0版本中,我们对AI算法进行了......
  • Spring AI(绘图)
    接上篇:SpringAI(聊天程序)application.yml新增配置image模型版本、数量、高度等相关参数配置,若当前代码中和application配置文件中同时声明,则代码中的配置会覆盖application配置文件中的#ai绘图设置image:options:#模型版本mode......