首页 > 其他分享 >A Novel Paradigm Boosting Translation Capabilities of Large Language Models

A Novel Paradigm Boosting Translation Capabilities of Large Language Models

时间:2024-06-01 23:57:25浏览次数:16  
标签:翻译 Novel 范式 训练 Language Models 机器翻译 LLM 语言

本文是LLM系列文章,针对《A Novel Paradigm Boosting Translation Capabilities of Large Language Models》的翻译。

提升大型语言模型翻译能力的新范式

摘要

本文研究了在机器翻译任务中提高大型语言模型翻译能力的策略。本文提出了一种新的范式,包括三个阶段:使用广泛的单语言数据进行二次预训练,使用线性文本格式文档进行连续预训练,以及利用源语言一致性指令进行监督微调。先前对LLM的研究集中在监督微调(SFT)的各种策略上,但其有效性有限。虽然传统的机器翻译方法依赖于大量的平行双语数据,但我们的范式强调了使用较小的高质量双语数据集的重要性。我们认为,重点应该放在增强LLM在预训练期间的跨语言对齐能力上ÿ

标签:翻译,Novel,范式,训练,Language,Models,机器翻译,LLM,语言
From: https://blog.csdn.net/c_cpp_csharp/article/details/139340888

相关文章

  • 论文总结:Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
    目录一、论文摘要二、Grasp-Anything数据集A.场景生成B.抓取姿势标注​编辑C.Grasp-Anything统计D.Grasp-Anything对社区的帮助三、实验A.零样本抓取检测B.机器人评估C.野外抓取检测D.讨论四、总结论文:https://arxiv.org/pdf/2309.09818v1代码:https://......
  • 美团多场景多任务学习论文《HiNet: Novel Multi-Scenario & Multi-Task Learning with
    模型结构模型主要包含场景抽取层和任务抽取层(上图A):场景抽取层场景抽取层主要包括了场景共享专家(Scenario-sharedexpert)模块、当前场景特有专家(Scenario-specificexpert)模块以及场景感知注意力网络,通过这三部分的信息抽取,最终形成了场景层次的信息表征场景共享专家就是一......
  • Large Language Models as Data Augmenters for Cold-Start Item Recommendation论文
    LargeLanguageModelsasDataAugmentersforCold-StartItemRecommendation论文阅读笔记Abstract​ LLM的推理和泛化能力可以帮助我们更好地理解用户的偏好和项目特征。我们建议利用LLM作为数据增强器,来弥补在训练过程中对冷启动项目的知识差距。我们使用LLM根据用户历史行......
  • Re-Search for The Truth Multi-round Retrieval-augmented Large Language Models ar
    本文是LLM系列文章,针对《Re-SearchforTheTruth:Multi-roundRetrieval-augmentedLargeLanguageModelsareStrongFakeNewsDetectors》的翻译。重新寻找真相:多轮检索增强的大型语言模型是强大的假新闻检测器摘要1引言2相关工作3方法4实验5结论局限......
  • Unmasking the Shadows of AI: Investigating Deceptive Capabilities in Large Langu
    本文是LLM系列文章,针对《UnmaskingtheShadowsofAI:InvestigatingDeceptiveCapabilitiesinLargeLanguageModels》的翻译。揭开人工智能的阴影:大型语言模型中的欺骗能力研究摘要2023年人工智能安全峰会:它实际实现了什么?AI欺骗的意义LLM和LLM中的偏见关于......
  • Learning Transferable Visual Models From Natural Language Supervision
    郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!Proceedingsofthe38thInternationalConferenceonMachineLearning,PMLR139,2021.  Abstract 1.IntroductionandMotivatingWork 2.Approach 2.1.CreatingaSufficientlyLargeDataset ......
  • DDL(Data Definition Language)数据定义语句
    DDL语句的主要作用是定义或修改数据表的结构或数据类型。数据表的创建:CREATETABLE{表名}({字段名}{数据类型}{限制条件1}{限制条件2}...,{字段名}{数据类型}{限制条件1}{限制条件2}...);注:*每个字段之间需要写逗号*限制条件可以不加示例:#创......
  • Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning
    最近要看一些推理攻击的内容,把看过的都放过来吧DeepModelsUndertheGAN:InformationLeakagefromCollaborativeDeepLearningGAN下的深度模型:协作深度学习的信息泄漏ACMCCS2017文章目录一、论文信息1.题目2.作者3.期刊年限4.关键词二、背景三、创新......
  • 怎么使用Stable diffusion中的models
    Stablediffusion中的modelsStablediffusionmodel也可以叫做checkpointmodel,是预先训练好的Stablediffusion权重,用于生成特定风格的图像。模型生成的图像类型取决于训练图像。如果训练数据中从未出现过猫的图像,模型就无法生成猫的图像。同样,如果只用猫的图像来训练模型,它也......
  • FEL - Fast Expression Language
    开源好用的表达式计算语言FEL,可惜了官网文档不在国内,我来个过来。Fel是轻量级的高效的表达式计算引擎Fel在源自于企业项目,设计目标是为了满足不断变化的功能需求和性能需求。Fel是开放的,引擎执行中的多个模块都可以扩展或替换。Fel的执行主要是通过函数实现,运算符(+、-等都是F......