A Novel Paradigm Boosting Translation Capabilities of Large Language Models

时间：2024-06-01 23:57:25浏览次数：16

标签：翻译 Novel 范式训练 Language Models 机器翻译 LLM 语言

本文是LLM系列文章，针对《A Novel Paradigm Boosting Translation Capabilities of Large Language Models》的翻译。

提升大型语言模型翻译能力的新范式

摘要
1 引言
2 相关工作
3 新的训练策略
4 实验
5 结果和分析
6 消融研究：如果我们直接使用大量的翻译数据进行SFT会怎样？
7 结论
8 局限性

摘要

本文研究了在机器翻译任务中提高大型语言模型翻译能力的策略。本文提出了一种新的范式，包括三个阶段：使用广泛的单语言数据进行二次预训练，使用线性文本格式文档进行连续预训练，以及利用源语言一致性指令进行监督微调。先前对LLM的研究集中在监督微调（SFT）的各种策略上，但其有效性有限。虽然传统的机器翻译方法依赖于大量的平行双语数据，但我们的范式强调了使用较小的高质量双语数据集的重要性。我们认为，重点应该放在增强LLM在预训练期间的跨语言对齐能力上ÿ

标签：翻译,Novel,范式,训练,Language,Models,机器翻译,LLM,语言
From： https://blog.csdn.net/c_cpp_csharp/article/details/139340888

论文总结：Grasp-Anything: Large-scale Grasp Dataset from Foundation Models
目录一、论文摘要二、Grasp-Anything数据集A.场景生成B.抓取姿势标注编辑C.Grasp-Anything统计D.Grasp-Anything对社区的帮助三、实验A.零样本抓取检测B.机器人评估C.野外抓取检测D.讨论四、总结论文：https://arxiv.org/pdf/2309.09818v1代码：https://......
美团多场景多任务学习论文《HiNet: Novel Multi-Scenario & Multi-Task Learning with
模型结构模型主要包含场景抽取层和任务抽取层（上图A）：场景抽取层场景抽取层主要包括了场景共享专家（Scenario-sharedexpert）模块、当前场景特有专家（Scenario-specificexpert）模块以及场景感知注意力网络，通过这三部分的信息抽取，最终形成了场景层次的信息表征场景共享专家就是一......
Large Language Models as Data Augmenters for Cold-Start Item Recommendation论文
LargeLanguageModelsasDataAugmentersforCold-StartItemRecommendation论文阅读笔记Abstract LLM的推理和泛化能力可以帮助我们更好地理解用户的偏好和项目特征。我们建议利用LLM作为数据增强器，来弥补在训练过程中对冷启动项目的知识差距。我们使用LLM根据用户历史行......
Re-Search for The Truth Multi-round Retrieval-augmented Large Language Models ar
本文是LLM系列文章，针对《Re-SearchforTheTruth:Multi-roundRetrieval-augmentedLargeLanguageModelsareStrongFakeNewsDetectors》的翻译。重新寻找真相：多轮检索增强的大型语言模型是强大的假新闻检测器摘要1引言2相关工作3方法4实验5结论局限......
Unmasking the Shadows of AI: Investigating Deceptive Capabilities in Large Langu
本文是LLM系列文章，针对《UnmaskingtheShadowsofAI:InvestigatingDeceptiveCapabilitiesinLargeLanguageModels》的翻译。揭开人工智能的阴影：大型语言模型中的欺骗能力研究摘要2023年人工智能安全峰会：它实际实现了什么？AI欺骗的意义LLM和LLM中的偏见关于......
Learning Transferable Visual Models From Natural Language Supervision
郑重声明：原文参见标题，如有侵权，请联系作者，将会撤销发布！Proceedingsofthe38thInternationalConferenceonMachineLearning,PMLR139,2021. Abstract 1.IntroductionandMotivatingWork 2.Approach 2.1.CreatingaSufficientlyLargeDataset ......
DDL（Data Definition Language）数据定义语句
DDL语句的主要作用是定义或修改数据表的结构或数据类型。数据表的创建：CREATETABLE{表名}({字段名}{数据类型}{限制条件1}{限制条件2}...,{字段名}{数据类型}{限制条件1}{限制条件2}...);注：*每个字段之间需要写逗号*限制条件可以不加示例：#创......
Deep Models Under the GAN: Information Leakage from Collaborative Deep Learning
最近要看一些推理攻击的内容，把看过的都放过来吧DeepModelsUndertheGAN:InformationLeakagefromCollaborativeDeepLearningGAN下的深度模型：协作深度学习的信息泄漏ACMCCS2017文章目录一、论文信息1.题目2.作者3.期刊年限4.关键词二、背景三、创新......
怎么使用Stable diffusion中的models
Stablediffusion中的modelsStablediffusionmodel也可以叫做checkpointmodel，是预先训练好的Stablediffusion权重，用于生成特定风格的图像。模型生成的图像类型取决于训练图像。如果训练数据中从未出现过猫的图像，模型就无法生成猫的图像。同样，如果只用猫的图像来训练模型，它也......
FEL - Fast Expression Language
开源好用的表达式计算语言FEL，可惜了官网文档不在国内，我来个过来。Fel是轻量级的高效的表达式计算引擎Fel在源自于企业项目，设计目标是为了满足不断变化的功能需求和性能需求。Fel是开放的，引擎执行中的多个模块都可以扩展或替换。Fel的执行主要是通过函数实现,运算符(+、-等都是F......

A Novel Paradigm Boosting Translation Capabilities of Large Language Models

提升大型语言模型翻译能力的新范式

摘要

相关文章

赞助商

阅读排行