首页 > 其他分享 >我们最近革新了整个翻译流程

我们最近革新了整个翻译流程

时间:2023-05-26 18:14:37浏览次数:36  
标签:翻译 模型 革新 流程 YAML 译者 译文 语料库

目前的机器翻译而言,把握句子结构是没问题的,也就是说译文能做到通顺,但是专有名词把握不准。虽然这样的机器翻译能够大大缩短译者的校对时间,但仍然做不到一天翻译一本书的程度。对于 996 的打工人来说,非常耗费精力。

虽然大语言模型的去中心化开展的如火如荼,一些模型已经可以在本地 CPU 上流利运行。我就想着把我们的翻译流程改一改。以往的机翻校对(MTPE)的最大痛点是译者没能力或者没办法定制/微调模型,导致模型会将相同错误重复无数次。每次都需要译者纠正,译者的经验没办法自动化执行。

但现在不一样了,大模型完全可以在本地通过GPU来微调。按照这个逻辑,我重新设计了我们的翻译流程:

原文 HTML
    ⬇ 
原文 Markdown
    ⬇ 
待翻译 YAML
    ⬇ 
双语 YAML  ➡ 平行语料库
    ⬇ 
译文 Markdown

与之前的流程相比,有以下几点显著优势:

  1. 以 Markdown 格式为主,便于在开源社区传播推广
  2. 使用本地大模型作为翻译引擎,无需网络连接
  3. 翻译后的文件自动形成平行语料库,可以用于模型训练
  4. YAML 格式的平行语料库更容易由人类阅读,可以给其他译者学习
  5. 待翻译 YAML 以句子为单位,强制语言模型不得跳过任何句子。

如果是别人翻译的译文,没有平行语料库,我们还支持自动对齐。

原文+译文 HTML
    ⬇ 
原文+译文 Markdown
    ⬇ 
双语 YAML
    ⬇ 
改良版模型

具体工作可能还需要好几个月。等到我们重新发布翻译作品,就是整个流程跑通的时候。

标签:翻译,模型,革新,流程,YAML,译者,译文,语料库
From: https://www.cnblogs.com/apachecn/p/17435466.html

相关文章

  • JMeter04-性能测试流程之准备步骤
    性能测试流程性能需求分析测试人员需要与需求人员(客户)、领导及项目相关人员进行沟通,同时收集各种项目资料,对系统进行分析,确认测试的意图;确认客户对性能的态度;重点关注的性能指标。某系统需求中性能部分的说明如下要掌握哪些性能测试需求系统响应时间要求每秒完成的业......
  • 流程控制之while循环
    欢迎各位学术交流,有不懂,发现错误的,或想与博主沟通的都的可以评论留言一、while循环语法Python中的while循环用于重复执行一段代码,直到指定的条件不再满足为止。其基本语法为:while条件:代码块当条件成立时,执行代码块中的代码;然后重新判断条件是否成立,如果仍然成立,则继续......
  • 深度解析 slab 内存池回收内存以及销毁全流程
    在上篇文章《深入理解slabcache内存分配全链路实现》中,笔者详细地为大家介绍了slabcache进行内存分配的整个链路实现,本文我们就来到了slabcache最后的一部分内容了,当申请的内存使用完毕之后,下面就该释放内存了。在接下来的内容中,笔者为大家介绍一下内核是如何将内存......
  • WebGL几种常用服务图层的制作流程
    当前,越来越多的用户开始使用三维GIS平台SuperMapiClent3DforWebGL,对于新用户来说最常见的两个问题就是:1.为什么打开场景看不到数据?2.为何范例能实现的效果,我的数据就不行了?而造成这两个问题绝大多数的原因是数据处理不当,本文将讲解制作WebGL常用服务图层的流程及注意事项。 ......
  • 软件开发流程
    软件开发流程/生命周期软件生命周期软件定义(需求讨论确定、原型效果图制作)、开发实施、测试与bug修复、上线、服务与更新、停服。以我当前的经验或者认知,软件服务公司给别人做产品的具体流程大致应该是这这样的:需求分析阶段(第一版功能、不可缺少的必要功能)。//沟通,与确定。......
  • 客户至上,服务至极 ——优维服务流程标准化体系
    ◎如何用服务打动客户?在思考这个问题之前,首先我们要了解做好服务最难的是什么?和机器不一样,流水线的作业出来的东西都是一样的,因为人们完成了手工作业向工业流水线作业的转变。而服务,是需要人来参与的,当由不同的人来完成某件事的时候,就会出现差异。所以,服务最难的就是交付物的一致......
  • prophet翻译(八)--- 异常值
    异常值异常值可以影响Prophet的预测结果,主要有两种方式。下面的示例中,我们使用之前提到的R页面的日志化维基百科访问量数据进行预测,但添加了一段错误的数据:#Pythondf=pd.read_csv('https://raw.githubusercontent.com/facebook/prophet/main/examples/example_wp_log_R_outl......
  • 恒生电子笔试(笔试流程,笔试介绍,题型,以往笔试题)
    2019网申渠道已开放,全国行程将在9月份正式开启完整流程:网申-笔试-2轮面试(群面+单面)-收到实习录取通知笔试流程:通过宣讲会,然后现场笔试。一般早上9点开始笔试,笔试时间两小时,大概1个多小时完成答题。笔试后一天或一周,收到人力通知参加面试笔试介绍:1.参加笔试的学生分A-F卷,每套卷子......
  • 【cplusplus教程翻译】多态(Polymorphism)
    多态(Polymorphism)学习本章之前,需要正确理解指针和继承,如果忘记下面表达式的含义,需要回顾之前的章节基类指针(Pointerstobaseclass)继承的一个关键特性就是派生类的指针可以类型安全地转换成基类指针,多态就是利用这个简单通用特性的艺术//pointerstobaseclass#include<......
  • springmvc执行流程和视图解析器
    代码在course1中1. springmvc请求的处理流程  9 1)发起some.do 2)tomcat(web.xml--url-pattern知道 *.do的请求给DispatcherServlet) 3)DispatcherServlet(根据springmvc.xml配置知道 some.do---doSome()) 4)DispatcherServlet把some.do转发个MyController.doSome()方法 5)框架......