中英文互译赫尔辛基大学翻译模型安装与测试

时间：2024-02-26 17:34:50浏览次数：34

标签：pipeline en zh 互译 tokenizer 中英文赫尔辛基大学 path model

引子近期接到一个文本中英互译的任务，一直以为这种翻译应该很成熟，各种商用版本很多。那么开源的一定也不少，经过网络搜索发现，近两年还真的出现了很多优秀的开源翻译项目。找到了赫尔辛基大学开源免费的多语言翻译模型，开发了1400多个多语种翻译模型。其中就包含了中译英和英译中。OK，那就让我们开始吧。一、环境安装 1、模型下载下载地址：英译中 https://huggingface.co/Helsinki-NLP/opus-mt-en-zh/tree/main 中译英 https://huggingface.co/Helsinki-NLP/opus-mt-zh-en/tree/main下载红框中的7个文件即可，下载完成后，文件放入指定两个不同文件夹中 2、anaconda环境 conda create -n translation python==3.10 conda activate translation pip install transformers[sentencepiece] -i https://pypi.tuna.tsinghua.edu.cn/simple pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple pip install sacremoses 二、测试 1、中译英 python zh_en_test.py

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline

model_path = './zh-en/'  
#创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path) 
#创建模型 
model = AutoModelForSeq2SeqLM.from_pretrained(model_path) 
#创建pipeline
pipeline = pipeline("translation", model=model, tokenizer=tokenizer)

chinese="""
中国男子篮球职业联赛（Chinese Basketball Association），简称中职篮（CBA），是由中国篮球协会所主办的跨年度主客场制篮球联赛，中国最高等级的篮球联赛，其中诞生了如姚明、王治郅、易建联、朱芳雨等球星。"""
result = pipeline(chinese)
print(result[0]['translation_text'])

2、英译中 python en_zh_test.py

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline
 
model_path = './en-zh/'  
#创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path) 
#创建模型 
model = AutoModelForSeq2SeqLM.from_pretrained(model_path) 
#创建pipeline
pipeline = pipeline("translation", model=model, tokenizer=tokenizer)
english="""
The official site of the National Basketball Association. Follow the action on NBA scores, schedules, stats, news, Team and Player news.
"""
result = pipeline(english)
print(result[0]['translation_text'])

标签：pipeline,en,zh,互译,tokenizer,中英文,赫尔辛基大学,path,model
From： https://www.cnblogs.com/nick-algorithmer/p/18034809

UVR5字串中英文对照
msgidSelectInputmsgstr选择输入文件msgidSelectOutputmsgstr选择输出文件msgidSelectInput(s)msgstr选择输入msgidWidenBoxmsgstr扩大框msgidCloseWindowmsgstr关闭窗口msgidEnableHelpHintsmsgstr启用帮助提示msgidOpenApplicationDirectoryms......
三行文字每行有 80 个字符统计出其中英文大写字母、小写字母、数字、空格以及其他字符
#define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>intmain(){ inti=0; intj=0; intother=0;//其它个数 intZIMU=0;//大写字母个数 intzimu=0;//小字母个数 intnumber=0;//数字个数 intspace=0;//空格个数 intc=0;//用来存取getchar取出来单......
Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
中英文混合输出是文本转语音(TTS)项目中很常见的需求场景，尤其在技术文章或者技术视频领域里，其中文文本中一定会夹杂着海量的英文单词，我们当然不希望AI口播只会念中文，Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理，但更新了底模之后，V2.0以上版本支持了中英文混合推理(mix)......
Mac capslock大写锁定键切换中英文的输入法新选择
工作电脑是Mac，家里的电脑是Win。Mac上一直使用的是Rime输入法，用了https://github.com/iDvel/rime-ice这位大佬的配置Win上用的是搜狗用完搜狗再用Rime的时候，总是能感觉Rime的候选词策略很不顺手，搜狗一般是打出什么就是什么了，Rime就经常不符合期望。而且Rime的......
Thinkphp 3.2 Cookie丢失导致中英文混排
问题关键：CheckLangBehavior.class.php文件中，使用cookie保存语言版本，如果cookie数据被清或者丢失，导致页面出现非预期版本解决办法：不使用cookie保存数据，使用session保存数据，但会出现另外一个问题，CheckLangBehavior.class.php中无法获取session数据实现方式1：修改tags.php'app_be......
网安习题中英文
第一章《计算机安全手册》将术语“计算机安全”定义为TheNISTComputerSecurityHandbookdefinesthetermcomputersecurityas为实现维护信息系统资源（包括硬件、软件、固件、信息/数据和电信）的完整性、可用性和机密性的适用目标而对自动化信息系统提供的保护Theprotect......
Vue3 + antDesign3.x 汉化中文（解决日期混合中英文模式
依赖项版本 "ant-design-vue":"^3.2.20", "dayjs":"^1.11.10", "vue":"^3.0.5",依赖处理main.js中import{createApp}from'vue'importAntdfrom'ant-design-vue'import'an......
PotPlayer如何外挂中英文双字幕及使用自动翻译功能[转]
文章来源：https://www.xiaoheiwoo.com/video-players-double-subtitle-setting/ 疯狂的小黑 • 2022年9月19日上午1:27 • 软件/工具 • 阅读10557在口袋资源网下载过视频教程的同学都知道，我们的课程都是配中文字幕的。但是如何在播放视频的时候，挂载上中文字幕呢......
vue3中的vue-18n的table表格标题不动态变化中英文
使用computed即可 eg：constcolumns=computed(()=>{returnreactive<any>([{title:proxy.$t('device.pm.table.index'),dataIndex:'index',width:50,slotName:'indexsort',ellipsis:true,......
《离散数学》双语专业词汇表名词术语中英文索引
《离散数学》双语专业词汇表set：集合subset：子集element,member：成员，元素well-defined：良定，完全确定brace：花括号representation：表示sensible：有意义的rationalnumber：有理数emptyset：空集Venndiagram：文氏图contain(in)：包含（于）universalset：全集finite(infinite)set：有限（无限）集......

中英文互译赫尔辛基大学翻译模型安装与测试

相关文章

赞助商

阅读排行