首页 > 其他分享 >中英文互译赫尔辛基大学翻译模型安装与测试

中英文互译赫尔辛基大学翻译模型安装与测试

时间:2024-02-26 17:34:50浏览次数:34  
标签:pipeline en zh 互译 tokenizer 中英文 赫尔辛基大学 path model

引子 近期接到一个文本中英互译的任务,一直以为这种翻译应该很成熟,各种商用版本很多。那么开源的一定也不少,经过网络搜索发现,近两年还真的出现了很多优秀的开源翻译项目。找到了赫尔辛基大学开源免费的多语言翻译模型,开发了1400多个多语种翻译模型。其中就包含了中译英和英译中。OK,那就让我们开始吧。 一、环境安装 1、模型下载 0 下载地址:英译中 https://huggingface.co/Helsinki-NLP/opus-mt-en-zh/tree/main 中译英 https://huggingface.co/Helsinki-NLP/opus-mt-zh-en/tree/main下载红框中的7个文件即可,下载完成后,文件放入指定两个不同文件夹中 2、anaconda环境 conda create -n translation python==3.10 conda activate translation pip install transformers[sentencepiece] -i https://pypi.tuna.tsinghua.edu.cn/simple pip install torch -i https://pypi.tuna.tsinghua.edu.cn/simple pip install sacremoses 二、测试 1、中译英 python zh_en_test.py

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline

model_path = './zh-en/'  
#创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path) 
#创建模型 
model = AutoModelForSeq2SeqLM.from_pretrained(model_path) 
#创建pipeline
pipeline = pipeline("translation", model=model, tokenizer=tokenizer)

chinese="""
中国男子篮球职业联赛(Chinese Basketball Association),简称中职篮(CBA),是由中国篮球协会所主办的跨年度主客场制篮球联赛,中国最高等级的篮球联赛,其中诞生了如姚明、王治郅、易建联、朱芳雨等球星。"""
result = pipeline(chinese)
print(result[0]['translation_text'])
0 2、英译中 python en_zh_test.py
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import pipeline
 
model_path = './en-zh/'  
#创建tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path) 
#创建模型 
model = AutoModelForSeq2SeqLM.from_pretrained(model_path) 
#创建pipeline
pipeline = pipeline("translation", model=model, tokenizer=tokenizer)
english="""
The official site of the National Basketball Association. Follow the action on NBA scores, schedules, stats, news, Team and Player news.
"""
result = pipeline(english)
print(result[0]['translation_text'])
0  

标签:pipeline,en,zh,互译,tokenizer,中英文,赫尔辛基大学,path,model
From: https://www.cnblogs.com/nick-algorithmer/p/18034809

相关文章

  • UVR5字串中英文对照
    msgidSelectInputmsgstr选择输入文件msgidSelectOutputmsgstr选择输出文件msgidSelectInput(s)msgstr选择输入msgidWidenBoxmsgstr扩大框msgidCloseWindowmsgstr关闭窗口msgidEnableHelpHintsmsgstr启用帮助提示msgidOpenApplicationDirectoryms......
  • 三行文字每行有 80 个字符统计出其中英文大写字母、小写字母、数字、空格以及其他字符
    #define_CRT_SECURE_NO_WARNINGS1#include<stdio.h>intmain(){ inti=0; intj=0; intother=0;//其它个数 intZIMU=0;//大写字母个数 intzimu=0;//小字母个数 intnumber=0;//数字个数 intspace=0;//空格个数 intc=0;//用来存取getchar取出来单......
  • Bert-vits2新版本V2.1英文模型本地训练以及中英文混合推理(mix)
    中英文混合输出是文本转语音(TTS)项目中很常见的需求场景,尤其在技术文章或者技术视频领域里,其中文文本中一定会夹杂着海量的英文单词,我们当然不希望AI口播只会念中文,Bert-vits2老版本(2.0以下版本)并不支持英文训练和推理,但更新了底模之后,V2.0以上版本支持了中英文混合推理(mix)......
  • Mac capslock大写锁定键切换中英文的输入法新选择
    工作电脑是Mac,家里的电脑是Win。Mac上一直使用的是Rime输入法,用了https://github.com/iDvel/rime-ice这位大佬的配置Win上用的是搜狗用完搜狗再用Rime的时候,总是能感觉Rime的候选词策略很不顺手,搜狗一般是打出什么就是什么了,Rime就经常不符合期望。而且Rime的......
  • Thinkphp 3.2 Cookie丢失导致中英文混排
    问题关键:CheckLangBehavior.class.php文件中,使用cookie保存语言版本,如果cookie数据被清或者丢失,导致页面出现非预期版本解决办法:不使用cookie保存数据,使用session保存数据,但会出现另外一个问题,CheckLangBehavior.class.php中无法获取session数据实现方式1:修改tags.php'app_be......
  • 网安习题中英文
    第一章《计算机安全手册》将术语“计算机安全”定义为TheNISTComputerSecurityHandbookdefinesthetermcomputersecurityas为实现维护信息系统资源(包括硬件、软件、固件、信息/数据和电信)的完整性、可用性和机密性的适用目标而对自动化信息系统提供的保护Theprotect......
  • Vue3 + antDesign3.x 汉化 中文(解决日期混合中英文模式
    依赖项版本 "ant-design-vue":"^3.2.20", "dayjs":"^1.11.10", "vue":"^3.0.5",依赖处理main.js中import{createApp}from'vue'importAntdfrom'ant-design-vue'import'an......
  • PotPlayer如何外挂中英文双字幕及使用自动翻译功能[转]
     文章来源:https://www.xiaoheiwoo.com/video-players-double-subtitle-setting/ 疯狂的小黑 • 2022年9月19日上午1:27 • 软件/工具 • 阅读10557在口袋资源网下载过视频教程的同学都知道,我们的课程都是配中文字幕的。但是如何在播放视频的时候,挂载上中文字幕呢......
  • vue3中的vue-18n的table表格标题不动态变化中英文
    使用computed即可 eg:constcolumns=computed(()=>{returnreactive<any>([{title:proxy.$t('device.pm.table.index'),dataIndex:'index',width:50,slotName:'indexsort',ellipsis:true,......
  • 《离散数学》双语专业词汇表 名词术语中英文索引
    《离散数学》双语专业词汇表set:集合subset:子集element,member:成员,元素well-defined:良定,完全确定brace:花括号representation:表示sensible:有意义的rationalnumber:有理数emptyset:空集Venndiagram:文氏图contain(in):包含(于)universalset:全集finite(infinite)set:有限(无限)集......