首页 > 其他分享 >如何使用AI工具为外文音视频制作字幕

如何使用AI工具为外文音视频制作字幕

时间:2023-07-23 13:55:09浏览次数:45  
标签:00 AI whisper 音视频 字幕 https net main

1. 语音转录

说到语音转录,现在开源的模型中,效果最好的可以说是openAI开源的whisper了。

安装及使用教程可以直接看他们的项目说明:

https://github.com/openai/whisper

whisper开放了不同尺寸的模型,参数量及占用显存的详情如下:

微信截图_20230723132314

使用的时候,如果没指定模型,默认使用small模型。

如果你是在服务器上,下载很慢,可以使用迅雷进行下载,下面是从源文件中获取的链接:

"tiny.en": "https://openaipublic.azureedge.net/main/whisper/models/d3dd57d32accea0b295c96e26691aa14d8822fac7d9d27d5dc00b4ca2826dd03/tiny.en.pt",
    "tiny": "https://openaipublic.azureedge.net/main/whisper/models/65147644a518d12f04e32d6f3b26facc3f8dd46e5390956a9424a650c0ce22b9/tiny.pt",
    "base.en": "https://openaipublic.azureedge.net/main/whisper/models/25a8566e1d0c1e2231d1c762132cd20e0f96a85d16145c3a00adf5d1ac670ead/base.en.pt",
    "base": "https://openaipublic.azureedge.net/main/whisper/models/ed3a0b6b1c0edf879ad9b11b1af5a0e6ab5db9205f891f668f8b0e6c6326e34e/base.pt",
    "small.en": "https://openaipublic.azureedge.net/main/whisper/models/f953ad0fd29cacd07d5a9eda5624af0f6bcf2258be67c92b79389873d91e0872/small.en.pt",
    "small": "https://openaipublic.azureedge.net/main/whisper/models/9ecf779972d90ba49c06d968637d720dd632c55bbf19d441fb42bf17a411e794/small.pt",
    "medium.en": "https://openaipublic.azureedge.net/main/whisper/models/d7440d1dc186f76616474e0ff0b3b6b879abc9d1a4926b7adfa41db2d497ab4f/medium.en.pt",
    "medium": "https://openaipublic.azureedge.net/main/whisper/models/345ae4da62f9b3d59415adc60127b97c714f32e89e936602e85993674d08dcb1/medium.pt",
    "large-v1": "https://openaipublic.azureedge.net/main/whisper/models/e4b87e7e0bf463eb8e6956e646f1e277e901512310def2c24bf0e11bd3c28e9a/large-v1.pt",
    "large-v2": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",
    "large": "https://openaipublic.azureedge.net/main/whisper/models/81f7c96c852ee8fc832187b0132e569d6c3065a3252ed18e56effd0b6a73e524/large-v2.pt",

2. 字幕合并

一般通过whisper转录后的srt文件,字幕详情如下:

1
00:00:00,000 --> 00:00:08,240
Hello there, I hope you have all seen this, this is a new system by Facebook AI and what

2
00:00:08,240 --> 00:00:14,500
you're seeing here is a visualization of the attention maps of that neural network.

可以看到,有时候一句话比较长,在转成字幕的时候,就会将它变成两个字幕,如果将这些字幕直接使用翻译软件进行翻译,则就会出现下面这种情况:

23

翻译软件就会直接将其当成独立的两句话进行翻译,结果惨不忍睹。

因此,在翻译之前,需要将其合并成一句话,同时,前面的时间戳也必须要合并,可以使用python写一个简单的脚本进行合并。

合并完的效果如下:

1
00:00:00,000 --> 00:00:14,500
Hello there, I hope you have all seen this, this is a new system by Facebook AI and what you're seeing here is a visualization of the attention maps of that neural network.

3. 字幕翻译

字幕翻译有很多工具推荐,可以参考:https://www.jihosoft.cn/zimu/tutorial/translate-subtitles/

我使用的是Subtitling Translation,可以直接将srt拖进去进行翻译,然后点击翻译的目标语音,点Tranlate就可以了。

33

4. 字幕拆分

翻译后的字幕,因为之前合并过的原因,显得非常长,不适合直接作为字幕输入:

4
00:00:30,160 --> 00:00:52,360
你可以看到这个系统既没有被训练来了解狗是什么,也没有被训练来进行任何类型的分割,但如果你看一下注意力图,它显然可以跟踪物体,它知道在图像中要注意什么,而且它可以做更多的事情。

一般来说,字幕有一些行业规范,参考:https://zhuanlan.zhihu.com/p/348776142

Netflix定义:每行字幕最大字符数42,每条字幕最大字符数84。

因此需要将其按照合适的字符拆分为一个个短一点的字幕,这个工作也可以使用python进行拆分,最后拆分后的效果如下:

5
00:00:30,160 --> 00:00:39,194
你可以看到这个系统既没有被训练来了解狗是什么,也没有被训练来进行任何类

6
00:00:39,194 --> 00:00:48,229
型的分割,但如果你看一下注意力图,它显然可以跟踪物体,它知道在图像中要

7
00:00:48,229 --> 00:00:52,360
注意什么,而且它可以做更多的事情

我是根据字符数直接进行拆分,效果简单粗暴。

最后这个字幕就基本完成了,如果要求比较高,可以在这个基础上进行人工校对。

5. 参考

[1] 如何自动翻译字幕:6个好用的视频字幕翻译工具

[2] 什么样的字幕能给观众带来最舒适的观看体验?

 

(完)

标签:00,AI,whisper,音视频,字幕,https,net,main
From: https://www.cnblogs.com/harrymore/p/17574934.html

相关文章

  • 113.STL中的pair
    113.STL中的pair1.pair的简介pair是C++STL(标准模板库)中的一个现有容器,它将2个数据整合成一组数据,当我们类似需求的时候就可以使用到pair啦!pair其实有点像Python中字典中的键值对(Key-Value),一个Key对应着一个Value。pair的本质其实就是个结构体,它含有两个成员变量first和second。......
  • JetBrains PhpStorm 2022 (Win&Mac) 中文激活版
    JetBrainsPhpStorm是一款由JetBrains开发的集成开发环境IDE),专门用于PHP语言开发。它提供了丰富的功能和工具,帮开发人员提高效率并编写高质量的PHP代码。以下是JetBrainsPhpStorm的一些常见特点和功能:代码编辑器:JetBrainsPhpStorm提供了强大的代码编辑器,支持语法高亮、代码补、代......
  • python: emailhelper
     """python发送邮件,用授权码"""importsmtplibfromemail.mime.textimportMIMETextdefsend():"""发送邮件:return:"""try:stmpserver163='smtp.163.com'......
  • 我真的想知道,AI框架跟计算图什么关系?PyTorch如何表达计算图?
    目前主流的深度学习框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把AI系统化的问题形象地表示出来。本节将会以AI概念落地的时候,遇到的一些问题与挑战,因此引出了计算图的概念来对神经网络模型进行统一抽象。......
  • 行行AI人才直播第12期:风平智能创始人林洪祥《AI数字人的技术实践和商业探讨》
    行行AI人才是博客园和顺顺智慧共同运营的AI行业人才全生命周期服务平台。歌手孙燕姿凭借AI翻唱席卷各大视频平台。有视频博主用AI技术复活已故的奶奶,并且与之对话缅怀亲人填补遗憾。更有国外网红通过GPT-4复刻自己,同时与1000多个网友谈恋爱。类似这样的AI分身正在从科幻电影的......
  • AI夏令营-机器学习
    目录1.安装anaconda2.jupyternotebook3.AI环境配置更换镜像源更换conda镜像源pypi更换镜像源pip安装需要的库安装pytorch4.baseline运行1.安装anaconda去清华开源镜像站下载安装包https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/安装的时候这一步记得勾选路径......
  • mysql 8.0 Data Dictionary initialization failed.
    MySQL8.0数据字典初始化失败MySQL是一种常用的关系型数据库管理系统,广泛应用于各种应用程序中。然而,有时在使用MySQL时,可能会遇到一些错误和问题。其中一个常见的错误是“mysql8.0DataDictionaryinitializationfailed.”。问题描述当尝试启动MySQL服务器时,可能会收到以下......
  • Ai-8循环神经网络
    本章的循环神经网络(recurrentneuralnetwork,RNN)可以更好地处理序列信息。循环神经网络通过引入状态变量存储过去的信息和当前的输入,从而可以确定当前的输出。许多使用循环网络的例子都是基于文本数据的,因此我们将在本章中重点介绍语言模型。8.1. 序列模型为了实现对下一时间......
  • AI-初识开发板
      之前没了解过硬件,更没听过开发板。但最近可能会用到,所以看了一些视频和资料,简单梳理一下:  开发板(demoboard)是用于嵌入式系统开发的电路板,Arduino编程语言及芯片,树莓派的操作系统,正点原子以及昇腾的生态等等都很出名。之前厂家面向企业生产,最近好多个人用户也开始使用。开发......
  • 每日汇报 第四周第七天 简单的css和JAVAI/O流
    今日所学:简单的css设计;掌握BufferedInputStream类与BufferedOutputStream类的构造方法及其参数含义;明确BufferedReader类与BufferedWriter类是以行为单位进行输入/输出的;掌握BufferedReader类与BufferedWriter类中的常用方法。html:1<!DOCTYPEhtml>2<htmllang="en">......