首页 > 其他分享 >whisper v3 finetune 中文乱码问题的解决方案

whisper v3 finetune 中文乱码问题的解决方案

时间:2024-12-09 17:13:46浏览次数:5  
标签:centos whisper finetune 12.4 乱码 源码 nvidia cu12 安装

最近学习了一下whisper的微调,主要是参考了github上的夜雨飘零大神项目。但是在操作中遇到了微调中文的时候出现了乱码的情况。以下是我这边对于微调过程中中文出现乱码情况的解决方案。

出现情况如下图所示:

image

系统环境

NAME="CentOS Linux"
VERSION="7 (Core)"
ID="centos"
ID_LIKE="rhel fedora"
VERSION_ID="7"
PRETTY_NAME="CentOS Linux 7 (Core)"
ANSI_COLOR="0;31"
CPE_NAME="cpe:/o:centos:centos:7"
HOME_URL="https://www.centos.org/"
BUG_REPORT_URL="https://bugs.centos.org/"

CENTOS_MANTISBT_PROJECT="CentOS-7"
CENTOS_MANTISBT_PROJECT_VERSION="7"
REDHAT_SUPPORT_PRODUCT="centos"
REDHAT_SUPPORT_PRODUCT_VERSION="7"

使用conda创建的虚拟环境,第一次安装时,直接安装的最新版本的第三方库,也正是因此训练出现了问题。再仔细查看了该项目的isse后,发现大佬们也有这个问题,是通过降低库的版本实现的。
image

注意:transformer要使用源码进行安装

transformer官网上找到4.36版本。拉取到我自己的服务器上,进行源码安装。
由于 peft 上没有v0.6.3.dev 版本,故下载了v0.7.0版本
以上两个库我这边都是使用源码进行安装的。

再安装完这两个库以后,再按需安装其他库。
我这边的虚拟环境的库以及对应的版本如下:

Package                  Version      Editable project location
------------------------ ------------ ---------------------------------------------------------------
accelerate               1.1.1
aiohappyeyeballs         2.4.4
aiohttp                  3.11.9
aiosignal                1.3.1
anyio                    4.6.2.post1
async-timeout            5.0.1
attrs                    24.2.0
audioread                3.0.1
av                       14.0.0
bitsandbytes             0.41.3
certifi                  2024.8.30
cffi                     1.17.1
charset-normalizer       3.4.0
click                    8.1.7
coloredlogs              15.0.1
ctranslate2              4.5.0
dataclasses              0.6
datasets                 3.1.0
decorator                5.1.1
dill                     0.3.8
evaluate                 0.4.3
exceptiongroup           1.2.2
faster-whisper           1.1.0
filelock                 3.16.1
flatbuffers              24.3.25
frozenlist               1.5.0
fsspec                   2024.9.0
huggingface-hub          0.26.3
humanfriendly            10.0
idna                     3.10
Jinja2                   3.1.4
jiwer                    3.0.5
joblib                   1.4.2
lazy_loader              0.4
librosa                  0.10.2.post1
llvmlite                 0.43.0
MarkupSafe               3.0.2
mpmath                   1.3.0
msgpack                  1.1.0
multidict                6.1.0
multiprocess             0.70.16
networkx                 3.2.1
numba                    0.60.0
numpy                    2.0.2
nvidia-cublas-cu12       12.4.5.8
nvidia-cuda-cupti-cu12   12.4.127
nvidia-cuda-nvrtc-cu12   12.4.127
nvidia-cuda-runtime-cu12 12.4.127
nvidia-cudnn-cu12        9.1.0.70
nvidia-cufft-cu12        11.2.1.3
nvidia-curand-cu12       10.3.5.147
nvidia-cusolver-cu12     11.6.1.9
nvidia-cusparse-cu12     12.3.1.170
nvidia-nccl-cu12         2.21.5
nvidia-nvjitlink-cu12    12.4.127
nvidia-nvtx-cu12         12.4.127
onnxruntime              1.16.3
packaging                24.2
pandas                   2.2.3
peft                     0.7.0        #对应的安装的源码文件所在路径
pip                      24.2
platformdirs             4.3.6
pooch                    1.8.2
propcache                0.2.1
protobuf                 5.29.1
psutil                   6.1.0
pyarrow                  18.1.0
pycparser                2.22
pydub                    0.25.1
python-dateutil          2.9.0.post0
pytz                     2024.2
PyYAML                   6.0.2
RapidFuzz                3.10.1
regex                    2024.11.6
requests                 2.32.3
safetensors              0.4.5
scikit-learn             1.5.2
scipy                    1.13.1
setuptools               75.1.0
six                      1.17.0
sniffio                  1.3.1
SoundCard                0.4.3
soundfile                0.12.1
soxr                     0.5.0.post1
starlette                0.41.3
sympy                    1.13.1
tensorboardX             2.6.2.2
threadpoolctl            3.5.0
tokenizers               0.15.2
torch                    2.5.1
tqdm                     4.67.1
transformers             4.36.0       #对应的安装的源码文件所在路径
triton                   3.1.0
typing_extensions        4.12.2
tzdata                   2024.2
urllib3                  2.2.3
wheel                    0.44.0
xxhash                   3.5.0
yarl                     1.18.3
zhconv                   1.4.3

至此环境准备完毕,可以按照项目内的数据格式和要求进行准备数据了。我这边finetune后的结果是正常的。如下:
image

标签:centos,whisper,finetune,12.4,乱码,源码,nvidia,cu12,安装
From: https://www.cnblogs.com/kevinarcsin001/p/18595473

相关文章

  • JDK 18 及以上使用标准输出流中文输出乱码问题
    著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。链接:https://stazxr.cn/2024/12/05/JDK-18-以上使用标准输出流中文输出乱码问题/来源:終わり群星问题描述起因是tomcat调用servlet输出的System.out.println(也就是所说的控制台输出流)中文乱码,但是其......
  • python批量将文件编码格式转换为 UTF8带标签的格式,解决linux环境下中文编码乱码的问题
    指定一个文件夹,遍历文件夹内的文件和子文件夹内的文件,然后识别文件后缀为cpp的文件,通过chardet取检测文件的编码格式,如果不是UTF-8-SIG,则转换为UTF-8-SIGpython脚本格式如下importosimportsysimportcodecsimportchardetdefconvert(filename,out_enc="UTF-8-SIG"):......
  • 【坑记录】linux 输出中文乱码问题
    1、现象:1)上传shell脚本到centos7系统运行后,脚本中echo输出内容到文件,不管是cat或者vim打开文件,中文都是乱码,如下图:2、排查1)怀疑系统编码和文件编码不一致导致显示乱码。系统编码,经过查看,如下:文件编码,经过查看,如下:确实是编码不一致导致。2)系统编码已经是utf-8,但是文件编......
  • 服务启动没问题,打包出现异常乱码问题修改记录
    打包时报错[ERROR]Failureexecutingjavac,butcouldnotparsetheerror:[������ʼʱ��RegularFileObject[xxxx\xxxx服务\src\main\java\com\owinfo\service\service\impl\VehicleInfoService.java]][���������,��ʱ18����][������ʼʱ��RegularFileObject[xxxx\......
  • 如何解决 Java Properties 文件中 .ini文件乱码问题
    如何解决JavaProperties文件中.ini文件乱码问题在Java开发中,配置文件是一项常见的需求,通常我们使用.properties文件来保存应用程序的配置。然而,当我们尝试使用.ini文件(即带有非标准字符编码的配置文件)时,经常会遇到乱码问题。这个问题的出现,通常是因为Properties类默......
  • 【全流程】eclipce解决javaweb项目向数据库插入中文字符时乱码问题
    问题背景:使用jdk1.8tomcat9.0.72eclipce2021版本maven2-8-4问题描述:制作javaweb项目时想实现向数据库里增加值,传英文没问题,但是传中文时发现乱码,最开始我以为是传输问题解决过程:建议按流程自己检查一遍1.先检查数据库字母集2,检查eclipce软件设置,按我发的第三篇参考......
  • Zabbix7 乱码处理
    Zabbix7乱码处理Zabbix安装好后,查看图形时下面的文字往往显示不出来从windows主机C:\Windows\Fonts拷贝字体文件双击打开,拷贝文件到桌面上传到Zabbix主机以下目录(可以使用lrzsz上传,安装方式dnfinstalllrzsz-y)/usr/share/zabbix/assets/fonts修改配置文件vim/u......
  • 网站错位、乱码以及CSS不加载通常是由于以下几个原因造成的
    网站错位、乱码以及CSS不加载通常是由于以下几个原因造成的:字符编码问题:网页的字符编码设置不正确,导致显示乱码。CSS文件路径错误:CSS文件的路径配置错误,浏览器无法找到并加载CSS文件。HTTP请求问题:CSS文件所在的服务器出现问题,导致无法正确响应请求。浏览器缓存:浏览器缓存了......
  • 网页本地预览正常, 上传服务器后乱码、错位是怎么回事
    网站本地预览正常,如果上传后出现错位和乱码,大概率是css或者js没有正确引入导致的。 这种情况处理比较简单,检查文件路径并修复即可。  但有一种特殊情况,各种文件路径都对,通过浏览器也可以正常访问,但前端页面就是错位。 那你检查一下,网页源代码中是否存在以下代码<m......
  • 将字体打包至Docker中使用解决文字替换乱码问题
    1.将字体文件放在font文件夹下上传至发布文件夹(一般是:/www/wwwroot/xxx.com/publish)中。 2.编辑Dockerfile文件,增加: #复制本地字体文件到容器内的字体目录COPY./font//usr/share/fonts/truetype/custom/ 其中,“./font/ ”是字体文件所在文件夹,/usr/share/fonts/tr......