网络环境:VPN
电脑:MAC AIR (INtel显卡,无GPU)
(常见错误问题和解决办法在最后,可以跳至最后看)
1、克隆Wav2Lip仓库
git clone https://github.com/Rudrabha/Wav2Lip
2、安装annoconda环境
3、安装ffmpeg(处理音视频的工具,Wav2Lip依赖于它)
conda install ffmpeg
4、创建名为“wav2lip”的虚拟环境(逐个执行如下命令)
conda create -n wav2lip python==3.10
cd wav2lip
5、激活虚拟环境wav2lip
conda activate wav2lip
6、安装项目所需的依赖包(requirements.txt文件中详细罗列)
pip install -r requirements.txt
其中requirements.txt文件内容如下:
librosa==0.7.0
numpy>=1.17.1
opencv-contrib-python>=4.2.0.34
opencv-python>=4.9.0.80
torch>=2.0.1
torchvision>=0.15.0
tqdm>=4.45.0
numba>=0.48
7、下载预训练模型(Wav2Lip使用预训练模型进行推理),并按如下目录方式存放好:
mkdir checkpoints
wget "https://storage.googleapis.com/vit_wav2lip/checkpoints/wav2lip_gan.pth" -P checkpoints/
我是CSDN上搜索预训练模型文件名,通过别人分享的网盘下载的。
下载好以后,文件存位置之如下:
wav2lip.pth存放到checkpoints目录下
wav2lip_gan.pth存放到checkpoints目录下
lipsync_expert.pth存放到checkpoints目录下
visual_quality_disc.pth存放到checkpoints目录下
s3fd.pth存放到face_detection/detection/sfd/目录下
8、执行命令,开始生成数字人
python3.10 inference.py --checkpoint_path checkpoints/wav2lip_gan.pth --face data/XXX --audio data/YYY
XXX:是最终生成的说话的那张脸部的文件,可以是图片或者视频。最好是正脸,嘴巴清晰的便于识别的会比较好。
YYY:是最终生成的说话的声音文件,音频。
生成过程耗时:初次可能会慢点。快的时候几分钟,甚至更短。
【我遇到的问题和解决办法】
1、github项目下载错误
git clone https://github.com/Rudrabha/Wav2Lip
正克隆到 'Wav2Lip'...
错误:RPC 失败。curl 55 Failed sending data to the peer
致命错误:在引用列表之后应该有一个 flush 包
解决:使用VPN,然后执行命令就OK了。
2、执行pip install -r requirements.txt 报错:
ERROR: Could not find a version that satisfies the requirement opencv-python==4.1.0.25
ERROR: No matching distribution found for opencv-python==4.1.0.25
尝试1:
sudo pip3 install opencv-python,不行。
尝试2:
到open CV官方找到GITHUB地址,然后命令运行
git clone https://github.com/opencv/opencv.git
不行。
尝试 3:升级PIP
pip install opencv-python==4.1.0
依然不行。
尝试4:
pip install opencv-python==4.1.0.40
ERROR: No matching distribution found for opencv-python==4.1.0.40
不行
尝试5:
pip install opencv-python
报错pip._vendor.urllib3.exceptions.ReadTimeoutError: HTTPSConnectionPool(host='files.pythonhosted.org', port=443): Read timed out.
尝试6:用 --default-timeout 选项: 增加超时时间,例如:pip install opencv-python --default-timeout=100
安装成功!
再次执行pip install -r requirements.txt 依然是报错:4.1.0.25
尝试7: 找到requirements.txt ,修改里面的opencv-python==当前环境里的Version
一开始requirements.txt文件里的版本是指定特定版本,运行时很多版本不对,太高或者太低,就基本都改成 “>=”某个版本号,成功了解决了问题。
librosa==0.7.0
numpy>=1.17.1
opencv-contrib-python>=4.2.0.34
opencv-python>=4.9.0.80
torch>=2.0.1
torchvision>=0.15.0
tqdm>=4.45.0
numba>=0.48
标签:checkpoints,python,opencv,MAC,Wav2Lip,install,pip,wav2lip,人声 From: https://blog.csdn.net/Beauty2023/article/details/142874236