问题
服务器没法下载外网数据导致hugging face的load_dataset下载失败。
解决方法
没找到load_dataset的源代码,想办法本地下载并上传到服务器,服务器从本地使用数据集。
示例:dataset = load_dataset("mit-han-lab/pile-val-backup", split="validation")
将该路径下的文件下载到本地。
显然只有val.jsonl.zst是数据集文件。
通过其文件类型为jsonl,查看load_dataset怎么load jsonl文件。
load方式为dataset = load_dataset("json", data_files="path_to_jsonl")
但还是会报错,经过多次print dataset发现
dataset = load_dataset("mit-han-lab/pile-val-backup", split="validation")
等价于
dataset = load_dataset("json", data_files="val_data/val.jsonl")
dataset = dataset['train']