文件格式,一行一个json,每行代表corpus中的一个文件。
from multiprocessing import Manager
from datasets import load_dataset
manager = Manager()
corpus_dataset = load_dataset('json', # ‘json'
'default', # 'default'
data_files={'train': 'amazon_corpus.jsonl'})['train']
docid_to_idx = manager.dict(
{k: v for v, k in enumerate(corpus_dataset['doc_id'])})
item = corpus_dataset[docid_to_idx['123']] # docid转为idx,再取对应doc内容
标签:load,docid,idx,dataset,json,存放,corpus,字典
From: https://www.cnblogs.com/carolsun/p/16860377.html