首页 > 其他分享 >当corpus太大,无法直接存放成字典时怎么办

当corpus太大,无法直接存放成字典时怎么办

时间:2022-11-05 16:13:35浏览次数:105  
标签:load docid idx dataset json 存放 corpus 字典

文件格式,一行一个json,每行代表corpus中的一个文件。

from multiprocessing import Manager
from datasets import load_dataset
manager = Manager()
corpus_dataset = load_dataset('json',  # ‘json'
                              'default',  # 'default'
                              data_files={'train': 'amazon_corpus.jsonl'})['train']
docid_to_idx = manager.dict(
        {k: v for v, k in enumerate(corpus_dataset['doc_id'])})
item = corpus_dataset[docid_to_idx['123']]  # docid转为idx,再取对应doc内容

标签:load,docid,idx,dataset,json,存放,corpus,字典
From: https://www.cnblogs.com/carolsun/p/16860377.html

相关文章