首页 > 其他分享 >模型加载20G以上的超大语料,无法加载,怎么办呢?

模型加载20G以上的超大语料,无法加载,怎么办呢?

时间:2024-07-12 14:54:59浏览次数:18  
标签:20G pos file import path 语料 加载

背景:

在做机器翻译的时候,我们的单边语料大约20G大小的纯文本语料,在DataLoader加载的时候不可能一次性加载进来,所以就有了这个超大语料的加载问题。

解决方案:

data_dealing.py:

import os
import sys

root_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(root_dir)

from CODES.CONFIG import *
from tqdm import tqdm
from CODES.UTILS import wordcount
import pickle

def data_dealing():
    pos = 0
    file_pos_list = []

    file_path = datas_dir / "stc_weibo_train_post"

    with open(file_path, "r", encoding="utf-8") as fr:
        file_length = int(wordcount(file_path))
        pb = tqdm(total=file_length)
        for line in fr:
            file_pos_list.append(pos)
            pos += len(line.encode("utf-8"))
            pb.update(1)

        pickle.dump(file_pos_list , open(datas_dir / "big_file_seek_list.pkl", "wb"))

        


if __name_

标签:20G,pos,file,import,path,语料,加载
From: https://blog.csdn.net/wtl1992/article/details/140378626

相关文章

  • 星环科技推出语料开发工具TCS,重塑语料管理与应用新纪元
    5月30-31日,2024向星力·未来数据技术峰会期间,星环科技推出一款创新的语料开发工具——星环语料开发工具TCS(TranswarpCorpusStudio),旨在通过全面的语料生命周期管理,极大提升语料开发效率,助力企业或机构高质量地构建大模型及其应用。星环科技语料开发工具 (TranswarpCorpusSudi......
  • SM2-秘钥加载、生成与转换
    1.背景ECC基于数学上的椭圆曲线离散对数问题,在椭圆曲线密码学(ECC)中,私钥通常表示为一个大整数,即所谓的D值。私钥D:大整数,一个随机选择的大整数。公钥Q:一个点,通过在椭圆曲线上执行点乘法得到的,即Q=D*G,其中G是椭圆曲线的基点,D是私钥。即公钥是由椭圆曲线上的一......
  • WPF 动态加载嵌入主程序的DLL
    WPF动态加载嵌入主程序的DLL,好处是节省文件数量,坏处是启动影响加载速度。首先将DLL添加进项目,选择添加现有项,设置生成操作为“嵌入资源”。代码:publicApp(){AppDomain.CurrentDomain.AssemblyResolve+=CurrentDomain_AssemblyResolve;......
  • 玩鸣潮提示错误代码126:加载x3daudio1_7.dll失败无法打开的多个详细有效解决方法分享
    玩游戏期间你是否也有遇到过找不到x3daudio1_7.dll无法继续执行代码打不开游戏?那么遇到这个问题要怎么办?有什么方法能解决?今天详细给大家介绍一下如何解决找不到x3daudio1_7.dll文件或x3daudio1_7.dll丢失的多个不同方法!第一、x3daudio1_7.dll丢失或损坏的影响系统问题表现......
  • IDEA社区版搭建Spring工程(04-加载配置文件及加解密)
    SpringMVC加载配置文件的几种方式通过context:property-placeholde实现加载配置文件在springmvc.xml配置文件里加入context相关引用<?xmlversion="1.0"encoding="UTF-8"?><beansxmlns="http://www.springframework.org/schema/beans"xmlns:conte......
  • php webman使用fileboy热加载
    1.下载fileboy文件 下载地址:https://gitee.com/dengsgo/fileboy/releases2.在工作目录创建一个文件夹,把下载的exr文件复制一份到文件夹,重命名为‘fileboy.exe’,添加系统变量PATH:   3.打开cmd命令窗口执行fileboy命令,出现以下图说明配置成功 4.切换到项目根目录,执......
  • java类的加载顺序及复杂案例(阿里)
    一.无继承关系的情况下在Java中,类的初始化顺序涉及到多个方面,包括静态变量、静态初始化块、实例变量、实例初始化块(也称为构造器初始化块或初始化块)以及构造器的执行顺序。这里是一个详细的顺序说明:静态变量和静态初始化块:当类被加载到JVM时,类的静态成员(静态变量和静态初......
  • 加载技术和机制各有特点,根据不同的应用场景和需求,开发人员可以选择合适的方式来优化程
    在Windows操作系统中,加载技术通常指的是操作系统如何加载和执行进程、驱动程序或模块的过程。这些加载技术可以根据它们的功能和执行方式进行分类:进程加载:普通进程加载:Windows通过 CreateProcess 或 CreateProcessEx 等API函数加载普通用户进程。这些进程通常从可执行文......
  • 微信小程序图片加载问题及解决方案
    引言在开发微信小程序的过程中,我们经常会遇到图片加载的问题。本文将分享一个常见的问题及其解决方法,帮助开发者避免在小程序中遇到图片加载失败或报错的情况。问题背景在开发一个微信小程序时,我遇到了一个棘手的问题:当图片的src属性被设置为一个变量时,图片无法成功加载,甚至......
  • Java中的类加载器
     类加载器1.什么是类加载器?启动类加载器(BootstrapClassLoader):这是JVM自带的类加载器,负责加载Java的核心类库,如rt.jar等。由于安全原因,启动类加载器加载的类不能被其他类加载器加载的类所引用。扩展类加载器(ExtensionClassLoader):负责加载Java的扩展类库,一般位于$JAVA_H......