模型加载20G以上的超大语料，无法加载，怎么办呢？

时间：2024-07-12 14:54:59浏览次数：20

背景：

在做机器翻译的时候，我们的单边语料大约20G大小的纯文本语料，在DataLoader加载的时候不可能一次性加载进来，所以就有了这个超大语料的加载问题。

解决方案：

data_dealing.py:

import os
import sys

root_dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
sys.path.append(root_dir)

from CODES.CONFIG import *
from tqdm import tqdm
from CODES.UTILS import wordcount
import pickle

def data_dealing():
    pos = 0
    file_pos_list = []

    file_path = datas_dir / "stc_weibo_train_post"

    with open(file_path, "r", encoding="utf-8") as fr:
        file_length = int(wordcount(file_path))
        pb = tqdm(total=file_length)
        for line in fr:
            file_pos_list.append(pos)
            pos += len(line.encode("utf-8"))
            pb.update(1)

        pickle.dump(file_pos_list , open(datas_dir / "big_file_seek_list.pkl", "wb"))

        


if __name_

标签：20G,pos,file,import,path,语料,加载
From： https://blog.csdn.net/wtl1992/article/details/140378626

星环科技推出语料开发工具TCS，重塑语料管理与应用新纪元
5月30-31日，2024向星力·未来数据技术峰会期间，星环科技推出一款创新的语料开发工具——星环语料开发工具TCS（TranswarpCorpusStudio），旨在通过全面的语料生命周期管理，极大提升语料开发效率，助力企业或机构高质量地构建大模型及其应用。星环科技语料开发工具 (TranswarpCorpusSudi......
SM2-秘钥加载、生成与转换
1.背景ECC基于数学上的椭圆曲线离散对数问题，在椭圆曲线密码学(ECC)中，私钥通常表示为一个大整数，即所谓的D值。私钥D：大整数，一个随机选择的大整数。公钥Q：一个点，通过在椭圆曲线上执行点乘法得到的，即Q=D*G，其中G是椭圆曲线的基点，D是私钥。即公钥是由椭圆曲线上的一......
WPF 动态加载嵌入主程序的DLL
WPF动态加载嵌入主程序的DLL，好处是节省文件数量，坏处是启动影响加载速度。首先将DLL添加进项目，选择添加现有项，设置生成操作为“嵌入资源”。代码：publicApp(){AppDomain.CurrentDomain.AssemblyResolve+=CurrentDomain_AssemblyResolve;......
玩鸣潮提示错误代码126：加载x3daudio1_7.dll失败无法打开的多个详细有效解决方法分享
玩游戏期间你是否也有遇到过找不到x3daudio1_7.dll无法继续执行代码打不开游戏？那么遇到这个问题要怎么办？有什么方法能解决？今天详细给大家介绍一下如何解决找不到x3daudio1_7.dll文件或x3daudio1_7.dll丢失的多个不同方法！第一、x3daudio1_7.dll丢失或损坏的影响系统问题表现......
IDEA社区版搭建Spring工程（04-加载配置文件及加解密）
SpringMVC加载配置文件的几种方式通过context:property-placeholde实现加载配置文件在springmvc.xml配置文件里加入context相关引用<?xmlversion="1.0"encoding="UTF-8"?><beansxmlns="http://www.springframework.org/schema/beans"xmlns:conte......
php webman使用fileboy热加载
1.下载fileboy文件下载地址:https://gitee.com/dengsgo/fileboy/releases2.在工作目录创建一个文件夹，把下载的exr文件复制一份到文件夹，重命名为‘fileboy.exe’，添加系统变量PATH： 3.打开cmd命令窗口执行fileboy命令，出现以下图说明配置成功 4.切换到项目根目录，执......
java类的加载顺序及复杂案例（阿里）
一.无继承关系的情况下在Java中，类的初始化顺序涉及到多个方面，包括静态变量、静态初始化块、实例变量、实例初始化块（也称为构造器初始化块或初始化块）以及构造器的执行顺序。这里是一个详细的顺序说明：静态变量和静态初始化块：当类被加载到JVM时，类的静态成员（静态变量和静态初......
加载技术和机制各有特点，根据不同的应用场景和需求，开发人员可以选择合适的方式来优化程
在Windows操作系统中，加载技术通常指的是操作系统如何加载和执行进程、驱动程序或模块的过程。这些加载技术可以根据它们的功能和执行方式进行分类：进程加载：普通进程加载：Windows通过 CreateProcess 或 CreateProcessEx 等API函数加载普通用户进程。这些进程通常从可执行文......
微信小程序图片加载问题及解决方案
引言在开发微信小程序的过程中，我们经常会遇到图片加载的问题。本文将分享一个常见的问题及其解决方法，帮助开发者避免在小程序中遇到图片加载失败或报错的情况。问题背景在开发一个微信小程序时，我遇到了一个棘手的问题：当图片的src属性被设置为一个变量时，图片无法成功加载，甚至......
Java中的类加载器
类加载器1.什么是类加载器？启动类加载器（BootstrapClassLoader）：这是JVM自带的类加载器，负责加载Java的核心类库，如rt.jar等。由于安全原因，启动类加载器加载的类不能被其他类加载器加载的类所引用。扩展类加载器（ExtensionClassLoader）：负责加载Java的扩展类库，一般位于$JAVA_H......

模型加载20G以上的超大语料，无法加载，怎么办呢？

相关文章

赞助商

阅读排行