首页 > 其他分享 >用dask并行把大量文本数据读入numpy并分批保存

用dask并行把大量文本数据读入numpy并分批保存

时间:2023-02-27 17:45:56浏览次数:38  
标签:file numpy list dask result 读入 np data

导入包

import numpy as np
import os
import dask 

看看文件格式和

file_list = os.listdir('train_data')
print(len(file_list))
print(file_list[:100])

image

delayed读入并且分批保存

n = 0
result = []
for i in range(len(file_list)):
    y = dask.delayed(np.loadtxt)('train_data/'+file_list[i], delimiter=',')
    result.append(y)
    if (i+1) % 10000 == 0:
        print('saving ... '+str(n))
        result = np.array(result)
        result = dask.compute(*result)
        np.save('data_pack/data_pack_'+str(n), result)
        n+=1
        result = []

if result!= []:
    result = np.array(result)
    result = dask.compute(*result)
    np.save('data_pack/data_pack_'+str(n), result)
    print('saving ... '+str(n))

标签:file,numpy,list,dask,result,读入,np,data
From: https://www.cnblogs.com/urahyou/p/17160617.html

相关文章

  • numpy手撕
    importnumpyasnpdefgelu(x):return0.5*x*(1+np.tanh(np.sqrt(2/np.pi)*(x+0.044715*x**3)))defsoftmax(x):exp_x=np.exp(x-np.max......
  • FileInputStream中的读入方式
    1、fileInputStream.read(bytes)bytes为字节数组变量;该函数表示一次性读取bytes数组大小的字节该函数的返回值有两种:一种是-1,表示文件已读完;另一种是读入的字节......
  • numpy学习
    importnumpyasnp#a=np.array([1,2,3])#print(a[0])#b=np.array([[1,2,3],[4,5,6]])#print(b[0])#print(b.shape)#创造numpy的方式#np.arra......
  • 各类梯度下降算法的numpy实现
    layout:posttitle:深度学习subtitle:梯度下降算法实现description:梯度下降算法实现date:2022-10-25categories:deeplearningtags:codepy......
  • python Numpy数组2.27
    #成员类型转换arr.astype(np.float_)#转换数组对象成员的类型为float,形状不变。#形状转换arr.resize(shape)#返回值是一个None,不能引用内部的属性arr.reshape(shape)#......
  • shell 读入写入execl文件
    #!/bin/bash#定义Excel文件路径和Sheet名称EXCEL_FILE="example.xlsx"SHEET_NAME="Sheet1"#读取Excel文件内容echo"ReadingExcelfile${EXCEL_FILE}"python......
  • Numpy
    NumPy什么是NumPy?  NumPy是Python中科学计算的基础包。Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种API,有包括数学、逻......
  • numpy中的矩阵
    numpy中的矩阵1.矩阵矩阵,和array的区别是矩阵必须是2维的,但array可以是多维的2.向量3.加法和标量相乘4.矩阵向量乘法矩阵乘法遵循准则:(M行,N列)*(N行,L列)=(M行,L列)......
  • numpy的ndarray的运算
    ndarray的运算1.逻辑运算score=np.random.randint(40,100,(10,5))#生成一个10行5列取值在40-50之间的数组test_sore=score[6:,0:5]#从第6行开始到末尾,5列,取出4名同......
  • python numpy 中的冒号
    python中冒号实际上有两个意思:1.全部选择matrix1[1,:]表示matrix的第1行的所有元素matrix1[:,1]表示matrix的第1列的所有元素2.表示区间,含左不含右matrix1[1,0:......