首页 > 编程语言 >python日常工作处理-文件按比例分割数据

python日常工作处理-文件按比例分割数据

时间:2023-04-28 19:33:50浏览次数:42  
标签:count index 分割 python 日常 file input counts total

python日常工作处理-文件按比例分割数据

把一个保存用户id文本进行比例分割,比例为50%,分别另存为另外两个文件

代码

import random

input_file = '/Users/Desktop/2023-03-28.txt'
group1_file = '/Users/Desktop/group1_2023-03-28.txt'
group2_file = '/Users/Desktop/group2_2023-03-28.txt'

if __name__ == '__main__':
    output_files = [
        open(group1_file, 'w'),
        open(group2_file, 'w')
    ]
    counts = [0, 0]

    with open(input_file, 'r') as input:
        total_count = 0
        for _ in input:
            total_count += 1
        print(f'{input_file} size:{total_count}')
        total_count //= 2
        input.seek(0)
        for line in input:
            index = random.randint(0, 1)
            if counts[index] >= total_count:
                index = 1 - index
            output_files[index].write(line)
            counts[index] += 1
    print(f'{group1_file} size:{counts[0]}')
    print(f'{group2_file} size:{counts[1]}')
    output_files[0].close()
    output_files[1].close()

标签:count,index,分割,python,日常,file,input,counts,total
From: https://www.cnblogs.com/SAN-W/p/17362994.html

相关文章

  • python 日志打印log
    目录python日志打印loglogginglogurucoloredlogsrich总结python日志打印logPython中常用的打印log的库有以下几个:loggingPython标准库中的模块,提供了灵活的日志记录方式,可以输出到控制台或文件,支持级别控制、日志格式化等功能。使用logging模块打印日志的一般步骤如......
  • python设定闹钟提醒
    importtimeimportdatetime#设置提醒时间(24小时制)study_time="8:00:00"eat_time="12:00:00"sleep_time="23:00:00"whileTrue:#获取当前时间now=datetime.datetime.now().strftime("%H:%M:%S")#如果当前时间与提醒......
  • Python_Gooey和pyinstaller打造易用的工具
    Python沟通Python搭建GUI界面时,首选Gooey,然后PyQt5和Tkinter,Pyinstaller:--paths后接第三方模块的路径,多个路径直接用逗号分隔(英文逗号)-F后接源文件路径使用-F,只生成一个大的可执行文件--clean表示清理打包完成后的临时文件(可选,但建议写上)......
  • python用支持向量机回归(SVR)模型分析用电量预测电力消费|附代码数据
    全文链接:http://tecdat.cn/?p=23921最近我们被客户要求撰写关于SVR的研究报告,包括一些图形和统计输出。本文描述了训练支持向量回归模型的过程,该模型用于预测基于几个天气变量、一天中的某个小时、以及这一天是周末/假日/在家工作日还是普通工作日的用电量关于支持向量机的快速......
  • python学习——【第十九弹】
    前言从文章 python学习——【第十七弹】开始,我们开始进入python巩固篇,利用所学基础知识来做一个简单的学生信息管理系统,温故而知新。上篇文章python学习——【第十八弹】我们编写了学生信息管理系统的查询功能,这篇文章实现学生信息的删除功能。需求分析之前的学习我们了解了py......
  • 常见配置文件在Python中的使用
     配置文件主要为了存储常用的常量,如数据库的信息,通用的账号和密码等。常见的配置文件格式有ini,yaml,toml,json,env等,在做自动化测试的时候,它们都起什么样的作用?在什么样的场合下应用哪些配置文件? 一、ini配置文件简介:ini配置文件是最直接的配置文件,也是最简单的配置文件,将变量......
  • Python用RNN神经网络:LSTM、GRU、回归和ARIMA对COVID19新冠疫情人数时间序列预测|附代
    全文下载链接: http://tecdat.cn/?p=27042最近我们被客户要求撰写关于新冠疫情的研究报告,包括一些图形和统计输出。在本文中,该数据根据世界各国提供的新病例数据提供。获取时间序列数据df=pd.read_csv("C://global.csv")探索数据此表中的数据以累积的形式呈现,为了找出每天......
  • ubuntu18.04下 python虚拟环境安装
    #1.安装sudopipinstallvirtualenvsudopipinstallvirtualenvwrapper#2.很容易遇到的bug问题#安装完虚拟环境后,如果提示找不到mkvirtualenv命令,须配置环境变量#在这里配置环境变量时第2)步需要确定virtualenvwrapper的安装目录piplist#查看已安装的包pips......
  • Python中列表遍历使用range和enumerate的区别
    导读这篇文章主要介绍了Python中列表遍历使用range和enumerate的区别,在Python编程语言中,遍历list有range和enumerate方法,本文结合示例代码给大家介绍的非常详细,对大家的学习或工作具有一定的参考借鉴价值,需要的朋友可以参考下前言两者的比较只是编程实现上的差异,请不要......
  • python之cx_Oracle实现本地exe连接oracle数据库执行命令
    代码实现#-*-coding:GBK-*-importosimportcx_Oracle#导入cx_Oracle模块importtimedefgetData():conn=cx_Oracle.connect('username/password@ip:port/orcl')cur=conn.cursor()sql="SELECT*fromUSERwhereUSER_ID=\'......