首页 > 其他分享 >Pandas_数据预处理_读写去重

Pandas_数据预处理_读写去重

时间:2023-06-02 12:35:13浏览次数:32  
标签:index None PIL df 读写 cv2 预处理 numpy Pandas

列编辑

“Column selection mode”、“列块模式”、“列编辑”、“多光标功能
notepad ++ 列模式 : alt +鼠标左键 列模式选择
vscode :Shift+Alt+鼠标左键  列模式,多行同时操作的方法步骤快捷键

Pandas 数据预处理

read_csv() sep 
    header  names encoding
df['col'] = 'str' + df['col'].astype(str)
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
         df.drop_duplicates(subset=['brand', 'style'], keep='last')

import numpy as np
df['val'] = np.arange(len(df))//4+1

DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict')
  columns  header
  index  index_label
  
concat()函数利用拼接的方式,添加新的一列。好处是可以同时新增多个列名。
    df1 = pd.concat([df1, pd.DataFrame(columns=['f'])])	
 
直接赋值法  
    df[‘新列名’]=新列的值
    df.loc[:,新列名]=值	
 df['level'] = df.apply(lambda x: getlevel(x.score), axis=1)

图片读取方式

  cv2.imread
     是uint8类型,0-255范围,图像形状是(H,W,C),读入的顺序是BGR
  cv2.imwrite - 保存numpy格式的图片
  	cv2.imwrite("cv2.jpg",img)
  	
  matplotlib.pyplot.imread
      图片是numpy数组,是unit8类型,0-255范围,图像形状是(H,W,C),读入的顺序是RGB	
  plt.imsave - 保存numpy格式的图片
  	plt.imsave('plt.jpg',img)
  	
  3.PIL.image.open	
    PIL.image - 保存PIL格式的图片
    img.save("PIL.jpg")

参考

 vscode 列操作_[vscode]列编辑功能 https://blog.csdn.net/weixin_32616935/article/details/113452810
http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table

标签:index,None,PIL,df,读写,cv2,预处理,numpy,Pandas
From: https://www.cnblogs.com/ytwang/p/17451428.html

相关文章

  • Qt读写Excel,使用第三方QXlsx
    推荐第三方的QXlsx(是对QtXlsxWriter的进一步发展,QtXlsxWriter不再更新)QtExcel/QXlsx:Excelfile(*.xlsx)reader/writerlibraryusingQt5or6.DescendantofQtXlsx.(github.com)使用方法 【参考】(9条消息)Qt读写Excel--QXlsx基本使用1_qtxlsx_mahuifa的博客-CSDN......
  • 仙境传说RO:从零开始编译服务端开发环境搭建安装Pandas-rAthena
    仙境传说RO:从零开始编译服务端开发环境搭建安装Pandas-rAthena大家好,我是艾西今天跟大家分享下仙境传说RO开发脚本环境搭建。Pandas是RO的模拟器实际上是开源的一个叫做rAthenna的一个开源项目准备工具:Git2.25.0Setup建议放入D盘以免后期的麻烦(默认配置就好)TortoiseGit2.9.0.0......
  • 【Python】pandas dataframe 插入一行数据
    pandas插入一行数据#需要借助numpy操作importnumpyasnpimportpandasaspdvalue={"a":[1,2,3],"b":[1,2,3],"c":[1,2,3]}df=pd.DataFrame(value)df1=pd.DataFrame(np.insert(df.values,0,values=[0,0,0],axis=0))df1.columns=df......
  • IO文件读写与复制
    文件的复制#include<iostream>#include<fstream>usingnamespacestd;intCopyFile(char*SourceFile,char*NewFile){ifstreamin;ofstreamout;in.open(SourceFile,ios::binary);//打开源文件if(in.fail())//打开源文件失败{cout<<"Error1:Failtoo......
  • SpringBoot项目中实现读写分离
    背景介绍面对日益增加的系统访问量,数据库的吞吐量面临着巨大瓶颈。对于同一时刻有大量并发读操作和较少写操作类型的应用系统来说,将数据库拆分为主库和从库,主库负责处理事务性的增删改操作,从库负责处理查询操作,能够有效的避免由数据更新导致的行锁,使得整个系统的查询性能得到极......
  • MySQL读写分离
    云数据库RDS版>用户指南>读写分离>验证读写分离效果>通过内部SQL命令验证https://help.aliyun.com/document_detail/54526.html?spm=5176.doc54538.6.698.kpQGbW ......
  • Pandas中将字符串(object)格式的列,强制转换为浮点型的列
    importpandasaspddf=pd.DataFrame([['11.0',1,2,3],['22.0',4,5,6],['33.0',7,8,9]],columns=['a','b','c','d'])df['a']=pd.......
  • C-MAPSS数据集预处理代码
    数据预处理代码(语言为python)代码来源于《Variationalencodingapproachforinterpretableassessmentofremainingusefullifeestimation》作者的公开代码,笔者有更改,不保证绝对正确,请谨慎使用。github:https://github.com/NahuelCostaCortez/RemainingUseful-Life-Estim......
  • 【博学谷学习记录】超强总结,用心分享 | HDFS读写流程
    【博学谷IT技术支持】HDFS写流程上图是HDFS的写流程图主要步骤如下client向服务器发起上传请求(RPC)NameNode接受到请求之后会进行权限检查(目录是否存在权限,目录是否存在)NameNode会给client反馈是否可以上传标记Client会将要上传的文件安装设置的Block大小进行切片Clie......
  • 基于multiprocessing map实现python并行化(全局变量共享 map机制实用向分析 常见问题 p
    转载:(15条消息)基于multiprocessingmap实现python并行化(全局变量共享map机制实用向分析常见问题pandas存储数据)_goto_past的博客-CSDN博客基于multiprocessingmap实现python并行化之前从来没考虑python可以并行化,最近有一个项目需要计算100*100次的遗传算法适应度,每次计算......