Pandas_数据预处理_读写去重

时间：2023-06-02 12:35:13浏览次数：32

标签：index None PIL df 读写 cv2 预处理 numpy Pandas

列编辑

“Column selection mode”、“列块模式”、“列编辑”、“多光标功能
notepad ++ 列模式 ： alt +鼠标左键 列模式选择
vscode ：Shift+Alt+鼠标左键  列模式，多行同时操作的方法步骤快捷键

Pandas 数据预处理

read_csv() sep 
    header  names encoding
df['col'] = 'str' + df['col'].astype(str)
DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)
         df.drop_duplicates(subset=['brand', 'style'], keep='last')

import numpy as np
df['val'] = np.arange(len(df))//4+1

DataFrame.to_csv(path_or_buf=None, sep=',', na_rep='', float_format=None, columns=None, header=True, index=True, index_label=None, mode='w', encoding=None, compression='infer', quoting=None, quotechar='"', line_terminator=None, chunksize=None, date_format=None, doublequote=True, escapechar=None, decimal='.', errors='strict')
  columns  header
  index  index_label
  
concat()函数利用拼接的方式，添加新的一列。好处是可以同时新增多个列名。
    df1 = pd.concat([df1, pd.DataFrame(columns=['f'])])	
 
直接赋值法  
    df[‘新列名’]=新列的值
    df.loc[:,新列名]=值	
 df['level'] = df.apply(lambda x: getlevel(x.score), axis=1)

图片读取方式

  cv2.imread
     是uint8类型，0-255范围，图像形状是（H,W,C），读入的顺序是BGR
  cv2.imwrite - 保存numpy格式的图片
  	cv2.imwrite("cv2.jpg",img)
  	
  matplotlib.pyplot.imread
      图片是numpy数组，是unit8类型,0-255范围，图像形状是（H,W,C），读入的顺序是RGB	
  plt.imsave - 保存numpy格式的图片
  	plt.imsave('plt.jpg',img)
  	
  3.PIL.image.open	
    PIL.image - 保存PIL格式的图片
    img.save("PIL.jpg")

参考

 vscode 列操作_[vscode]列编辑功能 https://blog.csdn.net/weixin_32616935/article/details/113452810
http://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#io-read-csv-table

标签：index,None,PIL,df,读写,cv2,预处理,numpy,Pandas
From： https://www.cnblogs.com/ytwang/p/17451428.html

Qt读写Excel，使用第三方QXlsx
推荐第三方的QXlsx（是对QtXlsxWriter的进一步发展，QtXlsxWriter不再更新）QtExcel/QXlsx:Excelfile(*.xlsx)reader/writerlibraryusingQt5or6.DescendantofQtXlsx.(github.com)使用方法【参考】(9条消息)Qt读写Excel--QXlsx基本使用1_qtxlsx_mahuifa的博客-CSDN......
仙境传说RO：从零开始编译服务端开发环境搭建安装Pandas-rAthena
仙境传说RO：从零开始编译服务端开发环境搭建安装Pandas-rAthena大家好，我是艾西今天跟大家分享下仙境传说RO开发脚本环境搭建。Pandas是RO的模拟器实际上是开源的一个叫做rAthenna的一个开源项目准备工具：Git2.25.0Setup建议放入D盘以免后期的麻烦（默认配置就好）TortoiseGit2.9.0.0......
【Python】pandas dataframe 插入一行数据
pandas插入一行数据#需要借助numpy操作importnumpyasnpimportpandasaspdvalue={"a":[1,2,3],"b":[1,2,3],"c":[1,2,3]}df=pd.DataFrame(value)df1=pd.DataFrame(np.insert(df.values,0,values=[0,0,0],axis=0))df1.columns=df......
IO文件读写与复制
文件的复制#include<iostream>#include<fstream>usingnamespacestd;intCopyFile(char*SourceFile,char*NewFile){ifstreamin;ofstreamout;in.open(SourceFile,ios::binary);//打开源文件if(in.fail())//打开源文件失败{cout<<"Error1:Failtoo......
SpringBoot项目中实现读写分离
背景介绍面对日益增加的系统访问量，数据库的吞吐量面临着巨大瓶颈。对于同一时刻有大量并发读操作和较少写操作类型的应用系统来说，将数据库拆分为主库和从库，主库负责处理事务性的增删改操作，从库负责处理查询操作，能够有效的避免由数据更新导致的行锁，使得整个系统的查询性能得到极......
MySQL读写分离
云数据库RDS版>用户指南>读写分离>验证读写分离效果>通过内部SQL命令验证https://help.aliyun.com/document_detail/54526.html?spm=5176.doc54538.6.698.kpQGbW ......
Pandas中将字符串（object）格式的列，强制转换为浮点型的列
importpandasaspddf=pd.DataFrame([['11.0',1,2,3],['22.0',4,5,6],['33.0',7,8,9]],columns=['a','b','c','d'])df['a']=pd.......
C-MAPSS数据集预处理代码
数据预处理代码(语言为python)代码来源于《Variationalencodingapproachforinterpretableassessmentofremainingusefullifeestimation》作者的公开代码，笔者有更改，不保证绝对正确，请谨慎使用。github:https://github.com/NahuelCostaCortez/RemainingUseful-Life-Estim......
【博学谷学习记录】超强总结，用心分享 | HDFS读写流程
【博学谷IT技术支持】HDFS写流程上图是HDFS的写流程图主要步骤如下client向服务器发起上传请求（RPC）NameNode接受到请求之后会进行权限检查(目录是否存在权限,目录是否存在)NameNode会给client反馈是否可以上传标记Client会将要上传的文件安装设置的Block大小进行切片Clie......
基于multiprocessing map实现python并行化（全局变量共享 map机制实用向分析常见问题 p
转载：(15条消息)基于multiprocessingmap实现python并行化（全局变量共享map机制实用向分析常见问题pandas存储数据）_goto_past的博客-CSDN博客基于multiprocessingmap实现python并行化之前从来没考虑python可以并行化，最近有一个项目需要计算100*100次的遗传算法适应度，每次计算......

Pandas_数据预处理_读写去重

列编辑

Pandas 数据预处理

图片读取方式

参考

相关文章

赞助商

阅读排行