首页 > 其他分享 >基于pandas的数据清洗 -- 重复值的清洗

基于pandas的数据清洗 -- 重复值的清洗

时间:2023-10-01 15:55:05浏览次数:34  
标签:False -- keep df iloc 清洗 pandas first

博客地址:https://www.cnblogs.com/zylyehuo/

开发环境

  • anaconda
    • 集成环境:集成好了数据分析和机器学习中所需要的全部环境
    • 安装目录不可以有中文和特殊符号
  • jupyter
    • anaconda提供的一个基于浏览器的可视化开发工具
df = DataFrame(data=np.random.randint(0,100,size=(8,6)))
df.iloc[1] = [1,1,1,1,1,1]
df.iloc[3] = [1,1,1,1,1,1]
df.iloc[5] = [1,1,1,1,1,1]
df

# 检测哪些行存有重复的数据
df.duplicated(keep='first')
0    False
1    False
2    False
3     True
4    False
5     True
6    False
7    False
dtype: bool
df.loc[~df.duplicated(keep='first')]

# 异步到位删除
df.drop_duplicates(keep='first')

标签:False,--,keep,df,iloc,清洗,pandas,first
From: https://www.cnblogs.com/zylyehuo/p/17738919.html

相关文章

  • 【2.1】Pydantic使用方法
    【一】介绍Datavalidationandsettingsmanagementusingpythontypeannotations.使用Python的类型注解来进行数据校验和settings管理pydanticenforcestypehintsatruntime,andprovidesuserfriendlyerrorswhendataisinvalid.Pydantic可以在代码运行时提供类......
  • 【2.0】Starlette,Pydantic 与 FastAPI 框架是什么关系?
    【一】介绍Starlette是个什么项目;IDE开发时Python3.5+版本的"typehints"的好处:简短、直观和标准的Python类型声明;介绍Pydantic包,FastAPI项目的开发为什么要使用Pydantic【二】Starlette【1】介绍Starlette是一种轻量级的ASGI框架/工具包,是构建高性能......
  • 【5.0】Fastapi路径参数和数据的解析验证
    【一】小项目构建【1】文档结构树projects├─coronavirus├─__init__.py ├─....py├─turtorial ├─__init__.py ├─chapter03.py ├......
  • 【4.0】Fastapi简单使用
    【一】Fastapi引入【1】构建基础的fastapi项目fromfastapiimportFastAPIfromtypingimportOptionalfrompydanticimportBaseModel#创建fastapi对象app=FastAPI()#定义模型表classCityInfo(BaseModel):#省份province:str#城市coun......
  • 【3.0】Fastapi环境搭建及初步使用
    【一】环境准备【1】第三方包requirements.txtaiofiles==0.6.0atomicwrites==1.4.0attrs==20.3.0bcrypt==3.2.0certifi==2020.12.5cffi==1.14.4chardet==4.0.0click==7.1.2colorama==0.4.4cryptography==3.3.1dnspython==2.0.0ecdsa==0.14.1email-validator==1.1......
  • 概率学习(Genshin中)
    几何分布\[P(x=k)=(1-a)^{k-1}a,k>0\]容易发现,\(E(x)=\dfrac{1}{a}\)。Min-Max容斥对于集合\(S\),有:\[\max(S)=\sum_{T\subseteqS,T\neq\emptyset}\min(T)(-1)^{|T|+1}\]依据期望的线性性,有:\[E(\max(S))=\sum_{T\subseteqS,T\neq\emptyset}E(\min(T))(-1)^{|......
  • 【10.0】依赖注入系统
    【一】引入【1】介绍“依赖注入”是指在编程中,为保证代码成功运行,先导入或声明其所需要的“依赖”,如子函数、数据库连接等【2】优势提高代码的复用率共享数据库的连接增强安全、认证和角色管理【3】FastAPI的兼容性所有的关系型数据库,支撑NoSQL数据库第三方的包和A......
  • 【9.0】Fastapi表单数据处理
    【一】表单参数【1】定义视图fromfastapiimportAPIRouter,status,FormfrompydanticimportBaseModel,EmailStrfromtypingimportOptional,Union,Listapp04=APIRouter()###表单数据处理@app04.post("/login/")asyncdeflogin(#username用户名......
  • 【8.0】Fastapi响应模型
    【一】自定义响应模型【1】定义视图函数fromfastapiimportAPIRouterfrompydanticimportBaseModel,EmailStrfromtypingimportOptionalapp04=APIRouter()###响应模型#定义基本类classUserBase(BaseModel):#定义字段username:用户名类型为str:......
  • 【6.0】Fastapi请求体参数及混合参数
    【一】说明项目接上小结【二】请求体和字段fromfastapiimportAPIRouter,Path,QueryfrompydanticimportBaseModel,Fieldapp03=APIRouter()##请求体字段classCityInfo(BaseModel):#给name字段添加注解#...:表示必填字段#example:表示......