pandas中的catagory 类型

pandas中的category类型是一种用于处理分类变量的数据类型。它可以大大提高数据处理和计算效率，并减少内存占用。

在某些情况下，数据中的一些变量只包含有限的可能取值，例如“性别”、“地区”等，这些变量可以归类为分类变量。如果将这些变量存储为字符串或数字形式，则可能会浪费大量的内存，因为每个变量都会占据大量的空间。这就是category类型的用处：使用category类型可以将这些变量存储为原始数据的唯一值的散列表，从而大大减少了内存占用。

除了内存优化外，category类型还提供了一些便捷的方法来处理分类变量，例如自动排序和类别之间的比较。因此，如果数据中包含分类变量，则应该使用category类型来优化数据处理和计算效率。

下面的示例，使用中国人口统计的相关数据，默认导入之后数据情况如下：

import pandas as pd

fp = "http://databook.top:8888/pandas/cn-people.csv"
df = pd.read_csv(fp)

df

各个列的默认类型如下：

df.dtypes

其中【指标编码】和【指标中文】列的类型其实是字符串。

各个列实际占用的内存大小：

df.memory_usage(deep=True)

Index表示索引所占用的内存大小，可以看出【指标编码】和【指标中文】占用的内存比较多，而且这两列重复数据也比较多。

尝试将【指标编码】和【指标中文】两列转换为catagory类型之后，看看内存占用是否减少。

df["指标中文"] = df["指标中文"].astype("category")
df["指标编码"] = df["指标编码"].astype("category")
df.dtypes

类型已经转换成功，看看pandas是如何给catagory类型编码的。

df["指标中文"].values.codes

可以看出，是用int8类型来编码，int8类型只占用1个字节的内存，总体应该能够节省不少内存空间。

df.memory_usage(deep=True)

【指标编码】和【指标中文】两列的内存占用只有原来的约1/200。

参考来源：https://mp.weixin.qq.com/s?__biz=MzkyODIzMDczMQ==&mid=2247484032&idx=1&sn=96ed1fbb86a1a1edf23c6e03c803cf57&chksm=c21abea4f56d37b24a9823f2ddf21092d903b83f7890c5496023e6ea16fba497bdc38bcfb213&cur_album_id=2864481100214026240&scene=189#wechat_redirect

标签：category,df,指标,catagory,内存,类型,pandas
From： https://www.cnblogs.com/yangzilaing/p/17402367.html

pandas常用学习
importpandasaspdclasspandas():def__int__(self):passdefcreat_dataframe(self):data={"a":[1,2],"b":["test1","test2"]}#使用字典加列表的形式创建dataframe，colums为字典的key，index可以自定义......
安装和卸载pandas
安装Pandaspipinstallpandas;#查看版本号pandas.__version__ 卸载pandaspipuninstallpandas; 原文链接：https://aistudio.baidu.com/aistudio/projectdetail/4411791 在终端命令行中有三种安装方法，输入命令：（1）pipinstallpandas。自......
Matlab考虑三种电动车类型：私家车、公交车、出租车，对电动车负荷进行预测，程序中参数便于
Matlab考虑三种电动车类型：私家车、公交车、出租车，对电动车负荷进行预测，程序中参数便于修改。ID:1520643170116006......
Matlab利用蒙特卡洛模拟，将电动汽车EV分为一充二充三充三种类型，仿真电动汽车负荷曲线。
Matlab利用蒙特卡洛模拟，将电动汽车EV分为一充二充三充三种类型，仿真电动汽车负荷曲线。蒙特卡洛模拟次数、电动汽车参数等易于修改。YID:5220643491185262......
基于maxwell的6极36槽永磁同步电机（永磁直流无刷）模型，水冷，24.5kw，绕组类型：分布式绕组，直
基于maxwell的6极36槽永磁同步电机（永磁直流无刷）模型，水冷，24.5kw，绕组类型：分布式绕组，直流电压270Vdc,对6极额定转速9000rpm,扭矩额定扭矩:输出扭矩不低于26Nm,效率:不低于95%,低速点转速:3000RPM,矩低速点扭矩:输出扭矩不低于3Nm,定子外径:120mm,求转子轴径:30mm,电机总长度:含绕组......
请使用模板参数设计实现双倍功能函数，函数功能要求实现返回值为输入参数的两倍，函数参数
请使用模板参数设计实现双倍功能函数，函数功能要求实现返回值为输入参数的两倍，函数参数应能适应整型、浮点型、双精度型等各种类型，返回值类型与参数一样。裁判测试程序样例： #include<iostream>usingnamespacestd;/*请在这里填写答案*/intmain(void){charc='\0';......
Git开发、发布、缺陷分离模型概述（支持master/develop/feature/release/hotfix类型分支
Git是什么？Git是一种分布式版本控制系统，它可以记录文件的修改历史和版本变化，并可以支持多人协同开发。Git最初是由Linux开发者LinusTorvalds创建的，它具有高效、灵活、稳定等优点，如今已成为软件开发领域中最流行的版本控制系统之一。Git使用一种名为“仓库”的数据结构来保存......
Lua 数据类型
数据类型是各种语言的基础，本质上无论是Java，python，go，shell，powershell，redis，c#等各种L4的语言，本质上还是C系列。类型和语法基本都是沿用了C的风格进行了重新组装和定义。java人员一定要注意string和nil的特殊性，确实有点别扭。Lua数据类型Lua是动态类型语言，变量不要类型定义,只......
二分答案类型题目及小结
洛谷2678.跳石头//考点：二分答案二分答案思路：这道题如果要使用暴力搜索直接求解会严重超时。实际上，我们可以发现，这个所谓的最短跳跃距离显然不能超过一个范围，而这个范围题目上已经给了出来。也就是说，答案是有一个确定的范围限制的，我们就可以考虑一种另外的方法去解决——枚举答......
python -- excel文件被重命名修改后缀为.csv后，使用pandas来读取时，仍会被识别为一个exc
新建数据文件如c_data.xlsx（后缀为.xlsx)，右键重命名，直接将文件后缀名一并修改，修改为“c_data.csv”读取文件里的数据data=pd.read_csv('E:/python_workspace/data_space/c_data.csv')发现报错信息如下：Traceback(mostrecentcalllast):File"E:/python_workspace/......

pandas中的catagory 类型

pandas中的catagory 类型

相关文章

赞助商

阅读排行