首页 > 编程语言 >Python Seaborn 衍生变量的可视化

Python Seaborn 衍生变量的可视化

时间:2024-01-29 22:57:26浏览次数:33  
标签:变量 Seaborn Python random df 可视化 np 衍生 100

 

Seaborn 是一个基于 matplotlib 的 Python 库,用于创建统计图形。衍生变量 是指从原始数据中计算得出的新变量。使用 Seaborn 可视化衍生变量,通过绘制衍生变量的图表,可以更好地理解数据之间的关系,发现数据中的潜在模式,识别异常值。

1、创建衍生变量

对衍生变量进行可视化是一种强大的数据分析实践。衍生变量是从现有数据中生成的新变量,它们可以提供对数据集的更深层次理解。

import pandas as pd
import numpy as np

# 生成示例数据
np.random.seed(0)
data = {
    'Age': np.random.randint(20, 60, 100),
    'Salary': np.random.randint(50000, 150000, 100),
    'Education': np.random.choice(['Bachelor', 'Master', 'PhD'], 100),
    'City': np.random.choice(['Zhang San', 'Li Si', 'Wang Wu'], 100)
}

# 创建DataFrame
df = pd.DataFrame(data)
print(df.head())

# 在原有的df基础上创建衍生变量

# 创建一个简单的衍生变量,例如"Seniority",基于年龄
df['Seniority'] = df['Age'].apply(lambda x: 'Senior' if x >= 40 else 'Junior')

# 假设薪资大于100000为高收入,否则为普通收入
df['Income Level'] = df['Salary'].apply(lambda x: 'High' if x > 100000 else 'Medium')

print(df.head())

参考文档:Python pandas.DataFrame.apply函数方法的使用

2、使用 pairplot() 绘制成对的双变量分布

pairplot()函数是一个非常有用的工具,用于绘制数据集中每对变量之间的关系。这对于快速查看数据集中多个变量之间的关系非常有用。通过调整参数,可以轻松地探索数据集中多个变量之间的复杂关系。常用参数如下,

参数

描述

data

要绘制的DataFrame。

hue

用于分组的变量名称,通常是分类变量。

palette

用于绘图的颜色方案。

vars

要绘制的DataFrame中的特定列名列表。

kind

非对角线上的图的类型(如'scatter', 'reg')。

diag_kind

对角线上的图的类型(如

'hist', 'kde')。

markers

每个等级的 hue 变量的标记。

height

每个子图的高度(英寸)。

使用示例:

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np

# 生成示例数据
np.random.seed(0)
data = {
    'Age': np.random.randint(20, 60, 100),
    'Salary': np.random.randint(50000, 150000, 100),
    'Education': np.random.choice(['Bachelor', 'Master', 'PhD'], 100),
    'City': np.random.choice(['Zhang San', 'Li Si', 'Wang Wu'], 100)
}

# 创建DataFrame
df = pd.DataFrame(data)

# 在原有的df基础上创建衍生变量

# 创建一个简单的衍生变量,例如"Seniority",基于年龄
df['Seniority'] = df['Age'].apply(lambda x: 'Senior' if x >= 40 else 'Junior')

# 假设薪资大于100000为高收入,否则为普通收入
df['Income Level'] = df['Salary'].apply(lambda x: 'High' if x > 100000 else 'Medium')

# 使用pairplot可视化衍生变量
sns.pairplot(df, hue='Income Level', diag_kind='kde', height=2.5)

plt.show()

参考文档:Python Seaborn 衍生变量的可视化实践-CJavaPy

标签:变量,Seaborn,Python,random,df,可视化,np,衍生,100
From: https://www.cnblogs.com/tinyblog/p/17995520

相关文章

  • python自定义装饰器,实现轮询监控数据库,并且根据字段内容变更打印相应日志或结束循环
    使用方法可以写个whileTrue的循环监控数据,再分别定义每个状态要做什么事情注意:循环中不要写breake不要return,换成yield,把函数作为一个生成器,由装饰器控制循环代码示例importfunctoolsimporttimefromutils.log_settingimportloggerfromconfigimportsetti......
  • Python中的函数用法
    ​ Python中,函数是组织好的、可重用的、用来执行一个特定任务的代码块。函数提高了代码的模块化和代码重用率。函数是一种将代码块组织在一起以便重复使用的工具。函数可以接受输入数据,并返回输出数据。参考文档:Python中的函数用法-CJavaPy1、定义函数使用关键字def来定义......
  • sqlalchemy模块——python的ORM数据库
    介绍ORM数据库,简单理解就是把数据库的表抽象成一个个类,对数据库进行增删改查的时候可以直接通过库中的属性进行访问,即用python抽象数据库,通过sqlalchemy自动转换成数据库sql语句执行,可以更专注于代码的实现,可以配合sqlacodegen直接映射已有的数据库表,实际操作的时候需要借助其他......
  • shelve模块——python内置关系型数据库
    介绍python内置的关系型数据库,key-value的方式进行存储,使用的时候可以像字典一样调用,一般数据需要持久化的时候会用到此数据库,比如测试环境的一些基本不会更改的配置信息,可以使用shelve库存储,后续调用的时候不必每次都从接口拉取使用导入importshelve写入#writeback参数......
  • redis模块——python操作redis
    介绍使用python操作redis库中的缓存,常见操作,测试后清除测试数据缓存,测试前清理缓存保证不被之前的测试数据影响到测试准确性使用安装pipinstallredis导入importredis模糊搜索查找keymsp_fc_rule=self.msp_redis.keys('msp-cache-frequency-limit-info:*')循环遍历k......
  • 安装dmPython
    一、安装dmPython对于达梦数据库,必须首先安装dmPython,才可以使用,在$DM_HOME/drivers目录下有多种类型的驱动:[dmdba@dm8~]$cd/dm/dmdbms/drivers/[dmdba@dm8drivers]$lsdcidotNetdpifldrgojdbclogmnrmsgparseodbcphp_pdopythonr2dbc[dmdba@dm8......
  • 在内网(不通公网)的情况下,使用pip安装python依赖包
    1.施工服务器后端部署一:准备一台环境与内网虚拟机相同的可以连接外网的虚拟机,python版本,操作系统版本保持一致二:在可以链接外网的机器上使用pip将依赖包的whl文件(也有可能是tar.gz或者tar格式,不过不影响后续使用)#将依赖下载到本地的某个文件中root@iZ8v2rbZ:/sdwork/pyyl#......
  • python操作yaml
     补充:yaml语法详见:yaml语法 yaml应用场景1、保存测试数据2、也可以保存自动化测试中的关联数据  安装yaml模块pipinstallpyyaml==5.4.1 读取yaml数据读取数据:load()或者full_load(),返回一个对象用例数据:case.yaml-caseId:1apiName:registerdescr......
  • python 14
    1.代码规范程序员写代码四有规范的,不只是实现功能而已。1.1名称在python开发过程中会创建文件夹/文件/变量等,这些在命名有一些潜规则(编写代码时也要注意pep8规范)文件夹,小写&小写下划线连接,例如:commands,data_utils等。文件,小写&小写下划线连接,例如:page.py,db_convert.p......
  • python之常用标准库-configparser
    configparser主要用于生成和修改常见配置文档,所以常见的操作为读和写1.写定义参数变量,赋值直接赋值法conf['test_default']={'test_line1':'test_line1'}通过增加section,set赋值法conf.add_section('test')conf.set('test','test_line1',�......