首页 > 编程语言 >Python数据离散化指南:手写if-elif语句与pandas中cut()方法的实现

Python数据离散化指南:手写if-elif语句与pandas中cut()方法的实现

时间:2023-05-16 18:55:06浏览次数:62  
标签:elif cut Python 方法 0.01 0.04 label transfor

当我们进行数据分析时,有时候需要对数值型数据进行离散化,将其划分为不同的标签或类别。这样做可以方便我们进行统计和分析,并帮助我们更好地理解数据。

在本文中,我们将介绍两种常见的离散化方法,并提供实现代码。

方法一:使用条件语句

第一种方法是使用条件语句来显式地检查输入值 x 是否在每个区间内,并返回相应的标签。这种方法适用于自定义的分段方式,要求手动设置每个阈值和对应的标签。

下面是一个示例函数 transfor_num 的实现代码:

def transfor_num(x):
    if x ==0:
        label = '无交易'
    elif 0 < x <=0.01:
        label = '0-0.01'
    elif 0.01 < x <=0.04:
        label = '0.01-0.04'
    elif 0.04 < x <=0.09:
        label = '0.04-0.09'
    elif 0.09 < x <=0.49:
        label = '0.09-0.49'  
    elif 0.49 < x <=0.99:
        label = '0.49-0.99'
    elif 0.99 < x <=4.99:
        label = '0.99-4.99'    
    elif 4.99 < x <=9.99:
        label = '4.99-9.99'
    elif 9.99 < x <=19.99:
        label = '9.99-19.99'
    elif 19.99 < x <=49.99:
        label = '19.99-49.99'
    elif 49.99 < x <=99.99:
        label = '49.99-99.99'
    elif x > 99.99 :
        label = '100及以上'
    return label
    
# 你可以通过调用 transfor_num(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:
label = transfor_num(5.67)
print(label)

输出结果应该是 '0.01-0.04',因为 5.67 在指定的区间范围内。

方法二:使用 pd.cut() 方法
第二种方法是使用 pandas 库的 cut() 方法将输入值 x 映射到不同的标签中,并返回标签。这种方法更加简洁和易于使用,同时也可以通过调整 bins 参数来灵活地控制分段的方式和结果。

下面是一个示例函数 transfor_num1 的实现代码:

def transfor_num1(x):
    bins = [-1,0, 0.01, 0.04, 0.09, 0.49, 0.99, 4.99, 9.99, 19.99, 49.99, 99.99, float('inf')]
    labels = [ '无交易','0-0.01', '0.01-0.04', '0.04-0.09', '0.09-0.49', '0.49-0.99', '0.99-4.99', '4.99-9.99', '9.99-19.99', '19.99-49.99', '49.99-99.99', '100及以上']
    return pd.cut(x, bins=bins, labels=labels)

你可以通过调用 transfor_num1(x) 函数并将所需的值传递给 x 参数来使用该函数。例如:

import pandas as pd

data = {'transaction': [0, 0.005, 0.0125, 0.044, 0.067, 0.55, 2.99, 8.75, 15.6, 30.25, 80.5, 150]}
df = pd.DataFrame(data)

df['tran_amount_label'] = transfor_num1(df['transaction'])

print(df)

# 输出结果将会是如下数据框的形式:
    transaction  tran_amount_label
0       0.00000              无交易
1       0.00500            0-0.01
2       0.01250        0.01-0.04
3       0.04400        0.01-0.04
4       0.06700        0.04-0.09
5       0.55000        0.49-0.99
6       2.99000        0.99-4.99
7       8.75000        4.99-9.99
8      15.60000      9.99-19.99
9      30.25000     19.99-49.99
10     80.50000    49.99-99.99
11    150.00000           100及以上

其中 tran_amount_label 是新添加的一列,它显示了每个交易额所属的标签和类别。

两种方法各有优缺点。使用条件语句需要手动设置阈值和对应的标签,比较繁琐;而使用 pd.cut() 方法则可以自动划分区间,但其不太灵活。因此,在具体使用时,需要根据实际情况进行选择。

希望本文能够帮助你更好地理解离散化的概念和实现方法。

本文由mdnice多平台发布

标签:elif,cut,Python,方法,0.01,0.04,label,transfor
From: https://www.cnblogs.com/ispenser/p/17406514.html

相关文章

  • How to use the Raspberry Pi and Python to control a DHT11 wet and temperate modu
    HowtousetheRaspberryPiandPythontocontrolaDHT11wetandtemperatemoduleAllInOne如何使用树莓派和Python来控制温湿度模块demos(......
  • 使用 Angular Shortcut 导入 style 文件
    假设我们的Angular项目具有下列这个文件结构:在一个典型的Angular项目中,通常会有很多组件。每个组件都有自己的样式表(CSS、SCSS、LESS等)。Angular开发人员可能经常需要在组件中包含全局样式文件(特别是变量文件),比如上图的_variables.scss.在hello.component.scss里需要......
  • python高级技术(死锁、递归锁、信号量、Event时间、进程池、线程池、协程)
    一死锁和递归锁(了解)进程也有死锁与递归锁,使用方法类似所谓死锁:是指两个或两个以上的进程或线程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。当你知......
  • Python语法入门
    数据类型(续上)1.字符串(str)不用于计算,仅用于描述,任何数据类型都可以转变为字符串,类似文本的存在。 方式(被引号引起来的部分):   1. name= '蔡敏'   推荐使用   2.  name= "蔡敏"   推荐使用   3. name=  '''蔡敏'''   ......
  • OEM13.5安装推送客户端报错Executing command emctl secure agent
     OEM13.5安装推送客户端报错Executingcommandemctlsecureagent 现象: 建议部分显示如下方案:1../emctlsecureagent2../emctlstartagent3../emctlconfigagentaddinternaltargets  结合EM13c:EnterpriseManagerCloudControlAgentInstallation......
  • python爬取电影演员数据
    可以使用Python中的BeautifulSoup和Requests库来爬取网络上的电影数据和演员数据。首先需要使用Requests库发送网络请求,获取HTML页面的源代码。然后,使用BeautifulSoup库解析HTML代码,提取需要的数据。下面是一个示例代码,用于从IMDb网站上获取电影"Titanic"的演员列表,以及他们的角......
  • 常用指令—python,cmd,pytorch等
    1.查看当前使用的python解释器查看电脑里有多少个pythonwherepython查看当前使用的python解释器在哪个路径下在cmd中,切换到pythonimportsyssys.executable2.conda查看虚拟环境列表condaenvlist激活具体虚拟环境condaactivate环境名3.pytorchimport......
  • python的文件操作
    1、应用程序直接操作的是文件,对文件进行的所有的操作,都是向操作系统发送系统调用,然后再由操作将其转换成具体的硬盘操作 2、控制文件的读写内容的模式:t和b t文本(默认的模式):读写都以str(unicode为单位)文本文件  必须指定encoding='utf-8'b(二进制/bytes) ......
  • Python 的闭包
    闭包是一种特殊的函数,它能够实现类似于函数模板和面向对象的功能.可以实现代码复用:通过函数模板可以实现一类相似功能的函数,在不同的场景中只需要传入不同的参数即可。可以用闭包实现装饰器.defouter_func(x):definner_func(y):returnx+yreturninne......
  • 【Python】多进程 多线程
    1.进程Process1.1多进程#-*-coding:UTF-8-*-"""#计算8的20次方"""importtimeimportosfrommultiprocessingimportProcessimportosimporttimedeflong_time_task(i):print('子进程:{}-任务{}'.format(os.getpid()......