首页 > 其他分享 >EDA 自动化库:SpeedML

EDA 自动化库:SpeedML

时间:2022-09-02 08:23:32浏览次数:93  
标签:891 非空 EDA plot sml int64 自动化 SpeedML 418

EDA 自动化库:SpeedML

必须知道的库之一,才能拥有深刻的 EDA!

在数据科学领域,我们知道探索性数据分析或 EDA 是最重要和最耗时的部分,并且要拥有可用于模型的数据,我们必须花费大量时间来理解和处理数据。

SpeedML 是一个用于快速启动机器学习管道的 python 包。

SpeedML 导入并正确初始化其中已定义的流行 ML 包,包括 pandas、numpy、sklearn、xgboost 和 matplotlib。
简而言之,我们只需要导入 SpeedML,我们就可以创建各种各样的图、清理数据、添加和删除特征等。

由于迭代开发、线性工作流程和基于组件的 API,使用 SpeedML 包的编码速度提高了 3 倍,并将编码时间减少了 70%。

在这篇博客中,我们将看到一些我们可以使用 speedml 的特性以及 EDA 将变得多么有趣!

我将使用一个非常著名的“titanic.csv”,它分为训练和测试 excel 表。

安装:

点安装速度ml

导入所需的库:

从 speedml 导入 Speedml

初始化 Speedml :

sml=Speedml('train.csv','test.csv',target='Survived',uid='PassengerId')
sml.shape() #查看形状

探索性数据分析:

sml.train.head()

sml.train.describe()

sml.train.info()
打印('-'*40)
sml.test.info()

 <class 'pandas.core.frame.DataFrame'>  
 RangeIndex:891 个条目,0 到 890  
 数据列(共11列):  
 # 列非空计数 Dtype  
 --- ------ -------------- -----  
 0 幸存的 891 非空 int64  
 1 Pclass 891 非空 int64  
 2 命名 891 非空对象  
 3 Sex 891 非空对象  
 4 年龄 714 非空 float64  
 5 SibSp 891 非空 int64  
 6 修订版 891 非空 int64  
 7 票证 891 非空对象  
 8 票价 891 非空 float64  
 9 Cabin 204 非空对象  
 10 Embarked 889 非空对象  
 数据类型:float64(2)、int64(4)、object(5)  
 内存使用量:76.7+ KB  
 -------------------------------------------------- --------------------------------------  
 <class 'pandas.core.frame.DataFrame'>  
 RangeIndex:418 个条目,0 到 417  
 数据列(共10列):  
 # 列非空计数 Dtype  
 --- ------ -------------- -----  
 0 Pclass 418 非空 int64  
 1 名称 418 非空对象  
 2 Sex 418 非空对象  
 3 年龄 332 非空 float64  
 4 SibSp 418 非空 int64  
 5 修订版 418 非空 int64  
 6 票证 418 非空对象  
 7 票价 417 非空 float64  
 8 Cabin 91 非空对象  
 9 Embarked 418 非空对象  
 数据类型:float64(2)、int64(3)、object(5)  
 内存使用量:32.8+ KB

sml.plot.correlate()

绘制所有数字特征的多个特征分布直方图。这有助于了解从正态(水平中间)到快速且相对识别数据集中异常值的分布偏斜。

sml.plot.distribute()

我们可以在分类特征上使用小提琴图来记录目标变量中值的分布以及任何异常值的存在(图中延伸的细长线)。

sml.plot.ordinal('SibSp')

我们使用散点图来确定连续特征的异常值。曲线的上部或下部越向外扩展,离群值越偏离正态分布。

sml.plot.continuous('年龄')

sml.plot.continuous('票价')

sml.feature.impute()

sml.plot.importance()

我们可以使用交叉制表特征和目标方法来记录样本在按某个特征分类时如何分布在目标变量中。

sml.plot.crosstab('幸存的','性别')

sml.plot.crosstab('幸存的', 'SibSp')

sml.plot.crosstab('幸存', '登船')

最后但是同样重要的

特征重要性

sml.eda()

最后 ,

有许多用于自动化 EDA 并使其更有趣的库。

继续研究,继续学习!

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/10916/15190208

标签:891,非空,EDA,plot,sml,int64,自动化,SpeedML,418
From: https://www.cnblogs.com/amboke/p/16648479.html

相关文章

  • 如何使用大型语言模型推动自动化?
    如何使用大型语言模型推动自动化?自动化(几乎)无需软件开发如果每封电子邮件、每一份带有订单、发票、投诉、要约请求或工作申请的PDF文件都可以翻译成机器可读的数据,那......
  • WEB自动化-01-Cypress 介绍
    1.Cypress介绍1.1Cypress简介  Cypress是一款基于JavaScript的下一代前端测试工具。可以对浏览器中运行的任何内容进行快速、简单和可靠的测试。  Cypress......
  • 接口自动化测试-反射机制
    反射就是通过字符串的形式,导入模块;通过字符串的形式,去模块寻找指定函数,并执行。利用字符串的形式去对象(模块)中操作(查找/获取/删除/添加)成员,一种基于字符串的事件驱动!一、......
  • Java接口自动化测试框架系列(二)表格设计与数据读取
    一、测试系统分析不同系统有不同的接口,通过分析这些接口,提取共同点可以得到不同地区的系统共有的接口。如:登录、登出、用户信息完善等接口二、表格设计  不同列......
  • Can't find resource for bundle java.util.PropertyResourceBundle, key product.ord
    读取的key与properties文件中的key不一致,大概率是写错了如果这个key用了,他就点亮,输入错误,或者没用到就是灰色......
  • 史上最全 Appium 自动化测试从入门到框架实战精华学习笔记(三)
    ⬇️点击“下方链接”,提升测试核心竞争力!>>更多技术文章分享和免费资料领取本系列文章汇总了从Appium自动化测试从基础到框架高级实战中,所涉及到的方方面面的知识点精华......
  • pyest+appium实现APP自动化测试,思路全总结在这里
    每天进步一点点,关注我们哦,每天分享测试技术文章本文章出自【码同学软件测试】码同学公众号:自动化软件测试,领取资料可加:magetest码同学抖音号:小码哥聊软件测试01appium......
  • 【iOS自动化测试】第一章:方案调研
    背景目前Android端已完成了相应的框架搭建,并实际落地产出了,由于Android使用的是Unittest+HtmlTestRunner产出报告,需要增加新功能的话需要改动到底层框架,所以目前在负责的i......
  • 使用selenium自动化模块实现登录12306
    importtimefromselenium.webdriverimportChromefromselenium.webdriver.chrome.optionsimportOptionsfromselenium.webdriver.common.byimportByfromselenium.w......
  • 十二.zabbix自动化添加主机
    1.为什么需要自动化添加主机当有100台主机需要添加到监控系统,手动一个个添加很繁琐!可以使用zabbix的自动发现和自动注册功能2.主机自动发现2.1自动发现原理自动发现由......