首页 > 其他分享 >AI - 数据处理 - fit、transform、fit_transform 区别

AI - 数据处理 - fit、transform、fit_transform 区别

时间:2024-07-21 23:30:07浏览次数:19  
标签:转换 fit AI transform 信息 目标值 testData

总结

  1. fit_transform = fit + transform 的组合,整个过程既包括了训练又包含了转换。fit_transform 对数据先拟合 fit,找到数据的整体指标,如均值、方差、最大值最小值等,然后对数据集进行转换transform,从而实现数据的标准化、归一化操作。
  2. 如果要想在 fit_transform 的过程中查看数据的分布,可以通过分解动作先 fit 再 transform,fit 后的结果就包含了数据的分布情况。如果不关心数据分布只关心最终的结果可以直接使用 fit_transform 一步到位。

  3. fit原义指的是安装、使适合的意思,其实有点train的含义,但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是确定的,最后得到一个可用于转换的有价值的信息。
  4. 常见使用方法:根据对之前训练数据 (trainData) 进行fit的整体指标,对测试数据(testData)使用同样的均值、方差、最大最小值等指标进行转换transform(testData),从而保证train、test处理方式相同。 
  5. 注意:
    • 必须先用fit_transform(trainData),之后再transform(testData)
    • 如果直接transform(testData),程序会报错
    • 如果fit_transfrom(trainData)后,使用fit_transform(testData)而不是transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。(一定要避免这种情况)

 

另一个角度理解fit和transform

fit_transform是fit和transform的结合,所以只需要了解fit和transform。

transform方法主要用来对特征进行转换。

从可利用信息的角度来说,转换分为无信息转换和有信息转换。

无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。
有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。
无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。
通过总结常用的转换类,我们得到下表:

 

所以,只有有信息的转换类的fit方法才实际有用,显然fit方法的主要工作是获取特征和目标值有价值的信息,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:**都是通过分析特征和目标值,提取有价值的信息。对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等。

另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。
无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。
fit方法无用不代表其没实现,而是除合法性校验以外,其并没有对特征和目标值进行任何处理。

参考文献

fit_transform,fit,transform区别和作用详解!:https://blog.csdn.net/weixin_38278334/article/details/82971752

做数据处理,你连 fit、transform、fit_transform 都分不清?:https://blog.csdn.net/wzg199538/article/details/122204506?utm_medium=distribute.pc_relevant.none-task-blog-2~default~baidujs_baidulandingword~default-1-122204506-blog-82971752.235^v43^pc_blog_bottom_relevance_base2&spm=1001.2101.3001.4242.2&utm_relevant_index=4

 

标签:转换,fit,AI,transform,信息,目标值,testData
From: https://www.cnblogs.com/frankcui/p/18315124

相关文章

  • AI - 数据类型:定类、定序、定距、定比
    总结1.定类数据、定序数据,无法进行距离间的比较,和加减法的运算定距数据,虽然能进行加减法的运算,但不能进行乘除法的运算。因为没有零点(作者注:todo)定比数据,可以进行加减乘除2.将定类数据、定序数据进行数值化定距数据,进行归一化后均可进行四则运算 一、定类数据在数据......
  • AI发展下的伦理挑战,应当如何应对?
    人工智能飞速发展的同时,也逐渐暴露出侵犯数据隐私、制造“信息茧房”等种种伦理风险。随着AI技术在社会各个领域的广泛应用,关于AI伦理和隐私保护问题日趋凸显。尽管国外已出台系列法规来规范AI的使用,保护个人隐私和数据安全,但如用户被区别对待的“大数据杀熟”现象、AI在辅助......
  • 智普ai的并发调用-----go编写
    //https://github.com/zhangbo2008/Concurrency_zhipuAI_callpackagemainimport( "bytes" "encoding/json" "fmt" "io" "net/http" "sync" "time")varzhipuapikey="xxxxxxxxxx......
  • 安装CentOS Stream 8时,报错 “started cancel waiting for multipath siblings of nvm
    【系列】真机安装CentOSStream8问题第一步解决安装过程报错(❗︎本节内容❗︎)第二步分区第三步配置软件源第四步安装显卡驱动第五步挂载U盘第六步解决没有1920x1080分辨率的问题文章目录【系列】真机安装CentOSStream8问题一、报错描述二、解决方法常见启动......
  • Transformer多头自注意力及掩码机制详解
    系列文章目录文章目录系列文章目录@[TOC](文章目录)前言一、self-attention1.注意力机制2.自注意力机制3.代码实现二、掩码机制1.原理介绍2.代码实现三、多头注意力模块1.原理介绍2.代码实现前言在本文中我们重点介绍Transformer中的掩码机制及多头自注......
  • wsl4AI :基于WSL2配置AI环境只需要10分钟
    wsl4AI:基于WSL2配置AI环境只需要10分钟......
  • 一文全懂:独立冗余磁盘阵列(RAID)
    独立冗余磁盘阵列,也就是大家常说的RAID,英文全称是:RedundantArrayofIndependentDisks,使用该技术,可以大幅提高硬盘设备的IO读写速度,还存在数种数据冗余备份机制提供用户选择,能够降低用户数据盘损坏带来的数据丢失的风险。RAID技术通过把多个硬盘设备组合成一个容量更大、安全......
  • 【题解】P4648 [IOI2007] pairs 动物对数
    Problem给定模板\(B(1\leB\le3)\),代表\(B\)维空间。其中有\(n\)个点,给出坐标与坐标上限\(M\),求\(n\)个点中曼哈顿距离\(\leD\)的对数。Solve\(B=1\)考虑将问题化简成:求\(\sum\limits_{i=1}^n\sum\limits_{j=1}^{i-1}[dis(i,j)\leqD]\)。其中\(dis(i,j)\)......
  • vue3 await
    在JavaScript中,await是一个用于处理异步操作的关键字。它只能在async函数内部使用,并且用于等待一个Promise对象的解析。在Vue3中,await关键字常用于在组合式API的setup函数中处理异步操作,比如数据获取。使用await的示例以下是一个使用await关键字的简单示例,它......
  • 服务器和本地主机上对相同请求(curl、python aiohttp)的不同响应
    我有一个用Python编写的解析器(aiohttp、bs4)。解析器的功能之一是通过链接访问文件(例如:https://modsfire.com/d/Mwv01aESgj73zx7)。importaiohttpimportyarlimportasynciofrompprintimportpprintMODSFIRE_URL="https://modsfire.com/"COOKIES={......