一、关于sklearn fit 和transform
sklearn里的封装好的各种算法使用前都要fit;
fit之后,可以调用各种API方法,transform是其中一个API;
fit原义指的是安装、使适合的意思,有点train的含义,但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是确定的,最后得到一个可用于转换的有价值的信息。(目前可以简单理解为:fit获取了关于数据的有效信息,transform利用fit提供的有效信息进行特征转换)
二、fit、transform、fit_transform
常用情况分为两大类
1、数据预处理中的使用
fit(): 求得训练集X的均值,方差,最大值,最小值,这些训练集X固有的属性。
transform(): 在fit的基础上,进行标准化,降维,归一化等操作。
fit_transform(): fit和transform的组合,既包括了训练又包含了转换。
使用方法
第一步:fit_transform(trainData)
对trainData进行fit的整体指标,找到该part的整体指标,如均值、方差、最大值最小值等等(根据具体转换的目的);
第二步:transform(testData)
对testData使用同样的均值、方差、最大最小值等指标进行转换,从而保证train、test处理方式相同。
注意:
必须先用fit_transform(trainData),之后再transform(testData)
直接transform(testData),程序会报错
如果fit_transfrom(trainData)后,使用fit_transform(testData)而不transform(testData),虽然也能归一化,但是两个结果不是在同一个“标准”下的,具有明显差异。
2、各种算法的fit,transform方法
例1:CountVectorizer
sklearn的CountVectorizer库根据输入数据获取词频矩阵(稀疏矩阵);
fit(raw_documents) :根据CountVectorizer参数规则进行操作,比如滤除停用词等,拟合原始数据,生成文档中有价值的词汇表;
transform(raw_documents):使用符合fit的词汇表或提供给构造函数的词汇表,从原始文本文档中提取词频,转换成词频矩阵;
fit_transform(raw_documents, y=None):学习词汇词典并返回术语 - 文档矩阵(稀疏矩阵)。
用法:
from sklearn.feature_extraction.textimport CountVectorizer # 语料 corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?'] # 将文本中的词转换成词频矩阵 vectorizer = CountVectorizer() # 计算某个词出现的次数 X = vectorizer.fit_transform(corpus) # 查看词频结果 print(X.toarray()) 如果有训练数据有测试数据,则: x_train = vectorizer.fit_transform(train_corpus) x_test = vectorizer.transform(test_corpus) 例2: TfidfTransformer from sklearn.feature_extraction.textimport CountVectorizer from sklearn.feature_extraction.textimport TfidfTransformer # 语料 corpus = ['This is the first document.','This is the this second second document.','And the third one.', 'Is this the first document?'] # 将文本中的词转换成词频矩阵 vectorizer = CountVectorizer() # 计算某个词出现的次数 X = vectorizer.fit_transform(corpus) # 类调用 transformer = TfidfTransformer() # 将词频矩阵统计成TF-IDF值 tfidf = transformer.fit_transform(X) # 查看数据结构tfidf[i][j]表示i类文本中tf-idf权重 print(tfidf.toarray()) 如果有训练数据有测试数据,则: X_train = vectorizer.fit_transform(train_corpus) X_test = vectorizer.transform(test_corpus) tfidf_train = transformer.fit_transform(X_train) tfidf_test = transformer.transform(X_test)
三、从另一角度理解fit和transform
fit方法的主要工作是获取特征和目标值有价值的信息,transform方法用来对特征进行转换。
从可利用信息的角度来说,转换分为无信息转换和有信息转换。
无信息转换是指不利用任何其他信息进行转换,比如指数、对数函数转换等。
有信息转换从是否利用目标值向量又可分为无监督转换和有监督转换。
无监督转换指只利用特征的统计信息的转换,统计信息包括均值、标准差、边界等等,比如标准化、PCA法降维等。
有监督转换指既利用了特征信息又利用了目标值信息的转换,比如通过模型选择特征、LDA法降维等。
只有有信息的转换类的fit方法才实际有用,在这点上,fit方法和模型训练时的fit方法就能够联系在一起了:都是通过分析特征和目标值,提取有价值的信息。对于转换类来说是某些统计量;对于模型来说可能是特征的权值系数等。
另外,只有有监督的转换类的fit和transform方法才需要特征和目标值两个参数,即有监督学习的算法fit(x,y)传两个参数。
无监督学习的算法是fit(x),即传一个参数,比如降维、特征提取、标准化。
在学习数据准备的时候遇到一个问题让我想了很久:就是
from sklearn.preprocessing import LabelEncoder里面的这个fit_transform到底是个什么意思?它输出的序列到底是什么?
#我们先看看fit是啥 from sklearn import preprocessing le = preprocessing.LabelEncoder() le.fit([1, 3, 3, 7, 3, 1]) le.classes_ ''' output; array([1, 3, 7]) ''' #很容易发现它把我所给的序列进行了两个操作:第一个是把重复的去掉,第二个是升序 #我们再看看fit_transform输出啥 le.fit_transform([1, 3, 3, 7, 3, 1]) ''' output: array([0, 1, 1, 2, 1, 0]) ''' #说实话我就是这里没看懂 #我在资料里查到一句话 #sklearn.preprocessing.LabelEncoder():标准化标签,将标签值统一转换成range(标签值个数-1)范围内 #然后再结合fit的输出就能想通了:
fit_transform就是将序列重新排列后再进行标准化,
这个重新排列可以把它理解为查重加升序,像下面的序列,经过重新排列后可以得到:array([1,3,7])
而这个新的序列的索引是 0:1, 1:3, 2:7,这个就是fit的功能
所以transform根据索引又产生了一个新的序列,于是便得到array([0, 1, 1, 2, 1, 0])
这个序列是这样来的
————————————————
版权声明:本文为CSDN博主「皮卡丘黄了吧唧丿」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_47125742/article/details/115449648