勇闯机器学习（第三关-特征工程）

标签：机器特征数据 DictVectorizer 特征提取第三关勇闯 data 字典

以下内容皆为原创，制作不易，请帅锅、镁铝点点赞赞和关注吧❥(^_^)

一.提问环节

机器学习是什么？

机器学习就是通过自动分析大量数据去建立模型，训练模型，预测数据。

这么好记的概念，你应该记住了吧？？

机器学习的概念关：http://t.csdnimg.cn/arRtn

机器学习的流程？

获取数据（有数据你才能得到模型啊，有数据你才能训练模型）
数据预处理（把那些无用的数据删掉，比如：空值，无意义的，乱码）
特征工程（对特征值进行处理）
机器学习算法训练--模型
模型评估（如果模型不行的话，从第二步开始重新看看，再优化一下，直到模型评估良好）
应用（模型好了，我们才能应用）

没错，这就是第一关的重点，我们这关主要是搞特征工程。

二.特征工程

1.定义：

特征工程是使用专业的背景知识和技巧处理数据，使得特征在机器学习算法中发挥更好的作用的过程。（其实就是更高尚的处理数据，开玩笑的啊）

2.意义：

直接影响机器学习的效果。

3.与数据预处理的区别：

特征工程的过程中，专门用sklearn对特征进行处理。

而数据预处理，主要对原数据，进行数据清洗，异常值、缺失值处理。

4.特征工程的内容：

每个数据都有自己的特征，包括文本类型，每个字都有属于自己的特征。那么我们可以用sklearn去将它们转为数值，转化后的数值就是它们的特征。

特征抽取：用机器学习算法（就是统计方法，统计方法就是数学公式）

特征预处理

特征降维

三.特征提取

我们今天先讲特征提取，正所谓，慢活出细糠嘛。

1.将任意数据（如文本和图像）转化为机器学习的数字特征

注：特征值化是为了让计算机更好的去理解数据。

内心独白：你想想，计算机只认识0和1，二进制。所以我们将数据转化为特征值，这样砸门计算机才能更加深刻的理解和分析。

特征提取分为三类

字典特征提取（特征离散化）

文本特征提取

图像特征提取

这三类，当你遇到字典，那就字典特征提取。当你遇到文本类型数据，那就文本特征提取。遇到图像，那就图像特征提取。

2.特征提取API

sklearn.feature_exrtaction

四.字典特征提取

作用：对字典数据进行特征值化

内心独白：这些方法很好记，都是英语单词，vector向量、矢量。extraction提取。

sklearn.feature_extraction.DictVectorizer(sparse=True)
    1.DictVectorizer.fit_transform(X)
            X是字典或者包含字典的迭代器返回值，返回sparse矩阵（稀疏矩阵）
    2.DictVectorizer.inverse_transform(X)
            X是array数组或者sparse矩阵，返回值：转换之前数据格式
    3.DictVectorizer.get_feature_names()
            返回类别名称

应用：

我们对以下数据（字典类型的，因为这章节讲的就是字典特征提取）进行特征提取

data = [{'city':'北京','temperature':100},

{'city':'上海', 'temperature':60},

{'city':'深圳', 'temperature':30}]

这段代码是用于对字典数据进行特征提取，它会返回一个稀疏矩阵（记住这个，等下讲到）。每个特征都会对应一个向量。

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
data = [{'city':'北京','temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}]
# 1.实例化一个转换器类
transfer = DictVectorizer()

# 2.调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new\n", data_new)

解释时刻：

请问返回的为什么不是一个二维数组？

因为这个函数方法返回的是稀疏矩阵啊，我也没办法，而且你看我们DictVectorizer（）里面没有填参数，所以默认sparse=True并且返回稀疏矩阵。所以我们要改一下参数，让sparse=False即可。

废话不多说，开始弄。

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction import DictVectorizer
data = [{'city':'北京','temperature':100}, {'city':'上海', 'temperature':60}, {'city':'深圳', 'temperature':30}]
# 1.实例化一个转换器类
transfer = DictVectorizer(sparse=False)

# 2.调用fit_transform()
data_new = transfer.fit_transform(data)
print("data_new\n", data_new)
# 如果下面报错了，你就换最下面那个，可能是版本不同吧，方法名不一样
# print("特征名字\n", transfer.get_feature_names())
print("特征名字\n", transfer.get_feature_names_out())

五.总结

你看这两个的区别，左边是稀疏矩阵，右边是二维数组。稀疏矩阵的六个坐标（只会将非零值按位置表现出来），分别对应右边非零值的位置。

好，那么为什么要用非零值，而不用零值呢。将类别转为one-hot编码（独热编码），假如有1000个类别，那我转为one-hot编码，就会大大的占据空间和资源。所以为了节省空间和内存，稀疏矩阵只注重非零值，并提高效率。

六.应用场景

（1）数据集中类别特征比较多

1.将数据集特征==》字典类型

2.DictVectorizer转换

（2）本身拿到的数据就是字典类型

OK，今天的分享就到这里，谢谢大家阅读，晚安2024.07.17 22：53

标签：机器,特征,数据,DictVectorizer,特征提取,第三关,勇闯,data,字典
From： https://blog.csdn.net/dhdjjfhdghh/article/details/141276492