从机器学习的角度出发,所谓线性回归,指的是自变量(特征)加权求和汇总求得因变量(标签)的过程,比如,我们以前上学时,见到的函数y=w1x1+w2x2+b就是一个非常典型的线性回归模型,在进一步学习这个模型之前,我们需要讲解一些建模过程中应用到的概念。
# 导入相关包
import numpy as np
import pandas as pd
# 忽略这个库,后面会讲
from sklearn.datasets import fetch_california_housing, load_iris
iris_df = load_iris()
# iris_df.keys()
iris_df["data"].shape
(150, 4)
iris_df = load_iris()
pd.DataFrame(iris_df["data"],columns=iris_df['feature_names'])
在上述数据集中,每一行代表一朵花的记录结果,而其中每一列代表所有花的一项共同指标
以上的表格表示的数据集特征列,数据集除了特征列之外,还应用包含目标列数据,目标列数据描述了每一朵花的所属类别。
iris_df["target"].shape
pd.DataFrame(iris_df["target"],columns=['目标列'])
合并这些数据,组合成真正的数据集
data = pd.concat([pd.DataFrame(iris_df["data"],columns=iris_df['feature_names']),pd.DataFrame(iris_df["target"],columns=['labels'])],axis=1)
data
数据集中的前四列也被称为数据集的特征(features),而最后一列被称为数据集的标签(labels),我们在实际建模过程中,当需要利用模型进行预测时时,也是通过输入模型一些样本的特征(一些鸢尾花的四个特征取值),让模型进行每个样本的标签判别(判别每一朵花应该属于哪一类)
标签:iris,df,模型,DataFrame,pd,线性,data,回归,columns From: https://blog.csdn.net/2201_75827149/article/details/143478535