标签：逻辑函数算法实验 ax np theta data

实验二：逻辑回归算法实验

【实验目的】

理解逻辑回归算法原理，掌握逻辑回归算法框架；
理解逻辑回归的sigmoid函数；
理解逻辑回归的损失函数；
针对特定应用场景及数据，能应用逻辑回归算法解决实际分类问题;

【实验内容】

根据给定的数据集，编写python代码完成逻辑回归算法程序，实现如下功能：

建立一个逻辑回归模型来预测一个学生是否会被大学录取。假设您是大学部门的管理员，您想根据申请人的两次考试成绩来确定他们的入学机会。您有来自以前申请人的历史数据，可以用作逻辑回归的训练集。对于每个培训示例，都有申请人的两次考试成绩和录取决定。您的任务是建立一个分类模型，根据这两门考试的分数估计申请人被录取的概率。

算法步骤与要求：

(1)读取数据；(2)绘制数据观察数据分布情况；(3)编写sigmoid函数代码；(4)编写逻辑回归代价函数代码；(5)编写梯度函数代码；(6)编写寻找最优化参数;（可使用scipy.opt.fmin_tnc()函数）；(7)编写模型评估（预测）代码，输出预测准确率；(8)寻找决策边界，画出决策边界直线图。
针对iris数据集，应用sklearn库的逻辑回归算法进行类别预测。

要求：

（1）使用seaborn库进行数据可视化；（2）将iri数据集分为训练集和测试集(两者比例为8:2)进行三分类训练和预测；（3）输出分类结果的混淆矩阵。

【实验报告要求】

对照实验内容，撰写实验过程、算法及测试结果；
代码规范化：命名规则、注释；
实验报告中需要显示并说明涉及的数学原理公式；
查阅文献，讨论逻辑回归算法的应用场景；

实验内容：

一、根据给定的数据集，编写python代码完成逻辑回归算法程序

1.读取数据：

# 读取相关的数据
import pandas as pd
data = pd.read_csv("D:/tools/SHIYAN/4/jqxx/ex2data1.txt", header=None, names=['grade1','grade2','result'])
data

2.绘制数据观察数据分布情况:

import matplotlib.pyplot as plt
# 将录取和未录取进行分类
positive = data[data["result"] == 1]  
negative = data[data["result"] == 0]  
fig, ax = plt.subplots(figsize=(12, 8))  
ax.scatter(positive['grade1'], positive['grade2'], s=30,
           c='b', marker='o', label='Admitted')  
ax.scatter(negative['grade1'], negative['grade2'], s=30,
           c='r', marker='x', label='Not Admitted')
ax.legend()  
ax.set_xlabel('grade1 score')
ax.set_ylabel('grade2 score')

3.编写sigmoid函数代码:

Sigmoid函数是一个在生物学中常见的S型函数，也称为S型生长曲线。在深度学习中，由于其单增以及反函数单增等性质，Sigmoid函数常被用作神经网络的激活函数，将变量映射到[0,1]之间。

import numpy as np

def sigmoid(a):
    return 1/(1+np.exp(-a))
 
nums = np.arange(-10, 10, step=1)
 
fig, ax = plt.subplots(figsize=(12, 8))
ax.plot(nums, sigmoid(nums), 'r')
plt.show()

4.编写逻辑回归代价函数代码:

为了训练逻辑回归模型的参数w和参数b，我们需要一个代价函数(也叫成本函数,cost function)，通过训练代价函数来得到参数w和参数b。、

代价函数：

def model(x, theta):
    return sigmoid(np.dot(x, theta.T))  # dot矩阵的乘法运算 T转置
 
 
def cost(theta, x, y):
    theta = np.matrix(theta)  # 参数theta是一维数组，进行矩阵想乘时要把theta先转换为矩阵
    L1 = np.multiply(-y, np.log(model(x, theta)))  # multiply()数组和矩阵对应位置相乘
    L2 = np.multiply(1-y, np.log(1-model(x, theta)))
    return np.sum(L1-L2)/(len(x))
 
 
data.insert(0, 'Ones', 1)
cols = data.shape[1]
x = np.array(data.iloc[:, 0:cols-1])  # 1-倒数第1列的数据
y = np.array(data.iloc[:, cols-1:cols])  # 倒数第1列的数据
theta = np.zeros(x.shape[1])  # 1行三列的矩阵全部填充为0
print(cost(theta, x, y))

结果：

5.编写梯度函数代码：

举例：

def gradient(theta, x, y):
    theta = np.matrix(theta)  # 要先把theta转化为矩阵
    grad = np.dot(((model(x, theta)-y).T), x)/len(x)
    return np.array(grad).flatten()

gradient(theta, x, y)

结果：

5.编写寻找最优化参数代码（可使用scipy.opt.fmin_tnc()函数）：

opt.fmin_tnc（）函数：用于最优化
基本参数：

func：优化的目标函数

x0：初值

fprime：提供优化函数func的梯度函数，不然优化函数func必须返回函数值和梯度，或者设置approx_grad=True

approx_grad :如果设置为True，会给出近似梯度

args：元组，是传递给优化函数的参数

# 寻找最优化参数（scipy.opt.fmin_tnc()函数）
import scipy.optimize as opt
result = opt.fmin_tnc(func=cost, x0=theta, fprime=gradient, args=(x, y))
result

结果：

6.编写模型评估（预测）代码，输出预测准确率：

在求得最优theta值后，利用得到的模型在训练数据中进行预测，并求准确率。

predict函数：通过训练数据以及theta值进行预测，并且把预测结果使用列表返回；

def predict(theta, x):
    theta = np.matrix(theta)
    temp = sigmoid(x*theta.T)
    return [1 if x >= 0.5 else 0 for x in temp]
 
 
theta = result[0]
predictValues = predict(theta, x)
hypothesis = [1 if a == b else 0 for (a, b) in zip(predictValues, y)]
accuracy = hypothesis.count(1)/len(hypothesis)
print('accuracy = {0}%'.format(accuracy*100))

结果：

7.寻找决策边界，画出决策边界直线图：

def find_x2(x1, theta):
    return [(-theta[0]-theta[1]*x_1)/theta[2] for x_1 in x1]
 
 
x1 = np.linspace(30, 100, 1000)
x2 = find_x2(x1, theta)
data1 = data[data['result'] == 1]
data2 = data[data['result'] == 0]
fig, ax = plt.subplots(figsize=(12, 8))
ax.scatter(data1['grade1'], data1['grade2'], c='b', marker='o', label='Admitted')
ax.scatter(data2['grade2'], data2['grade1'], c='r',
           marker='x', label="Not Admitted")
ax.plot(x1, x2, 'g', label="decision boundary")
ax.legend(loc=1)
ax.set_xlabel('grade1 score')
ax.set_ylabel('grade2 score')
ax.set_title("Training data with decision boundary")
plt.show()

结果：

二、针对iris数据集，应用sklearn库的逻辑回归算法进行类别预测

1.使用seaborn库进行数据可视化：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
data = load_iris() 
iris_target = data.target  
iris_features = pd.DataFrame(
    data=data.data, columns=data.feature_names)  # 利用Pandas转化为DataFrame格式
# 合并标签和特征信息
iris_all = iris_features.copy()  # 进行浅拷贝，防止对于原始数据的修改
iris_all['target'] = iris_target
# 特征与标签组合的散点可视化
sns.pairplot(data=iris_all, diag_kind='hist', hue='target')
plt.show()

结果：

2.将iri数据集分为训练集和测试集(两者比例为8:2)进行三分类训练和预测：

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
# 将训练集测试集按照8：2比例划分
X_train, X_test, y_train, y_test = train_test_split(
    iris_features, iris_target, test_size=0.2, random_state=2020)
clf = LogisticRegression(random_state=0, solver='lbfgs')
# 在训练集上训练逻辑回归模型
clf.fit(X_train, y_train)
print('逻辑回归的权重：\n', clf.coef_)  # 查看权重weight
print('逻辑回归的截距（w0）\n', clf.intercept_,'\n')  # 查看偏置
train_predict = clf.predict(X_train)
test_predict = clf.predict(X_test)
print(train_predict,'\n\n', test_predict)

结果：

3.输出分类结果的混淆矩阵：

from sklearn import metrics
# 利用accuracy评估模型效果
print('逻辑回归准确度:',
      metrics.accuracy_score(y_train, train_predict))
print('逻辑回归准确度:',
      metrics.accuracy_score(y_test, test_predict))
# 查看混淆矩阵
confusion_matrix_result = metrics.confusion_matrix(y_test, test_predict)
print('混淆矩阵结果:\n', confusion_matrix_result)
# 利用热力图对于结果进行可视化,画混淆矩阵
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predictedlabels')
plt.ylabel('Truelabels')
plt.show()

结果：

三、讨论逻辑回归算法的应用场景

应用：

用于分类：适合做很多分类算法的基础组件。
用于预测：预测事件发生的概率（输出）。
用于分析：单一因素对某一个事件发生的影响因素分析（特征参数值）。

适用：

基本假设：输出类别服从伯努利二项分布。
样本线性可分。
特征空间不是很大的情况。
不必在意特征间相关性的情景。
后续会有大量新数据的情况。
逻辑算法的优缺点：
优点：
1. 实现简单，广泛的应用于工业问题上；

2. 分类时计算量非常小，速度很快，存储资源低；

3. 便利的观测样本概率分数；

4. 对逻辑回归而言，多重共线性并不是问题，它可以结合L2正则化来解决该问题；

5. 计算代价不高，易于理解和实现。

缺点：

1. 当特征空间很大时，逻辑回归的性能不是很好；

2. 容易欠拟合，一般准确度不太高；

3. 不能很好地处理大量多类特征或变量；

4. 对于非线性特征，需要进行转换

标签：逻辑,函数,算法,实验,ax,np,theta,data
From： https://www.cnblogs.com/chenglele/p/16845351.html

实验二：逻辑回归算法实验

实验二：逻辑回归算法实验

【实验目的】

【实验内容】

【实验报告要求】

实验内容：

一、根据给定的数据集，编写python代码完成逻辑回归算法程序

1.读取数据：

3.编写sigmoid函数代码:

4.编写逻辑回归代价函数代码:

5.编写寻找最优化参数代码（可使用scipy.opt.fmin_tnc()函数）：

6.编写模型评估（预测）代码，输出预测准确率：

7.寻找决策边界，画出决策边界直线图：

二、针对iris数据集，应用sklearn库的逻辑回归算法进行类别预测

1.使用seaborn库进行数据可视化：

2.将iri数据集分为训练集和测试集(两者比例为8:2)进行三分类训练和预测：

3.输出分类结果的混淆矩阵：

三、讨论逻辑回归算法的应用场景

逻辑算法的优缺点：

相关文章

赞助商

阅读排行