Logistic Regression

分类问题

本质是分类，要预测的变量是离散的值

逻辑回归模型

数学表达式

\[z = \vec w \cdot \vec x + b \tag{1} \]

\[f_{\vec w, b}(\vec x) = g(z) \tag{2} \]

\[g(z) = \frac{1}{1+e^{-z}} \tag{3} \]

=> $f_{\vec w, b}(\vec x) = \frac {1} {1 + e^{-(\vec w \cdot \vec x + b)}}$

KaTeX parse error: \tag works only in display equations

其中公式（3）为sigmoid函数，是一个非常良好的阈值函数。$f \in [0,1]$

代码

def sigmoid(z):
    """
    Compute the sigmoid of z

    Args:
        z (ndarray): A scalar, numpy array of any size.

    Returns:
        g (ndarray): sigmoid(z), with the same shape as z
         
    """

    g = 1/(1+np.exp(-z))
   
    return g

Cost Function

数学表达式

\[\begin{equation} loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) = \begin{cases} - \log\left(f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=1$}\\ \log \left( 1 - f_{\mathbf{w},b}\left( \mathbf{x}^{(i)} \right) \right) & \text{if $y^{(i)}=0$} \end{cases} \end{equation} \]

\[J(\mathbf{w},b) = \frac{1}{m} \sum_{i=0}^{m-1} \left[ loss(f_{\mathbf{w},b}(\mathbf{x}^{(i)}), y^{(i)}) \right] \]

simplified lost function:

\[J(\mathbf{w},b) = - y^{(i)} \log(f_{\mathbf{w},b}( \mathbf{x}^{(i)}) - (1 - y^{(i)}) \log ( 1 - f_{\mathbf{w},b}( \mathbf{x}^{(i)})) \]

代码

def compute_cost_logistic(X, y, w, b):
    """
    Computes cost

    Args:
      X (ndarray (m,n)): Data, m examples with n features
      y (ndarray (m,)) : target values
      w (ndarray (n,)) : model parameters  
      b (scalar)       : model parameter
      
    Returns:
      cost (scalar): cost
    """

    m = X.shape[0]
    cost = 0.0
    for i in range(m):
        z_i = np.dot(X[i],w) + b
        f_wb_i = sigmoid(z_i)
        cost +=  -y[i]*np.log(f_wb_i) - (1-y[i])*np.log(1-f_wb_i)
             
    cost = cost / m
    return cost

Gradient Descent

数学表达式

\[\begin{align*} &\text{repeat until convergence:} \; \lbrace \\ & \; \; \;w_j = w_j - \alpha \frac{\partial J(\mathbf{w},b)}{\partial w_j} \tag{1} \; & \text{for j := 0..n-1} \\ & \; \; \; \; \;b = b - \alpha \frac{\partial J(\mathbf{w},b)}{\partial b} \\ &\rbrace \end{align*} \]

\[\begin{align*} \frac{\partial J(\mathbf{w},b)}{\partial w_j} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)})x_{j}^{(i)} \\ \frac{\partial J(\mathbf{w},b)}{\partial b} &= \frac{1}{m} \sum\limits_{i = 0}^{m-1} (f_{\mathbf{w},b}(\mathbf{x}^{(i)}) - y^{(i)}) \end{align*} \]

代码

def compute_gradient_logistic(X, y, w, b): 
    """
    Computes the gradient for linear regression 
 
    Args:
      X (ndarray (m,n): Data, m examples with n features
      y (ndarray (m,)): target values
      w (ndarray (n,)): model parameters  
      b (scalar)      : model parameter
    Returns
      dj_dw (ndarray (n,)): The gradient of the cost w.r.t. the parameters w. 
      dj_db (scalar)      : The gradient of the cost w.r.t. the parameter b. 
    """
    m,n = X.shape
    dj_dw = np.zeros((n,))                           #(n,)
    dj_db = 0.

    for i in range(m):
        f_wb_i = sigmoid(np.dot(X[i],w) + b)          #(n,)(n,)=scalar
        err_i  = f_wb_i  - y[i]                       #scalar
        for j in range(n):
            dj_dw[j] = dj_dw[j] + err_i * X[i,j]      #scalar
        dj_db = dj_db + err_i
    dj_dw = dj_dw/m                                   #(n,)
    dj_db = dj_db/m                                   #scalar
        
    return dj_db, dj_dw

Overfitting

underfit: 不太合适
just right: 最合适
overfit: 与训练集高度匹配

解决方案

收集更多数据
减少特征
正则化：给参数赋更小的值

标签：逻辑,dj,机器,回归,frac,scalar,cost,mathbf,ndarray
From： https://www.cnblogs.com/MrFeng2997/p/17592016.html

【机器学习】softmax回归
SoftmaxRegression(多标签分类)将多输入的分类值转化为[0,1]的概率分布，进而进行逻辑回归算法softmax能将差距大的数值距离拉得更大，但是数值可能会溢出SoftmaxFunction数学表达式\[a_j=\frac{e^{z_j}}{\sum_{k=1}^{N}{e^{z_k}}}\]代码defmy_softmax(z):ez=n......
【机器学习】协同过滤
CollaborativeFilteringRecommenderSystems解决相似度问题概念准确率=$accuracy=\frac{预测正确的样本}{总样本}$精确率=$precision=\frac{预测成功的正类}{预测的正类}$【不能误检】召回率=$recall=\frac{预测成功的正类}{总正类}$【不能漏报】相......
【机器学习】正则化
RegularizedCostfunction forregularizedlinearregression数学表达式\[J(\mathbf{w},b)=\frac{1}{2m}\sum\limits_{i=0}^{m-1}(f_{\mathbf{w},b}(\mathbf{x}^{(i)})-y^{(i)})^2+\frac{\lambda}{2m}\sum_{j=0}^{n-1}w_j^2\]\[f_{\mathbf{w},b}(......
【机器学习】决策树
DecisionTree熵-entropy数学表达式\[H(p_1)=-p_1\text{log}_2(p_1)-(1-p_1)\text{log}_2(1-p_1)\]代码#UNQ_C1#GRADEDFUNCTION:compute_entropydefcompute_entropy(y):"""ComputestheentropyforArgs:y(n......
【机器学习】K-Means
K-Means找最接近的质心公式\[c^{(i)}:=j\quad\mathrm{that\;minimizes}\quad||x^{(i)}-\mu_j||^2\]其中，范式$||X||$，其计算公式为\[||X||=\sqrt{x_1^2+x_2^2+\cdots+x_n^2}\]代码#UNQ_C1#GRADEDFUNCTION:find_closest_centroidsdeffind_closest......
建设数字工厂：MRP物料需求计划的逻辑原理与配置方法
本文分享自华为云社区《数字工厂深入浅出系列（七）：MRP物料需求计划的逻辑原理与配置方法》，作者：云起MAE。MRP是生产制造企业“管好”物料的核心工具方法，基本思想是根据客户对最终产品的需求数量和需求时间，按产品的结构精确地算出所有零件和部件的数量，并按各种零件和部件的生产周期或......
工业机器人的形态（非姿态）
工业机器人的形态当我们描述机器人在空间的一个位姿时，通常使用直角坐标系、工具坐标系或用户坐标系（统称为笛卡尔坐标系）的点。但是同样的一个位姿对于关节坐标系来说可能有多个值。假定当六轴机器人处于零点位置时，各坐标系的值如下表。关节坐标系直角坐标系各轴均为0......
古逻辑之墨辩:不分彼此：六个概念七
这里列举墨辩中六个概念。1.1名这里不是说，名可名，非常名。在墨子中，名是概念的表示，概念是经过综合分析才能发生的，所以名有达名，类名，私名三种。达名：一切事物共通之名，例如物体类名：一类事物的名称，例如马私名：一个事物专有之名，比如“奴仆”，“店小二”如下图物:无生物......
【机器学习】多变量线性回归
LinerRegressionwithMultipleVariable用向量实现的代码，单变量和多变量可以共用多变量线性回归相当于是单变量的扩展，主要还是按照模型假设、构造代价函数和研究代价函数的最小值这样的思路展开。与单变量线性回归不同的是，多变量线性回归还可能涉及到特征缩放的问题，主要原因......
工业机器人坐标系详解(基于六轴串联机器人和SCARA机器人)
工业机器人的坐标系机器人的坐标系是重中之重，它是理解机器人运动的基础。机器人所有运动的点位都是建立在坐标系的基础之上，所以如果坐标系不理解，那么就很难真实了解机器人是如何运动的。什么是坐标系？我们需要移动机器人来工作，但是如何让机器人移动？当然我们可以单独控制机器人的......

【机器学习】逻辑回归

Logistic Regression

逻辑回归模型

数学表达式

代码

Cost Function

数学表达式

代码

Gradient Descent

数学表达式

代码

Overfitting

解决方案

相关文章

赞助商

阅读排行