回归分析-概述

回归分析-概述

时间：2023-04-06 20:48:03浏览次数：43

在大数据分析中，回归分析是一种预测性的建模技术，旨在通过数据统计分析，探索数据规律。回归分析主要研究因变量（目标）和自变量（预测器）之间的关系。这种技术通常用于预测分析，时间序列模型以及发现变量之间的因果关系。

1. Linear Regression线性回归

线性回归是最常见的回归分析技术。在线性回归中，因变量是连续的，自变量可以是连续的也可以是离散的，线性回归的本质是线性的。
线性回归使用最优拟合直线（回归线），在因变量y和一个或多个自变量X之间建立一种关系。在回归方程\(Y = bX + a\)中，斜率b称为回归系数，表示X每变动一单位，平均而言，Y将变动b单位。

2. Logistic Regression逻辑回归

是一种广义的线性回归分析模型，属于机器学习中的监督学习。其推导过程与计算方式类似于回归分析过程，但是实际上主要用来解决二分类问题。
逻辑回归的核心是sigmoid函数\(\sigma (x) = \frac{1}{1+e^{-x}}\)，这个函数能将输入的每一组数据\(x^{i}\)映射到0-1之间。并且如果函数值大于0.5，就判断属于类别1，否则属于0。那么更为一般化，则有
\(h(x^{i}) = \frac{1}{1+e^{-(w^{T}x+b)}}\)。容易得到\(h(x^{i})\)属于类别0，当\(w^{T}x+b < 0\)时，反则反之。

3. Polynominal Regression多项式回归

对于一个回归方程，如果自变量的指数大于1，则为多项式回归方程，例如：
\(y = b*x^{2} + a\)，这种回归技术中，最佳拟合线不是直线。而是一个用于拟合数据点的曲线。

4. Stepwise Regression逐步回归

在处理多个自变量时，可以使用这种形式的回归。在这种技术中，自变量的选择是在一个自动的过程中完成的，其中包括非人为操作。
这一壮举是通过观察统计的值，如R-square，t-stats和AIC指标，来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法：
标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。
向前选择法从模型中最显著的预测开始，然后为每一步添加变量。
向后剔除法与模型的所有预测同时开始，然后在每一步消除最小显著性的变量。
这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一

5. Ridge Regression岭回归

当数据之间存在多重共线性（自变量高度相关）时，就需要使用岭回归分析。在存在多重共线性时，尽管最小二乘法（OLS）测得的估计值不存在偏差，它们的方差也会很大，从而使得观测值与真实值相差甚远。岭回归通过给回归估计值添加一个偏差值，来降低标准误差。
在线性等式中，预测误差可以划分为 2 个分量，一个是偏差造成的，一个是方差造成的。预测误差可能会由这两者或两者中的任何一个造成。在这里，将讨论由方差所造成的误差。
岭回归通过收缩参数λ（lambda）解决多重共线性问题。请看下面的等式：
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{2}\)
岭回归即对应着在最小二乘法基础上增加了一个L2正则化。

6. Lasso Regression套索回归

Lasso（Least Absolute Shrinkage and Selection Operator）也会就回归系数向量给出惩罚值项。此外，它能够减少变化程度并提高线性回归模型的精度。公式如下：
\(argmin J(\beta) = \left \| y-X\beta \right \|_{2}^{2} +\lambda \left \| \beta \right \| _{1}\)
与岭回归不同的是目标函数后加一个权重\(\beta\)的1-范数。

7. ElasticNet 弹性网络回归

弹性网络回归算法的代价函数结合了 Lasso回归和岭回归的正则化方法，通过两个参数\(\lambda\)和 \(\rho\)来控制惩罚项的大小。具体公式如下：
\(Cost(w) = \sum_{i=1}^{N}(y_{i} - w^{T}x_{i})^{2} + \lambda \rho \left \| w \right \| _{1} + \frac{\lambda (1-\rho )}{2}\left \| w \right \|_{2}^{2}\)

标签：分析,right,回归,beta,概述,线性,自变量,lambda
From： https://www.cnblogs.com/bonne-chance/p/17293228.html

flask-请求上下文分析
1.请求上下文分析预备知识1.1导出项目依赖我们之前使用导出项目依赖的命令是：pipfreeze>requirements.txt#导出项目依赖pipinstall-rrequirements.txt#安装项目依赖这种方式更适合在虚拟环境的导出和导入，因为它会导出当前解释器所有的依赖。但是如果在本机的解......
请求上下文分析、函数和方法、threading.local对象、偏函数、flask整个生命执行流程(1
请求上下文分析(源码：request原理)导出项目的依赖#之前pipfreeze>requirments.txt把当前解释器环境下的所有第三方依赖都导出来#使用第三方模块，更精确的导出依赖pipreqs第一步：安装pip3installpipreqs第二步：使用命令，导出项目依赖pipreqs./w......
Exp4 恶意代码分析
一、实践原理说明1.实践目标1.1是监控你自己系统的运行状态，看有没有可疑的程序在运行。1.2是分析一个恶意软件，就分析Exp2或Exp3中生成后门软件；分析工具尽量使用原生指令或sysinternals,systracer套件。1.3假定将来工作中你觉得自己的主机有问题，就可以用实验中的这个思......
【flask】flask请求上下文分析 threading.local对象偏函数 flask1.1.4生命执行流程
目录上节回顾今日内容1请求上下文分析（源码：request原理）1.1导出项目的依赖1.2函数和方法1.3threading.local对象1.4偏函数1.5flask整个生命执行流程（1.1.4版本为例）2wtforms（了解）补充上节回顾#1蓝图 -第一步：导入-第二步：实例化得到对象，可以指定static和templates......
Exp4 恶意代码分析
目录一、实践内容系统运行监控（1）使用schtasks指令监控系统（使用如计划任务，每隔一分钟记录自己的电脑有哪些程序在联网，连接的外部IP是哪里。运行一段时间并分析该文件，综述分析结果）（2）使用sysmon工具监控系统（安装配置sysinternals里的sysmon工具，设置合理的配置文件，监控自己主机的重点事......
马尔科夫区制转移向量自回归模型，MSVAR模型，MS-VAR模型的GiveWin软件安装和操作过程
马尔科夫区制转移向量自回归模型，MSVAR模型，MS-VAR模型的GiveWin软件安装和操作过程+MS-VAR各种图形制作（区制转换图、脉冲图、模型预测图和模型预测结果等等）+最优区制数和模型形式判断（MSI-VAR、MSM-VAR模型形式的最优选择问题，这是该模型的核心问题）。文档一共分为五部分，一是软件的安......
管理WEB服务器文件的WebDAV协议&HTTP大跃进--QUIC与HTTP30&WEB安全攻击概述
管理WEB服务器文件的WebDAV协议WebADV协议 WEBDAV追加方法 WeDAV请求示例 HTTP大跃进--QUIC与HTTP30 QUIC&HTTP3.0 HTTP2.0的问题队头阻塞建立连接的握手延迟大QUIC的特性0RTT 没有队头阻塞的多路复用 ......
flask源码分析
目录请求上下文分析(源码:request原理)导出项目的依赖函数和方法threading.local对象偏函数flask整个生命执行流程(1.1.4版本为例)wtforms请求上下文分析(源码:request原理)导出项目的依赖之前的pipfreeze>requeirments.txt会把当前解释器环境下的所有第三方依赖都导出来......
运维Ansible自动化工具概述
运维的工作内容安装系统：pxe、kickstart、cobbler、imagetemplate安装应用、配置应用、启动应用（服务）：puppet、saltstack、chef发布程序：puppet、saltstack、chef监控（服务器、系统、应用、程序）：zabbix程序发布灰度发布金丝雀发布ansible解决的问题：批量安装应用、配置应用、启动应用批量......
MySQL（十二）索引使用的情况分析
索引使用的情况分析数据准备创建表student_info、courseCREATETABLE`student_info`(`id`intNOTNULLAUTO_INCREMENT,`student_id`intNOTNULL,`name`varchar(20)DEFAULTNULL,`course_id`intNOTNULL,`class_id`intDEFAULTNULL,`create_tim......