首页 > 其他分享 >回归在数据科学中意味着什么?

回归在数据科学中意味着什么?

时间:2022-08-31 08:24:13浏览次数:84  
标签:预测 薪水 回归 职位 科学 意味着 模型 描述

回归在数据科学中意味着什么?

单词如何与模型类型混淆

Photo by 亚历山大·格雷 on 不飞溅

在数据科学中,回归问题是我们希望使用从数据中派生的特征来训练模型的问题,这些特征可以在一定的置信区间(通常为 95%)内预测数值(例如目标)。假设我们有兴趣预测的输出是一个连续的数值。

例如,假设我们想根据职位描述中提供的词语来预测一份工作的大致薪水。顺便说一句,一家公司实际上正在解决这个问题(请参阅 这里 )。

因为感兴趣的结果,薪水,很容易将其概念化为连续的数字结果,所以这个例子很容易转化为数据科学问题。事实上,回归问题通常是将数据科学纳入其解决方案的任何组织的第一步,因为大多数企业都清楚推动其业务决策的指标(例如金钱[利润、收入、薪水等]、数量[生产的单位每天,工作时间等],等等)。

为了训练回归模型来解决从职位描述预测薪水的问题,我们需要创建一个数据集,其中包括从职位描述派生的特征和与每个职位描述相关的薪水。一个简单的解决方案可能如下所示:

1. 使用计数向量器从职位描述中生成前 n 个单词和短语

一个。每个单词和短语将是数据集中的一个特征列

2. 使用我们的计数向量器转换每个职位描述,这样每个职位描述现在由 n 列中的每一列中不同单词和短语的频率表示

3.与每个职位描述相关的薪水保持一致

4. 使用特征来训练一个经典的多元回归模型来预测薪水

5. 使用 R 平方评估性能

6. 通过检查系数(强度和显着性 [p 值])来评估每个特征(例如单词或短语列)对解决方案的贡献。

在上面的示例中,我们演示了如何推导出一个简单的多元回归模型,以根据我们可以从这些描述中获得的特征来预测职位描述的薪水。我们还假设每个特征(例如单词或短语)使用简单的多元回归与薪水共享线性关系。此外,在没有任何特征选择的情况下,我们还冒着降低模型准确概括到需要薪水预测的新职位描述的能力的风险。

幸运的是,我们可以使用许多其他模型类型来帮助我们处理非线性和模型复杂性等问题。这里只是一些不同的回归模型算法和一些关于它们帮助我们克服的注释:

多重回归:

最基本的模型算法,它学习执行特征的线性组合以预测数值结果所需的权重(例如系数)。这些模型易于构建、易于解释且计算效率高。不利的一面是,它们还假设与结果变量呈直线(例如直线)关系。当结果呈正态分布、特征系数与结果显着相关且误差(例如残差)也呈正态分布时,这些模型的推广效果最好。

岭和套索回归:

在估计有助于处理非常复杂的模型的系数时,岭回归和套索回归都使用不同的校正。也就是说,包含许多功能的模型。总体思路是,模型越复杂(例如特征越多),系数就会受到惩罚(例如减少到 0)。

非线性回归算法:

o 决策树是一种非线性模型,可用于预测数值。其基本思想是决策树根据特征创建一系列拆分规则,以确定在不同特征值处拆分的复杂“树”,最终得出预测。这些模型在计算上可能比传统的回归模型更加繁重,并且对训练数据的范围非常敏感,这意味着模型可能无法很好地泛化。

o 随机森林类似于决策树,但不仅仅是单个决策树,随机森林组合了从数据样本中派生的多个决策树,并用于创建平均预测。多个“弱”树的平均是这些模型被称为集成模型的原因。随机森林比决策树的计算量更大,因此需要很长时间来训练。

o 支持向量机 (SVM) 与传统回归的不同之处在于,它们试图识别存在于比回归更高维度的预测值的超平面。在多元回归中,我们得出一条预测线。在 SVM 中,我们推导出一个超平面,它是作为每个特征向量的点积的函数创建的,以确定给出每个数据点之间距离最小的超平面的系数值。

喜欢参与学习数据科学、职业发展、生活或糟糕的商业决策?注册我的时事通讯 这里 并获得我的免费电子书的链接。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/2822/06573108

标签:预测,薪水,回归,职位,科学,意味着,模型,描述
From: https://www.cnblogs.com/amboke/p/16641640.html

相关文章

  • 如果我讨厌数学,我应该学习计算机科学吗?
    我是不是该学习计算机科学如果我恨数学?有两部分。首先,没有太多的数学典型的CS程度。在UBC,CS学位需要达到分析三、线性代数,和统计数据。这是小与什么物......
  • 19种回归分析你知道几种呢?
    只要学习过数据分析,或者对数据分析有一些简单的了解,比如使用过SPSSAU、SPSS这些统计分析软件,都知道有回归分析。按照数学上的定义来看,回归分析指研究一组随机变量(Y1,Y2,…......
  • 初学者数据科学家的课程提示
    初学者数据科学家的课程提示了解课程过滤的工作原理,以及如何为受众量身定制Photoby马库斯·温克勒on不飞溅.如果您刚开始从事数据科学,您的简历对于帮助您找到第......
  • 使用 NumPy 进行数据处理——数据科学第 185 天
    使用NumPy进行数据预处理——数据科学第185天Source:https://numpy.org/上次,我们查看了安装NumPy包并探索了使用NumPy的数组的基础知识。—是的,上次是第18......
  • 数据科学手把手:碳中和下的二氧化碳排放分析 ⛵
    ......
  • 线性回归实现
    深度学习第一章:最简单的线性回归实现1.引言AI领域的线性回归和其他领域不太一样,包括了名词和实现方式,所以必须先认识重要名词,再把所有步骤熟悉一边,并建立在之前学习线性......
  • 回归 反相吧
    @贴吧吧主小管家      这几天我是去 民科吧对线的,  结果屁都没对到一个 。 我发的  《与@上官苏同学的学习对话》    ......
  • js加减乘除--科学计数法-解决精度丢失
    'usestrict';Object.defineProperty(exports,'__esModule',{value:true});/***@desc解决浮动运算问题,避免小数点后产生多位数和计算精度损失。*问题示例......
  • 逻辑回归
    LogisticRegression逻辑回归引言:机器学习解决的问题,大体上分为两种预测和分类。预测:一般采用是回归模型,比如最常用的线性回归;分类:采用的有决策树,KNN,支持向量机,......
  • [神经网络]softmax回归
    前言softmax回归为一种分类模型。基本原理  由于softmax回归也是一种线性叠加算法,且需要输出离散值。很自然地想到,可以取值最大的输出为置信输出。更进一步想到,如......