当目标变量是比例时如何使用sklearn

时间：2024-07-25 13:51:25浏览次数：19

标签：python scikit-learn

有一些预测比例的标准方法，例如逻辑回归（无阈值）和 beta 回归。已经对此进行了讨论：

http://scikit-learn-general.narkive.com/4dSCktaM/using-logistic-regression-on-a-continuous-target-variable

http://scikit -learn-general.narkive.com/lLVQGzyl/beta-regression

我无法判断 sklearn 框架内是否存在解决方法。

你提到的链接已经失效了，但我可以解释一下当目标变量是比例时，如何在 scikit-learn 中进行建模。

1. 数据预处理

检查比例范围: 确保你的比例数据在 0 到 1 之间。如果你的数据是百分比形式 (0% 到 100%)，你需要将其除以 100。
处理边界值: 如果你的数据包含 0 或 1，你可能需要考虑使用一些转换技巧，例如：
- 添加少量值: 对所有比例值都加上一个很小的值，例如 0.001，避免出现 0。
- logit 变换: 对比例值进行 logit 变换，将 (0, 1) 范围映射到 (-∞, +∞) 。

2. 模型选择

scikit-learn 中没有直接的 Beta 回归模型，但你可以使用以下模型来处理比例数据:

线性回归 (Linear Regression):
- 优点: 简单易用。
- 缺点: 预测值可能超出 [0, 1] 范围。
逻辑回归 (Logistic Regression) (无阈值):
- 优点: 可以将输出限制在 [0, 1] 范围内。
- 缺点: 可能不适合处理靠近 0 或 1 的值。
Beta 回归 (Beta Regression) (使用 statsmodels 库):
- 优点: 专门为比例数据设计的模型，可以处理 0 和 1 的边界值。
- 缺点: 需要安装 statsmodels 库。

3. 代码示例

线性回归:

from sklearn.linear_model import LinearRegression

model = LinearRegression()
model.fit(X_train, y_train)

# 预测值
y_pred = model.predict(X_test)

# 确保预测值在 [0, 1] 范围内
y_pred = np.clip(y_pred, 0, 1)

逻辑回归 (无阈值):

from sklearn.linear_model import LogisticRegression

model = LogisticRegression(solver='lbfgs') # 使用其他 solver 可能更适合你的数据
model.fit(X_train, y_train)

# 预测值 (概率)
y_pred_proba = model.predict_proba(X_test)[:, 1]

Beta 回归 (使用 statsmodels):

from statsmodels.formula.api import glm
from statsmodels.genmod.families import Binomial
from statsmodels.genmod.families.links import logit

# 需要将数据转换为 pandas DataFrame 格式，并将目标变量命名为 'y'
data = pd.DataFrame({'y': y_train, **X_train})

# 使用 logit link function
model = glm('y ~ X1 + X2', data=data, family=Binomial(link=logit()))
results = model.fit()

# 预测值 (使用 test 数据)
y_pred = results.predict(exog=pd.DataFrame({'X1': X_test[:, 0], 'X2': X_test[:, 1]}))

4. 模型评估

均方误差 (MSE): 适用于所有模型。
平均绝对误差 (MAE): 适用于所有模型。
R-squared: 适用于线性回归。
对数似然: 适用于逻辑回归和 Beta 回归.

选择最适合你数据的模型和评估指标取决于你的具体问题和数据特点。

标签：python,scikit-learn
From： 44234682

需要帮助来提取此 XML 节点 - Python 中的 Excel 连接字符串
我有一个Python程序，打开Excel(XLSX)文件，并尝试查找<connection>节点。这是connections.xml文件中的完整XML。<?xmlversion="1.0"encoding="UTF-8"standalone="yes"?><connectionsxmlns="http://schemas.op......
【python】Python中采集Prometheus数据，进行数据分析和可视化展示
✨✨欢迎大家来到景天科技苑✨✨......
使用python3拼接rgb.txt与depth.txt为associate.txt(适用于GCNV2_SLAM中TUM数据集的运
这里以GCNV2_SLAM中TUM数据集的运行为例子：安装gnv2_slam可以参考：GCNv2_SLAM-CPU详细安装教程(ubuntu18.04)-CSDN博客首先下载数据集ComputerVisionGroup-DatasetDownload下载后通过该命令解压：tar-xvfrgbd_dataset_freiburg1_desk.tgz打开后，你可以发现：在该数据集......
【Python】到底什么是字符串格式化？
字符串格式化的目的：在字符串中动态地插入数据或表达式。字符串格式化的对象：要插入到字符串中的数据。在详细解释之前，先引入第一种字符串格式化的方法name=input('请输入你的名字:')gender=input('请输入你的性别：')age=input('请输入你的年龄：')print(f'你的名字是{......
Python PDF 编辑器
我将制作一个PDF编辑器，它可以更改PDF中的单词，而无需更改文本的来源。这是我的代码，到目前为止，它所做的一切都是正确的，但我可以获得文本颜色和文本大小。importpymupdfimportos#OpenthePDFdocumentdoc=pymupdf.open('input.pdf')#Loadthecustomfontfi......
JSON 响应中的字符串值变成 Python pandas datafram 中的数值
我正在使用Python从RESTAPI中提取数据并将其存储在SQL数据库中。除了响应中的一个JSON值之外，一切工作正常。JSON响应[{"pbxId":"XXXcxx","site":"XXXGroup-SydneyOffice","name":"XXXXService","extension":......
适用于 Python 的 Firebase-admin sdk 引发错误“StreamGenerator”不可迭代
以前（一周前）我与Firestore通信的Python代码工作得很好。但今天我又开始研究它，它在迭代collection.stream()service_account=credentials.Certificate('credential/serviceAccount.json')firebase_admin.initialize_app(service_account)firestore_d......
从 DOCKER 下的共享卷在 Linux 中执行 PyInstaller 生成的文件时出现 Python 子进程 F
我已经使用PyInstaller生成了一个可执行文件，例如test（没有扩展名，因为它是Linux）并将其存储在一个目录中，例如data我有一个Python程序，如下所示：importsubprocessfrompathlibimportPath...defrun_exe():try:#getcurrentdirectory......
从源代码安装 python3.5 后如何修复 virtualenv 的 python pip 分段错误（核心转储）响应
背景嗨，我的主要目标是为许多使用旧版本Python的项目创建一个virtualenv，这些项目与系统版本(3.10.x)是分开的。我是使用PopOS22.04并进行所有更新。由于此错误，我什至无法使用pip。我也阅读了周围的内容，但我读到的所有解决方案要么输出日志文件，要么......
无法使用适用于 Azure AI 搜索的 Python SDK 将数据添加到 ComplexField
我想将带有嵌套字典的有效负载上传到AzureAI搜索索引。我在索引中使用ComplexField作为负载中的嵌套字典。索引无法识别嵌套字典，并且出现空错误。这是我的代码：ComplexField,CorsOptions,SearchIndex,ScoringProfile,SearchFieldDataType,Sim......

当目标变量是比例时如何使用sklearn

相关文章

赞助商

阅读排行