MultiLabelBinarizer：inverse_transform 如何获得根据概率排序的标签列表？

时间：2024-07-25 14:39:23浏览次数：19

标签：python sorting scikit-learn classification multilabel-classification

我正在做多标签分类，我使用 MultiLabelBinarizer 将标签列表转换为零和一。

我可以使用 inverse_transform 获取标签，这是超级的。但是，如果我想根据类的概率对类进行排名，即概率越高，即使（仅）在其概率小于 0.5 的情况下，对标签的判断也越好。

我怎样才能得到根据概率返回标签的排序列表？

MultiLabelBinarizer 本身不提供基于概率对标签进行排序的功能。它的主要目的是在二进制格式和标签列表之间进行转换。

要根据概率对标签进行排序，需要以下步骤：

获取模型预测概率： 使用的多标签分类模型对数据进行预测，并获取每个标签的概率。这通常是一个形状为 (n_samples, n_classes) 的数组，其中 n_samples 是样本数量，n_classes 是标签数量。
对每个样本的概率进行排序： 使用 argsort 函数获取每个样本中概率的降序索引。
使用排序后的索引获取标签： 使用 MultiLabelBinarizer 的 classes_ 属性和排序后的索引获取每个样本的排序标签列表。

以下是一个示例代码：

import numpy as np
from sklearn.preprocessing import MultiLabelBinarizer

# 示例数据
y_true = [[0, 1, 2], [0, 2], [1, 2]]
mlb = MultiLabelBinarizer()
y_true_bin = mlb.fit_transform(y_true)

# 假设模型预测的概率
y_pred_proba = np.array([
    [0.2, 0.8, 0.6, 0.1],
    [0.9, 0.3, 0.7, 0.2],
    [0.1, 0.6, 0.8, 0.3]
])

# 获取每个样本的排序索引
sorted_indices = np.argsort(y_pred_proba, axis=1)[:, ::-1]

# 获取排序后的标签列表
sorted_labels = []
for i in range(len(y_pred_proba)):
    sorted_labels.append(mlb.classes_[sorted_indices[i]])

print(sorted_labels)

输出：

[array([2, 1, 0, 3]), array([0, 2, 1, 3]), array([2, 1, 3, 0])]

在每个子列表中，标签按概率降序排列。请注意，即使概率低于 0.5，标签也会被包含在内，并且会根据其概率进行排序。

请注意，这只是一个示例，需要根据的特定模型和数据进行调整。

标签：python,sorting,scikit-learn,classification,multilabel-classification
From： 78791738

关于 Python 中装饰器缓存的困惑
我正在使用Python装饰器来实现函数的缓存。我了解缓存结果以提高性能的基本概念，但我正在努力解决如何处理不同的函数参数并确保底层数据更改时缓存更新。我已经实现了一个基本装饰器，它将函数结果存储在基于参数的字典。但是，此方法无法处理函数参数可能具有复杂结构（如嵌套列......
Python：__add__ 和 +，浮点数和整数的不同行为
当将整数值添加到浮点值时，我意识到如果在浮点上调用该方法可以正常工作，例如：__add__但如果在整数上调用则不行：>>>n=2.0>>>m=1>>>n.__add__(m)3.0起初我认为|||只是对>>>m.__add__(n)NotImplemented和__add__类型的实现方式不同（例如f......
python中scrapy爬取数据get()与getall()区别
在使用scrapy进行爬取数据的时候，有些时候需要爬取的是一段文本，或者一个div里面有很多内容，这时候我们就要使用到get()或者getall()来获取数据： get():是获取的满足条件的第一个数据。getall():是获取的满足条件的所有数据。scrapyget()getall()原理在Scrapy中，get(......
python—NumPy基础（3）
文章目录算术函数算术函数的使用算术函数中out参数的使用mod()函数的使用统计函数power()函数的使用median()函数的使用mean()函数的使用函数的使用其他常用函数tile()和repeat()函数的使用roll()函数的使用resize()函数的使用replace()和put()函数的使savetxt()和lo......
Python爬虫：代理ip电商数据实战
引言：数据访问管理引发的烦恼作为一名Python博主，爬虫技能对于获取和分析数据至关重要，经常爬一下，有益身心健康嘛。爬虫技术对很多人来说，不仅仅是一种工具，更像是一种艺术，帮助我们从互联网中，捕捉到有价值的信息。我经常就会用爬虫来爬取一些所需的数据，用来进行数据分析和模型训......
python科学计算：加速库numba —— 安装和试用
安装（anaconda环境下）condainstallnumbaDemo代码：fromnumbaimportjitfromnumpyimportarangeimportnumpyimporttime@jitdefsum2d(arr):M,N=arr.shaperesult=0.0foriinrange(M):forjinrange(N):result+=a......
Python - Selenium抓取淘宝直播间评论（可使用无头模式）
Python-Selenium抓取淘宝直播间评论（可使用无头模式）下面介绍如何使用python中的selenium简单抓取淘宝直播间实时评论。友情提醒，仅供学习交流使用，请勿用于非法用途！一、创建python项目1.在目录下新建main.py和venv虚拟环境：创建虚拟环境：python-mvenvvenv激活虚拟环......
需要帮助来提取此 XML 节点 - Python 中的 Excel 连接字符串
我有一个Python程序，打开Excel(XLSX)文件，并尝试查找<connection>节点。这是connections.xml文件中的完整XML。<?xmlversion="1.0"encoding="UTF-8"standalone="yes"?><connectionsxmlns="http://schemas.op......
【python】Python中采集Prometheus数据，进行数据分析和可视化展示
✨✨欢迎大家来到景天科技苑✨✨......
使用python3拼接rgb.txt与depth.txt为associate.txt(适用于GCNV2_SLAM中TUM数据集的运
这里以GCNV2_SLAM中TUM数据集的运行为例子：安装gnv2_slam可以参考：GCNv2_SLAM-CPU详细安装教程(ubuntu18.04)-CSDN博客首先下载数据集ComputerVisionGroup-DatasetDownload下载后通过该命令解压：tar-xvfrgbd_dataset_freiburg1_desk.tgz打开后，你可以发现：在该数据集......

MultiLabelBinarizer：inverse_transform 如何获得根据概率排序的标签列表？

相关文章

赞助商

阅读排行