首页 > 其他分享 >机器学习模型的性能评估方法

机器学习模型的性能评估方法

时间:2023-03-20 22:46:04浏览次数:50  
标签:分数 机器 模型 估计 置信度 方法 性能 评估

动动发财的小手,点个赞吧!

部署模型后,监控其性能对于确保 ML 系统的质量起着至关重要的作用。要计算准确度、精确度、召回率或 f1 分数等指标,需要标签。但是,在许多情况下,标签可能不可用、部分可用或延迟提供。在这些情况下,估计模型性能的能力会很有帮助。

在这篇文章中,将讨论在没有真实数据的情况下估计性能的可能方法。

1. NannyML

NannyML 是一个 Python 包,用于检测静默模型故障、估计没有标记数据的部署后性能以及检测数据漂移。目前,NannyML 有两种性能估计方法:Confidence-based Performance Estimation (CBPE) 和 Direct Loss Estimation (DLE)。

2. 基于置信度的性能估计

顾名思义,此方法利用模型预测的置信度分数来执行性能估计。

  • 注意事项:
    • 置信度作为概率:置信度分数应该代表概率——例如如果大量观察的分数为 0.9,则大约 90% 的时间都是正确的。
    • 良好校准的概率:另一个要求是分数应该经过良好校准,但情况可能并非总是如此。好消息是,如果需要,NannyML 会在内部执行校准。
    • 没有协变量转移到空间中以前看不见的区域:例如,如果您的模型是针对 10-70 岁的人进行训练的,并且在生产中,您的观察对象是 70 岁以上的人,则这种方法可能无法提供可靠的估计
    • 没有概念漂移:如果模型的输入和目标之间的关系发生变化,这种方法可能无法提供可靠的估计(我个人不知道有什么方法可以)
    • 不适合回归模型:回归模型通常不会固有地输出置信度分数,只会输出实际的预测,这使得这种方法的使用对于这种情况来说并非易事。

3. 直接损失估算

这种方法背后的直觉是训练一个额外的 ML 模型,其任务是估计监控模型的损失。额外的模型称为 Nanny 模型,而受监控的模型是 Child 模型。

  • 注意事项:
    • 额外模型:需要训练额外的模型来估计原始模型的损失,这会增加系统的复杂性。但是,模型不必比原始模型好,在许多情况下,它可以是一个简单的过程。
    • 适合回归:这种方法非常适合回归任务。例如,可以训练保姆模型来预测 MSE(均方误差)或 MAE(平均绝对误差)。
    • 没有协变量转移到空间中以前看不见的区域:对 CBPE 所做的相同考虑也适用于此方法
    • 无概念漂移:对 CBPE 所做的相同考虑也适用于此方法
    • 具有不同性能的区域:受监控模型在不同区域应具有不同的性能。例如,如果您的模型根据一天中不同季节的不同时段表现得更好或更差。

本文由mdnice多平台发布

标签:分数,机器,模型,估计,置信度,方法,性能,评估
From: https://www.cnblogs.com/swindler/p/17238245.html

相关文章

  • books模型表之抽象表用法
    1.抽象表建立的原因:   2.抽象表的建立:关键点: classMeta:'''抽象表,迁移的时候不会在数据库生成表'''abstract=True  3.其他表不再继承models.M......
  • 达观数据陈运文:探索大语言模型,“对症下药”很关键
    内容来源:ChatGPT及大模型专题研讨会 分享嘉宾:达观数据董事长兼CEO陈运文博士分享主题:《探索大语言模型垂直化训练技术和应用》 转载自CSDN稿件本文整理自3月11日《Cha......
  • 盒子模型——页面布局的灵魂
       ......
  • 如何把自有数据接入GPT大模型?
    ChatGPT引发了AI革命,众人皆想探究如何让它发挥更大价值。以它为代表的大模型并未完全掌握所有专业知识,这也正是我们创业的契机。我们应该思考如何让AI在专业领域中释放......
  • 自主移动机器人AMR控制器设计与试验(一)
    近年来,随着社会和技术发展,自主移动已经成为了仓储物流[1]、无人驾驶[2]、快递配送[3]等众多领域中机器人需要具备的一项重要能力,同时也对其长期鲁棒性提出......
  • SNMPv3基于用户的安全模型USM(2)
    SNMPv3基于用户的安全模型USM(2)SNMPv3MessageFormat  一个SNMPv3的Message包括以下部分:1)msgVersion2)msgID3)msgMaxSize发送方支持的最大消息长......
  • Stable Diffusion--模型
    模型的分类1.大模型文件大小:几个G作用:决定了AI图的主要风格常见后缀名:.cpkt,.safetensors存放路径:..\models\Stable-diffusion模型切换Lora模型Low-RankAdaptat......
  • 基于ARM+FPGA的移动机器人控制器设计
    XM-AMR-5728系列控制器是为移动机器人(AMR、智能叉车等)设计的通用控制器,为移动机器人提供地图构建、定位导航、模型编辑等核心功能。本产品将移动机器人的核心组件集成于一......
  • Elasticsearch 集群规划- 单台机器核心数计算公式
    在做集群规划的时候,到底需要给集群的每个节点多少个核心数?这个问题一直困扰了我很久。最近一段时间做千亿数据,PB存储量集群规划的时候,突然想明白了这件事,大致可以用一个......
  • Matter 安全模型(转自乐鑫博客)
    Matter是一个关注安全与隐私的互联协议,采用了密码学机制,能够确保安全地实现:受信设备受信控制器隐私通讯这篇文章中,我们将通过Matter的安全模型,向大家介绍如何在M......