首页 > 其他分享 >机器学习策略篇:详解满足和优化指标(Satisficing and optimizing metrics)

机器学习策略篇:详解满足和优化指标(Satisficing and optimizing metrics)

时间:2024-02-29 09:45:35浏览次数:25  
标签:学习策略 optimizing 准确度 指标 毫秒 满足 Satisficing 分类器 唤醒

满足和优化指标

要把顾及到的所有事情组合成单实数评估指标有时并不容易,在那些情况里,发现有时候设立满足和优化指标是很重要的,让我告诉是什么意思吧。

假设已经决定很看重猫分类器的分类准确度,这可以是\(F_1\)分数或者用其他衡量准确度的指标。但除了准确度之外,还需要考虑运行时间,就是需要多长时间来分类一张图。分类器\(A\)需要80毫秒,\(B\)需要95毫秒,\(C\)需要1500毫秒,就是说需要1.5秒来分类图像。

可以这么做,将准确度和运行时间组合成一个整体评估指标。所以成本,比如说,总体成本是\(cost= accuracy - 0.5 \times\text{runningTime}\),这种组合方式可能太刻意,只用这样的公式来组合准确度和运行时间,两个数值的线性加权求和。

还可以做其他事情,就是可能选择一个分类器,能够最大限度提高准确度,但必须满足运行时间要求,就是对图像进行分类所需的时间必须小于等于100毫秒。所以在这种情况下,就说准确度是一个优化指标,因为想要准确度最大化,想做的尽可能准确,但是运行时间就是所说的满足指标,意思是它必须足够好,它只需要小于100毫秒,达到之后,不在乎这指标有多好,或者至少不会那么在乎。所以这是一个相当合理的权衡方式,或者说将准确度和运行时间结合起来的方式。实际情况可能是,只要运行时间少于100毫秒,的用户就不会在乎运行时间是100毫秒还是50毫秒,甚至更快。

通过定义优化和满足指标,就可以给提供一个明确的方式,去选择“最好的”分类器。在这种情况下分类器B最好,因为在所有的运行时间都小于100毫秒的分类器中,它的准确度最好。

所以更一般地说,如果要考虑\(N\)个指标,有时候选择其中一个指标做为优化指标是合理的。所以想尽量优化那个指标,然后剩下\(N-1\)个指标都是满足指标,意味着只要它们达到一定阈值,例如运行时间快于100毫秒,但只要达到一定的阈值,不在乎它超过那个门槛之后的表现,但它们必须达到这个门槛。

这里是另一个例子,假设正在构建一个系统来检测唤醒语,也叫触发词,这指的是语音控制设备。比如亚马逊Echo,会说“Alexa”,或者用“Okay Google”来唤醒谷歌设备,或者对于苹果设备,会说“Hey Siri”,或者对于某些百度设备,用“好百度”唤醒。

对的,这些就是唤醒词,可以唤醒这些语音控制设备,然后监听想说的话。所以可能会在乎触发字检测系统的准确性,所以当有人说出其中一个触发词时,有多大概率可以唤醒的设备。

可能也需要顾及假阳性(false positive)的数量,就是没有人在说这个触发词时,它被随机唤醒的概率有多大?所以这种情况下,组合这两种评估指标的合理方式可能是最大化精确度。所以当某人说出唤醒词时,的设备被唤醒的概率最大化,然后必须满足24小时内最多只能有1次假阳性,对吧?所以的设备平均每天只会没有人真的在说话时随机唤醒一次。所以在这种情况下,准确度是优化指标,然后每24小时发生一次假阳性是满足指标,只要每24小时最多有一次假阳性就满足了。

总结一下,如果需要顾及多个指标,比如说,有一个优化指标,想尽可能优化的,然后还有一个或多个满足指标,需要满足的,需要达到一定的门槛。现在就有一个全自动的方法,在观察多个成本大小时,选出"最好的"那个。现在这些评估指标必须是在训练集或开发集或测试集上计算或求出来的。所以还需要做一件事,就是设立训练集、开发集,还有测试集。

标签:学习策略,optimizing,准确度,指标,毫秒,满足,Satisficing,分类器,唤醒
From: https://www.cnblogs.com/oten/p/18042721

相关文章

  • 机器学习策略篇:详解单一数字评估指标(Single number evaluation metric)
    单一数字评估指标无论是调整超参数,或者是尝试不同的学习算法,或者在搭建机器学习系统时尝试不同手段,会发现,如果有一个单实数评估指标,进展会快得多,它可以快速告诉,新尝试的手段比之前的手段好还是差。所以当团队开始进行机器学习项目时,经常推荐他们为问题设置一个单实数评估指标。......
  • 机器学习策略篇:详解正交化(Orthogonalization)
    正交化这是一张老式电视图片,有很多旋钮可以用来调整图像的各种性质,所以对于这些旧式电视,可能有一个旋钮用来调图像垂直方向的高度,另外有一个旋钮用来调图像宽度,也许还有一个旋钮用来调梯形角度,还有一个旋钮用来调整图像左右偏移,还有一个旋钮用来调图像旋转角度之类的。电视设计......
  • 机器学习策略篇:详解为什么是ML策略?(Why ML Strategy?)
    为什么是ML策略?从一个启发性的例子开始讲,假设正在调试的猫分类器,经过一段时间的调整,系统达到了90%准确率,但对的应用程序来说还不够好。可能有很多想法去改善的系统,比如,可能想去收集更多的训练数据吧。或者会说,可能的训练集的多样性还不够,应该收集更多不同姿势的猫咪图片,或者更......
  • 【ChatGPT 默认强化学习策略】PPO 近端策略优化算法
    PPO近端策略优化算法PPO=概率比率裁剪+演员-评论家算法演员-评论家算法:多智能体强化学习核心框架概率比率裁剪:逐步进行变化的方法PPO目标函数的设计重要性采样KL散度 PPO=概率比率裁剪+演员-评论家算法论文链接:https://arxiv.org/abs/1707.06347OpenAI提出PPO旨在......
  • Reinforcement Learning in Energy Management: Optimizing Grid Operations and Redu
    1.背景介绍Reinforcementlearning(RL)isasubfieldofmachinelearningthatfocusesonhowagentsoughttotakeactionsinanenvironmentinordertomaximizesomenotionofcumulativereward.Inrecentyears,reinforcementlearninghasbeenappliedtoawid......
  • 【转载】八种生成学习策略
    本文发表于《数字教育》2016年第3期(总第9期)域外观察 栏目,页码:86-92.摘要:生成学习意味着学习者会积极尝试去理解所呈现的材料内容。学习者会通过在学习时对所呈现材料进行相关部分的“选择”,在工作记忆中进行心理表征的“组织”,再将所组织的材料与长时记忆中激活的已有知识进行......
  • Optimizing Disk I/O tmp_table_size max_heap_table_size 磁盘使用率
     RDSMySQL临时文件导致实例磁盘空间满且出现“锁定中”状态https://help.aliyun.com/document_detail/101763.htmlRDSMySQL临时文件导致实例磁盘空间满且出现“锁定中”状态更新时间:2023-05-2611:22产品详情相关技术圈 问题描述阿里云云数据库RDSMySQL......
  • 蝴蝶优化算法(BOA)文章复现(改进Tent混沌初始化种群+自适应权重w、p+最优领域扰动策略
    蝴蝶优化算法(BOA)文章复现(改进Tent混沌初始化种群+自适应权重w、p+最优领域扰动策略+透镜反向学习策略)——ORBOA复现内容包括:文章改进BOA算法实现、23个基准测试函数、文中相关因子分析、文中混沌特性分析、与BOA对比等。代码基本上每一步都有注释,非常易懂,代码质量极......
  • 正余弦优化算法(SCA)文章复现(反向学习策略初始化种群+a参数非线性化+反向学习扰动策
    正余弦优化算法(SCA)文章复现(反向学习策略初始化种群+a参数非线性化+反向学习扰动策略+精英混沌搜索策略)——COSCA复现内容包括:文章改进SCA算法实现、23个基准测试函数、文中相关因子分析、与SCA对比等。代码基本上每一步都有注释,非常易懂,代码质量极高,便于新手学习和理......
  • 麻雀搜索算法(SSA)文章复现:《改进的麻雀搜索优化算法及其应用_尹德鑫》,策略为:反向学习
    麻雀搜索算法(SSA)文章复现:《改进的麻雀搜索优化算法及其应用_尹德鑫》,策略为:反向学习策略初始化+改进警觉者更新策略+Levy飞行策略——ISSA复现内容包括:文章改进SSA算法实现、23个基准测试函数、改进策略因子画图分析、文中各混沌图分析、与SSA对比等。代码基本上每一步......