首页 > 其他分享 >数据分析------统计学知识点(四)

数据分析------统计学知识点(四)

时间:2024-06-11 20:33:26浏览次数:11  
标签:数据分析 知识点 预测 召回 模型 TP 正类 类别 ------

数据算法基础

1.准确率与置信区间

当评估一个算法的性能时,通常首先考虑准确率(Accuracy),这是一个衡量模型整体预测准确性的指标。

(1)准确率(Accuracy)

表示正确预测的比例,公式:准确率=预测正确的样本数量/预测总的样本数量

准确率并不能总能有效地反映模型的性能,尤其在类别不平衡的数据集中

为更准确评估模型在特定类别上的表现,使用精确率(Precision)和召回率(Recall)

  • 混淆矩阵——是一个特定于二分类问题的表格,用于可视化模型性能
预测是类别A预测是类别B

实际是类别A

TP-True PositiveFN-False Negative
实际是类别BFP-False PositiveTN-True Negative

真正例(TP):模型正确地预测正类(类别A)

假负例(FN):模型错误地将正类(类别A)预测为负类(类别B)

假正例(FP):模型错误地将负类(类别B)预测为正类(类别A)

真负例(TN):模型正确地预测负类(类别B)

(2)精确率(Precision)

精确率是衡量在所有模型预测为正类的样本中,实际为正类的样本的比例

精确率=真正例(TP)/(假正例FP+真正例TP)

其中真正例TP表示正确预测为正类的样本数,假正例FP表示错误预测为正类的负类样本数。

精确率对于那些错误预测正类代价较高的任务尤为重要

(3)召回率(Recall)

尽管提高指令以消除所有假正例可以将精确率提升至100%,这看似能极大提升精度,然而这样做可能会大幅度降低模型的召回率。因为模型会变得过于谨慎。——>为避免这种过度保守的预测导致正类样本的遗漏,考虑召回率这一指标。

召回率衡量的是模型正确预测的正类样本(TP)占所有实际正类样本的比例,反映了模型对正类的检出能力。

召回率=真正例(TP)/(假负例FN+真正例TP)

其中假负例FN表示实际为正类但被模型预测为负类的样本数

召回率对于那些漏检正类代价较高的任务尤为重要

召回率衡量了模型的查全能力,即所有正类样本中,模型能正确识别出多少

目标:防止模型过于保守,以至于错过真正的正类样本。

精确率和召回率通常一起使用以全面评估模型性能,二者相互依存,往往需要找一个平衡点

一个单一的高指标并不足以定义一个好的模型,而是需要同时考虑减少假正例和假负例的能力确定模型的优劣。

(4)置信区间:预测的可信程度

精确率、召回率确实是评估算法性能的重要指标,但在实际应用中,它们并不足以全面评价算法的优劣。现实生活问题往往涉及到连续数值的预测,而不仅仅是分类问题。

置信区间是一种统计参数估计方法,它利用一个区间来预测参数的可能值,这个区间的可信度即为置信度。

一般来说,置信度和置信区间的宽度是通向变化,当置信度很高时,置信区间通常较宽;置信度较宽也意味着置信度较高。

标签:数据分析,知识点,预测,召回,模型,TP,正类,类别,------
From: https://blog.csdn.net/zfyzfw/article/details/139479766

相关文章

  • MFC案例:利用SetTimer函数编写一个“计时器”程序
    一、希望达成效果    利用基于对话框的MFC项目,做一个一方面能够显示当前时间;另一方面在点击开始按钮时进行读秒计时,计时结果动态显示,当点击结束时读秒结束并保持最后结果。二、编程步骤及相关代码、注释   1、启动VS->创建新项目->MFC应用-项目名称:MFCtimer->......
  • 【结构识别】Reconstructing propagation networks with natural diversity and ident
    摘要从数据中重构复杂网络结构和动力学的能力是理解和控制复杂系统集体动力学的基础。尽管最近在这方面取得了进展,但利用随机动态过程的有限时间序列重建网络仍然是一个尚未解决的问题。我们提出了一个基于压缩感知的框架去重构发生随机扩散动力学的复杂网络。我们将该方法应用于......
  • 储能变流器(PCS)的效率测试流程
    目录引言:    一般来说企业生产了一个电气产品,通常都需要进行效率测试,我想作用有以下几点:第一、方便用户了解产品性能;二、符合国内、美国或者欧盟的标准,才可以进行生产销售;三、是发布会的一个宣传点(可以与其它产品对标)。一、何为电气产品的效率?    一般来说,我......
  • 破解快手引流奥秘!最新全自动脚本,解放双手轻松搞定
    在快手的世界里,流量就是一切。想要快速吸粉、引流?你需要的不仅仅是好的内容,更需要一款好用到哭的引流神器!今天,给大家揭秘最新块手多功能全自动快手引流脚本,让你解放双手,轻松搞定各种引流操作。全自动养号,轻松运营:这款脚本具备快手养号功能,帮助你在短时间内养出高权重账号......
  • 八 个 MQTT 客户端工具
    一.如何选择一个MQTT测试客户端?   MQTT客户端工具常用于建立与MQTT服务器的连接,进行主题订阅、消息收发等操作。一个实用的MQTT客户端工具应该具备如下特性:支持加密连接;支持MQTT5特性;在功能全面的基础上保持易用性;支持多个客户端同时在线;跨平台,不同操作系......
  • C#——动态数组ArrayList
    动态数组动态数组:ArrayList,代表了可被单独索引的对象的有序集合,可以代替一个数组Array,动态数组可以使用索引在指定的位置添加或者删除元素,动态数组自动重新调整数组的大小声明声明方式1:不带参数初始数组 ArrayLista1=newArrayList();声明方式2:初始化的带上数......
  • C#——集合List
    listlist集合和Arraylist基本一样,只不过list是C#2.0版本新加入的范型类型。list也可以通过索引操作里面的元素,也有对list进行增删改查概念Array静态数组*Arraylist动态数组*list集合*1.Array是容量是固定的,但是ArrayList和list容量可以根据需要自动扩充,修改删除,插......
  • 搜索引擎是什么
    搜索引擎是一种信息检索系统,它允许用户通过关键词搜索互联网上的信息。搜索引擎通过爬取、索引、存储和检索网页内容,帮助用户快速找到所需的信息。搜索引擎是互联网上最常用的服务之一,对于获取信息、学习、研究和日常决策都至关重要。###搜索引擎的工作原理:1.**爬虫(Crawler......
  • 消息中间件 (如MQ)
    消息中间件(MessageQueuing,简称MQ)是一种在分布式系统中用于解耦应用组件、异步处理和提高系统扩展性的软件。它允许不同的服务或应用程序通过消息队列来交换数据,而不需要直接通信。###消息中间件的主要特点:1.**异步通信**: -消息发送者(生产者)将消息发送到队列,而消息接收......
  • C#实现多线程的几种方式(附完整源码)
    C#实现多线程的几种方式1.使用Thread类:2.使用ThreadPool类:3.使用Task类:以下是C#中实现多线程的几种常见方式的示例代码:1.使用Thread类:usingSystem;usingSystem.Threading;​classProgram{staticvoidMain(){Threadth......