机械学习—零基础学习日志008（PAC模型）

时间：2024-07-07 23:30:10浏览次数：25

标签：问题多项式模型拿到机械学习 PAC NP 008

PAC模型——概率近似正确模型

$P(| f(x) - y | \leq \epsilon ) \geq 1 - \delta$

拿到一个数据 $x$ ，得到一个模型 $f(x)$ ， $y$ 是真实的结果。

因此 $| f(x) - y | \leq \epsilon$ 可以表示成预测结果准不准的公式。

比方说西瓜切开之后，是不是好西瓜就是y ，而这个根据颜色，纹理，根蒂，判断西瓜好不好就是模型f(x)。

表示式希望其差别小于一个很小的数，比如说0.0001，那非常准确，如果差值为0，那是绝对正确。

我们希望得到f(x)，但是并不是每一次都可以得到。因此，我们是希望有更高的概率得到f(x)。于是得到公式：

$P(| f(x) - y | \leq \epsilon ) \geq 1 - \delta$

即，得到一个相对准确的f(x)模型的概率很高，在 $\delta$ 很小的时候，就大概率能拿到对应的f(x)。如果 $\delta$ 为0，那就绝对能拿到f(x)。

由此产生两个疑问：

第一， $| f(x) - y | \leq \epsilon$ 为什么不能得到0；

第二，为什么f(x）是概率能拿到，而不是一定能拿到？

首先，机械学习有高复杂性，高度不确定性。

周老师举例，故障诊断有三个指标，其中如果温度超过90度，一定会出问题。这是确定的知识，规则，确定的公式。但是很多时候问题并不清晰，例如，低于90度出问题，高于90度不会出问题。、

现实有很多因素起作用，而我们又不清楚具体是什么样的作用时，我们才会使用机械学习。

知识已经不能给我精确结果，希望从数据里分析，希望数据能拿到答案，那就不能指望是百分百准确的，因为这不是清楚了解的问题。

从计算要求看，还有P 是否等于 NP 的问题。

通俗点理解，P问题是在多项式时间里，能找到问题的解。

NP问题是多项式时间里，给一个解，判断是不是解。

以谷歌搜索为例，P问题是在多项式时间里找到最佳搜索结果，NP问题是给一个搜索结果，在多项式时间里，判断是不是最佳结果。显然都不能，所以很多问题难度是NP问题之外。

最后可以得到，如果 $\epsilon$ 和 $\delta$ 都为零，那P = NP，甚至于等于NP以外的内容，这是不正确的。因此这里解答了第二个疑问。

注：多项式时间（Polynomial time）在计算复杂度理论中是一个衡量算法运行时间的概念。当一个问题可以被一个算法解决，而这个算法的运行时间随着输入大小的增长而以多项式的速率增长，那么我们说这个算法在多项式时间内解决了这个问题。

书籍参考：《机械学习》周志华清华大学出版社 2016年版

视频参考：周志华老师亲讲-西瓜书全网最详尽讲解-1080p高清原版《机器学习初步》 B站

标签：问题,多项式,模型,拿到,机械学习,PAC,NP,008
From： https://blog.csdn.net/AI_freshfish/article/details/140253909

Apache Drill 2万字面试题及参考答案
目录什么是ApacheDrill？ApacheDrill的主要特点是什么？ApacheDrill如何实现对复杂数据的查询？描述ApacheDrill的数据存储模型。为什么ApacheDrill被称为自服务的SQL查询引擎？ApacheDrill支持哪些类型的数据源？解释ApacheDrill中的“schemadiscovery”功能。如何在Apa......
Apache/InLong InLong Manager 支持配置 Flink 任务并发度/Adjust sort resources acc
audit已经实现了对于InLong系统的Agent、DataProxy、Sort模块的入流量、出流量进行实时审计对账。对账的粒度有分钟、小时、天三种粒度。audit的数据缓存在org.apache.inlong.audit.cache的各个类中，有DayCacheHalfHourCache等等请求audit数据的api在org.apache.inlong.audit.......
Ubuntu 22.04.4 LTS 安装 php apache LAMP 环境nginx
1安装php-fpmaptupdateapt-getinstallphp-fpm#配置php-fpm服务启动systemctlenablephp8.1-fpmsystemctlstartphp8.1-fpm#查看服务systemctlstatusphp8.1-fpm#查看版本root@iZbp1g7fmjea77vsqc5hmmZ:~#php-vPHP8.1.2-1ubuntu2.18(cli)(built:......
Webpack: 使用 SplitChunks提升应用性能
概述Webpack默认会将尽可能多的模块代码打包在一起，优点是能减少最终页面的HTTP请求数，但缺点也很明显：页面初始代码包过大，影响首屏渲染性能；无法有效应用浏览器缓存，特别对于NPM包这类变动较少的代码，业务代码哪怕改了一行都会导致NPM包缓存失效。为此，Webpack提供了S......
Apache Doris 实时数仓场景建设四大新体系 & 湖仓一体化建设四大落地解决方案
原文：https://mp.weixin.qq.com/s/PT9efWW8IPWUZOpnPzGMJg之前我们讲了很多构建方面的经验，但是在湖仓一体化建设上没有过多的去描述具体怎样演进，怎样落地，能做哪些事，那今天这篇就来详细唠唠基于ApacheDoris的湖仓演进方案，至最后演进至AllInOneDoris的架构。ApacheDoris......
SpringBoot, Maven, Apache 之间的关系，SpringBoot 简介
SpringBoot是什么？SpringBoot是一种基于Spring框架的开源框架，用于快速创建独立的、生产级别的Spring应用程序。SpringBoot可以自动配置大部分Spring应用程序所需的常见功能和库，从而减少了开发人员的工作量和时间。SpringBoot提供了一种“约定优于配置”的方式，使得开发人员可......
Apache HTTP Server 使用
安装macOS:brewinstallapache2Ubuntu:sudoaptinstallapache2使用配置文件路径：macOS:/opt/homebrew/etc/httpd/httpd.confUbuntu:/etc/apache2/apache2.confDocumentRoot:macOS:/opt/homebrew/var/wwwUbuntu:/var/wwwmacOS:brewservicesstarthttpd......
Apache DolphinScheduler 与 AWS 的 EMR/Redshift 集成实践分享
引言这篇文章将给大家讲解关于DolphinScheduler与AWS的EMR和Redshift的集成实践，通过本文希望大家能更深入地了解AWS智能湖仓架构，以及DolphinScheduler在实际应用中的重要性。AWS智能湖仓架构首先，我们来看一下AWS经典的智能湖仓架构图。这张图展示了以S3为核心的数据湖，围绕数......
C++ 空间和时间高效的二项式系数（Space and time efficient Binomial Coefficient）
这里函数采用两个参数n和k，并返回二项式系数C(n,k)的值。例子：输入：n=4和k=2输出：6解释：4C2等于4!/(2!*2!)=6输入：n=5和k=2输出：10解释：5C2等于5!/(3!*2!)=10 在本文中，我们讨论了O(n*k)时间和O(k)额外空间算法。C(n,......
Java 空间和时间高效的二项式系数（Space and time efficient Binomial Coefficient）
这里函数采用两个参数n和k，并返回二项式系数C(n,k)的值。例子：输入：n=4和k=2输出：6解释：4C2等于4!/(2!*2!)=6输入：n=5和k=2输出：10解释：5C2等于5!/(3!*2!)=10 在本文中，我们讨论了O(n*k)时间和O(k)额外空间算法。C(n,......

机械学习—零基础学习日志008（PAC模型）

PAC模型——概率近似正确模型

相关文章

赞助商

阅读排行