PAC模型——概率近似正确模型
拿到一个数据,得到一个模型, 是真实的结果。
因此 可以表示成预测结果准不准的公式。
比方说西瓜切开之后,是不是好西瓜就是y ,而这个根据颜色,纹理,根蒂,判断西瓜好不好就是模型f(x)。
表示式希望其差别小于一个很小的数,比如说0.0001,那非常准确,如果差值为0,那是绝对正确。
我们希望得到f(x),但是并不是每一次都可以得到。因此,我们是希望有更高的概率得到f(x)。于是得到公式:
即,得到一个相对准确的f(x)模型的概率很高,在 很小的时候,就大概率能拿到对应的f(x)。如果 为0,那就绝对能拿到f(x)。
由此产生两个疑问:
第一, 为什么不能得到0;
第二,为什么f(x)是概率能拿到,而不是一定能拿到?
首先,机械学习有高复杂性,高度不确定性。
周老师举例,故障诊断有三个指标,其中如果温度超过90度,一定会出问题。这是确定的知识,规则,确定的公式。但是很多时候问题并不清晰,例如,低于90度出问题,高于90度不会出问题。、
现实有很多因素起作用,而我们又不清楚具体是什么样的作用时,我们才会使用机械学习。
知识已经不能给我精确结果,希望从数据里分析,希望数据能拿到答案,那就不能指望是百分百准确的,因为这不是清楚了解的问题。
从计算要求看,还有P 是否等于 NP 的问题。
通俗点理解,P问题是在多项式时间里,能找到问题的解。
NP问题是多项式时间里,给一个解,判断是不是解。
以谷歌搜索为例,P问题是在多项式时间里找到最佳搜索结果,NP问题是给一个搜索结果,在多项式时间里,判断是不是最佳结果。显然都不能,所以很多问题难度是NP问题之外。
最后可以得到,如果 和 都为零,那P = NP,甚至于等于NP以外的内容,这是不正确的。因此这里解答了第二个疑问。
注:多项式时间(Polynomial time)在计算复杂度理论中是一个衡量算法运行时间的概念。当一个问题可以被一个算法解决,而这个算法的运行时间随着输入大小的增长而以多项式的速率增长,那么我们说这个算法在多项式时间内解决了这个问题。
书籍参考:《机械学习》 周志华 清华大学出版社 2016年版
视频参考:周志华老师亲讲-西瓜书全网最详尽讲解-1080p高清原版《机器学习初步》 B站
标签:问题,多项式,模型,拿到,机械学习,PAC,NP,008 From: https://blog.csdn.net/AI_freshfish/article/details/140253909