首页 > 其他分享 >机械学习—零基础学习日志(概率论总笔记1)

机械学习—零基础学习日志(概率论总笔记1)

时间:2024-08-31 23:52:01浏览次数:5  
标签:误差 概率 拉普拉斯 机械学习 试验 事件 日志 概率论

概率论的起源

在历史上有明确记载的最早研究随机性的数学家是帕斯卡和费马。帕斯卡就是最早发明机械计算机的那位数学家,他并不是赌徒,但是他有些赌徒朋友,那些人常常玩一种掷骰子游戏,游戏规则是由玩家连续掷4次骰子,如果其中没有6点出现,玩家赢,如果出现一次6点,则庄家赢。

在这个赌局中,由于双方的赢面差不多,不是大家能够凭直觉判断准的,因此玩家并不觉得吃亏,甚至还觉得赢面大一些。但是,只要时间一长,庄家总是赢家,玩家注定是输家。1654年,一位赌徒朋友就向帕斯卡请教,是否能证明庄家的赢面更大?

帕斯卡经过计算,发现庄家的赢面还真是稍微大一点,大约是52%vs48%。大家不要小看这多出来的四个百分点,累积起来,能聚敛很多财富。在研究赌局概率的过程中,帕斯卡和费马有很多通信,今天一般认为他们二人创立了概率论。

概率论的发展

著名的启蒙学者伏尔泰是当时最精通数学的人之一,他算出了法国政府彩票的漏洞,找到了一些只赚不赔的买彩票的方法,赚了一辈子也花不完的钱。伏尔泰一生没有担任任何公职,或者做生意,但是从来没有为钱发过愁。这让他能够专心写作,研究学问。

从18世纪末到19世纪,数学家们对概率论产生了浓厚的兴趣,像法国的伯努利、拉普拉斯和泊松等人,德国的高斯,以及俄罗斯的切比雪夫和马尔可夫等人,都对概率论的发展有很大的贡献。经过他们共同的努力,概率论的基础理论逐渐建立起来,很多实际的问题也得到了解决。

在这些人中,划时代的人物是拉普拉斯。拉普拉斯是一位了不起的科学家,但是却又热衷于当官。他有一个著名的学生叫做拿破仑,靠这层关系他后来当上了政府的部长。不过,他的政绩不太好,因此拿破仑讲,他是一个伟大的数学家,但却是一个不太称职的部长。不过,拉普拉斯一生在科学上的贡献还是非常大的,比如关于宇宙构成的星云说,就是由他完成的。

当然他最为人所知的是以他的名字命名的拉普拉斯变换。在概率论方面,拉普拉斯定义了什么是概率,以及它该如何计算。在拉普拉斯之前,人们对“有可能”和“概率大”是分不清的。其实你今天问一些人,买彩票中彩的概率是多少?他依然会说50%,因为只有中彩和不中彩两种情况。

拉普拉斯是如何定义概率的呢?他先定义了一种可能性相同的基本随机事件,也称为单位事件。

古典概率计算公式

每一种不可再分,都是单位事件。单位事件的概率称为原子概率

拉普拉斯对于概率论的描述其实有不少漏洞,比如在现实中是否存在着可能性完全相等的单位事件,这本身就是一个大问号。

为了说明一个随机事件A的概率,用了等可能性的单位事件这个说法。但是在没有概率的定义之前,等可能性又从何谈起?

现代概率论发展

统计学的规律只有经过了大量随机试验才能得出,也才有意义。但是随机试验得到的结果,和我们用古典概率算出来的结论可能是两回事。不仅你掷10次硬币大部分时候不可能得到五次正面朝上的结果,你做其它随机试验也是如此。

抛硬币,每次正面朝上的概率是1/2;掷骰子,事件A是“六点朝上”,它出现的概率每次也是1/6。当然事件B就是其它点朝上,每次的概率是5/6。在一般情况下,出现A的概率是p,B的概率是1-p。这类试验后来被称为伯努利试验。

如果我们把从0次正面朝上,也就是说全部是背面朝上,到10次全是正面朝上的可能性的图像画出如下。

中间高两头低的曲线,满足这种曲线的概率分布,被称为伯努利分布,也称为二项式分布,因为每一次试验的结果有两种。

所有有一个重要结论:有关不确定性的规律,只有在大量随机试验时才显现出来,当试验的次数不足,它则显现出偶然性和随意性。

第一个概念就是平均值或者叫做数学期望值,也就是N*p,因为概率是p的事件进行N次试验后,平均发生的次数,也是最可能发生的次数,好,这是N*p。接下来我们再用平方差(简称方差)这个概念来描述曲线的“鼓”与“平”。

方差其实是对误差的一种度量,既然是误差,就要有可对比的基点,在概率中,这个基准点就是数学期望值(简称期望值),也就是我们通常说的平均值。

如果我们做10次试验只出现4次正面朝上的情况,就有了误差,误差是1。如果9次正面朝上,那么误差就大了,就是4。好了,接下来我们就把各种误差,和产生那些误差的可能性一起考虑,做一个加权平均,算出来的“误差”就是平方差。

之所以使用“平方”这个词,是因为计算方差这种误差时用到了平方,为了进一步方便误差和平均值的比较,我们通常会对方差开根号一次,这样得到的结果被称为标准差(严格来讲,方差开根号后和标准差还是略有差别,但是这个差别很小,为了便于理解,我们就假定标准差是方差开根号的结果)。

什么是理想呢?我们进行N次伯努利试验,每一次事件A发生的概率为p,N次下来发生了N*p次,这就是理想。那么什么是现实呢?由于标准差的影响,使得实际发生的次数严重偏离N*p,这就是现实。

就是越是小概率事件,你如果想确保它发生,需要试验的次数比理想的次数越要多得多。

从生活的角度来看,提高单次成功率要远比多做试验更重要。

很多人喜欢赌小概率事件,觉得它成本低,大不了多来几次,其实由于误差的作用,要确保小概率事件发生,成本要比确保大概率事件的发生高得多。

什么是泊松分布?

泊松分布是这样定义的:如果随机事件A发生的概率是p,进行n次独立的试验,恰巧发生了k次,则相应的概率可以用这样一个公式来计算:

假如说公司门口有10个停车位,公司有100个上班的员工,每个员工早上8点钟之前开车来上班的概率是10%。当然,正如我们昨天所说,他们每天什么时候来公司不仅是随机的,而且彼此无关,不存在两个人商量之后一起到的情况,而且也不存在头一天来晚了没抢到停车位,第二天早到的可能性。

现在,你是这家公司的新员工,早上8点整开车到了公司,请问停车场还有车位的概率是多大?

根据泊松分布的计算,积累的概率是0.46.

很多人投资总是失败,判定一件事发生的可能性总是有很大的误差,一个重要的原因就是靠直觉和有严重漏洞的逻辑,而不是靠严密的数学逻辑和推导。

生活启发:应对随机性,需要的冗余比你想的要大。

主要参考:《数学通识50讲》吴军 ——得到 ,概率论章节

墙裂推荐大家去学习《数学通识50讲》,吴军老师讲解得超级超级好!

标签:误差,概率,拉普拉斯,机械学习,试验,事件,日志,概率论
From: https://blog.csdn.net/AI_freshfish/article/details/141720065

相关文章

  • 机械学习—零基础学习日志(如何理解概率论12)
    假设检验假设检验是有一些参数,已知条件,让你检验某种假设是否成立。我们通过具体的题目来说明:这里我们需要确认使用什么公式:使用下面的公式如下图:题目中,以21作为分界线,所以我们将是21与不是21两种对应的数值进行计算。具体计算使用到图中的公式。算出对应的数值,然后比......
  • C#应用实战,手把手教你如何:在日志中写入内容
    使用c#编写一个方法,该方法有一个形参。要求:1定义一个文件目录:D/MesData。如果该目录不存在,则创建一个目录。2读取目录下的MesLog.TXT文件,如果该文件不存在,则创建一个文件。3定义一个字符串str,它由当前时间以及方法的形参组成4将字符串str添加到MesLog.TXT文件内容的末尾......
  • 高并发系统-使用自定义日志埋点快速排查问题
    背景在高并发的系统中,通常不会打印除参数校验失败或捕获异常之外的日志,防止对接口的性能产生影响。那对于请求不符合预期的情况,我们如何快速找到是哪块逻辑影响的至关重要。Pfinder提供的链路监控,更多的是性能层面的监控,无法满足我们上述的诉求。下面我将通过自定义通用上下文,添加......
  • 设置 Nginx、MySQL 日志轮询
    title:设置Nginx、MySQL日志轮询tags:author:ChingeYangdate:2024-8-301.Nginx设置日志轮询机器直接安装的:/etc/logrotate.d/nginx/var/log/nginx/*.log{dailymissingokrotate30compressdelaycompressno......
  • Windows安全日志分析实战:15个关键事件ID详解
    Windows安全日志分析实战:15个关键事件ID详解原创 VlangCN HW安全之路  2024年08月27日07:30 山东各位读者朋友们好,我是v浪。都2024年了,浪哥估计又阳了。但是没关系,今天同样大家带来一篇实用性很强的文章-Windows关键事件ID盘点。作为网络安全从业人员,了解这些......
  • Linux日志的查看方法
    使用cat命令:显示文件内容,适合快速查看文件开头部分或结合管道命令如grep进行过滤。cat/var/log/syslog|greperror使用tail命令:查看文件末尾部分,常用于查看最新的日志信息。-f选项可实时跟踪日志更新。tail-n50/var/log/syslogtail-f/var/log/syslog使用head......
  • SpringBoot记录日志
    @Target({ElementType.METHOD})@Retention(RetentionPolicy.RUNTIME)public@interfaceLog{//自定义操作日志记录注解publicStringtitle();//模块名称publicOperatorTypeoperatorType()defaultOperatorType.MAN......
  • [转帖]11GR2数据库审计日志自动清理
    审计日志如果把SYSTEM表空间撑爆,也会导致数据库停摆,且11g默认审计是开启状态。今天就遇到了这样的情况,写了下面脚本来实现自动清理工作,记录操作过程。TRUNCATETABLESYS.AUD$REUSESTORAGE;--对于已经被审计日志撑爆的数据库或者初始化清理工作时报错ORA-46267,强烈建议用......
  • oceanbase-3分钟带你看懂 GC 日志!
    3分钟带你看懂GC日志!------------------------------------------------------------------------------------ 01、背景介绍在之前的几篇文章中,我们介绍了 JVM内部布局、对象的创建过程、运行期的相关优化手段、垃圾对象的回收算法以及垃圾收集器等相关知识。那么如何......
  • Dell服务器导出日志
    iDRAC接口为网口准备工作:注:此文档适用于iDRAC接口为网口且与电源接口同侧的Dell服务器,如:R740带网口的笔记本电脑网线跳线操作方法:网线一端连接笔记本电脑,另一端连接服务器的iDRAC接口;查看笔记本电脑是否自动获取到192.168.0.*的ip地址,未获取到需设置同段的固定ip地址,如:1......