最大似然估计和均方误差到底是什么关系

在学习机器学习的时候，我对这两个概念产生了强烈的迷惑。于是补习了相关的知识。
首先给出结论：“根据中心极限定理，误差服从正态分布，此时使得样本似然函数最大等价于使得MSE最小。《Deep Learning》

1.什么是最大似然估计

离散型

假设有一盒的小球编只有1和2，这个盒子无限大，每次取出小球都不会影响下一次拿球的概率（数学语言来说就是每次拿出小球的概率（数据与数据）之间都是独立的，但满足同一个分布，也叫做独立同分布，iid）。现在我依次取出小球：第一次取出编号为1，第二次编号为1，第三次编号为2，第四次编号为1，第五次编号为2。此时我们假设取出编号为1的小球的概率是θ，那么编号为2的小球概率为（θ-1）。我们可以得出L(θ)= θ³(θ-1)²。

我们知道，小盒无限大，我们不可能一一取出所有的小球，这样实在是太麻烦了。我们自然的希望，抽检的观测值就是真实的概率，有趣的是，它确实是这样的。对同一样本(小球)取样5次，出现的5次结果是在样本概率影响下产生的。在该未知的概率影响下，出现了这5次结果，说明这5次结果出现的概率最大（不然为什么没出现别的结果。那么在以此建立未知概率的表达式后（该表达式实际含义是，5次结果中每一次的概率相乘，也就是这5个结果同时发生的概率），该表达式达到最大值时，自变量的取值（也就是依据这几次实验计算出来的概率）就是最接近实际概率。是不是非常有趣？

指数函数很难处理，因此我们对两边分别取对数，由于ln函数单调递增，因此不会改变原函数的相对大小。
lnL（θ）= 3lnθ+2ln(θ-1)
两边分别求导后，得出θ=3/5！是不是正是和观测概率一样？