高等数学基础（1）

我们知道机器学习的特点就是：以计算机为工具和平台，以数据为研究对象，以学习为中心；是概率论，线性代数，数值计算，信息论，最优化理论和计算机科学等多个领域的交叉学科。所以这里我打算补充一下机器学习涉及到的一些常用的知识点。

对于人工智能必备数学基础这个专栏，我将自己的高等数学，线性代数，概率论与数理统计等笔记均会发布在这里，算是自己回顾一下之前的数学基础，也希望看到的盆友可以巩固一下机器学习的基础，别一路走来，只会深度学习炼丹了，我们还是要不忘初心，方得始终。哈哈哈。

　　（注意：目前自己补充到的所有知识点，均按照自己之前看的网课视频中老师课程知识点走的，大概是四年前了，并不是大学课本的搬运，只是快速总结。如有错误请多多指正，谢谢！）

1，函数

1.1 函数的定义

　　函数（function）的定义通常分为传统定义和近代定义，函数的两个定义本质是相同的，只是叙述概念的出发点不同，传统定义是从运动变换的观点出发。函数的近代定义是给定一个数据集A，假设其中的元素为x，对A中的元素施加对应法则 f ，记做 f(x)，得到另一数据集B，假设B中的元素为y，则 x 和 y 之间的等量关系可以用 y = f(x) 表示。函数概念含有三个要素：定义域A，值域B和对应法则 f 。其中核心为对应法则 f，它是函数关系的本质特征。

　　在一个变换过程中，发生变化的量叫变量（数学中，变量为 x ，而 y 则随 x 值的变化而变化），有些数值是不随变量而改变的，我们称他们为常量。

　　自变量（函数）：一个与它量有关系的变量，这一量中的任何一值都能在它量中找到对应的固定值。

　　因变量（函数）：随着自变量的变化而变化，且自变量取唯一值时，因变量（函数）有且只有唯一值与其对应。

　　函数值：在 y 是 x 的函数中，x 确定一个值，y 就随之确定一个值，当 x 取 a 时， y 就随之确定为 b，b 就叫做 a 的函数值。

　　注意：符号只是一种表示，任何符号都是帮助我们理解的，它本身没有特殊的含义。都是我们给予赋值操作，也可以如下：

1.2 常见的几种函数

　　分段函数：就是对于自变量x 的不同取值范围，有着不同的解析式的函数。它是一个函数，而不是几个函数；分段函数的定义域是各段函数定义域的并集，值域也是各段函数值域的并集。

　　反函数：一般来说，设函数 y = f(x) 的值域为C，若是找得到一个函数 g(y) 在每一处 g(y) 都等于 x，这样的函数 x = g(y) 叫做函数 y = f(x) 的反函数，记做 x = f-1(y)。反函数 x = f-1(y) 的定义域，值域分别为函数 y = f(x) 的值域，定义域。最具代表性的反函数就是对数函数与指数函数。

　　显函数与隐函数：显函数是函数的类型之一，解析式中明显的用一个变量的代数式表示另一个变量时，称为显函数；如果方程F(x, y) =0 能确定 y 是 x 的函数，那么称这种方式表示的函数是隐函数。

　　狄利克雷函数：是一个定义在实数范围内，值域不连续的函数。狄利克雷函数的图像以Y轴为对称轴，是一个偶函数，它处处不连续，处处极限不存在，不可黎曼积分。这是一个处处不连续的可测函数。

　　实数域上的狄利克雷（Dirichlet）函数表示为：

　　其中：k,j 为整数。

　　也可以简单的表示为分段函数的形式，如下：

　　狄利克雷函数的性质：

1，定义域为整个实数域R，值域为{0, 1}，函数为偶函数
2，无法画出函数周期，但是它的函数图像客观存在
3，以任意正有理数为其周期，无最小正周期（由实数的连续统理论可知其无最小正周期）
4，处处不连续，处处不可导，在任何区间内黎曼不可积
5，函数是可测函数
6，函数是周期函数，但是却没有最小正周期，它的周期是任意负有理数和正有理数。因为不存在最小负有理数和正有理数，所以狄利克雷函数不存在最小正周期

　　黎曼函数：是一个特殊函数，由德国数学家黎曼发现提出，黎曼函数定义在 [0, 1]上。黎曼函数在高数中被广泛应用，在很多情况下可以作为反例来验证某些函数方面的待证命题。

　　其基本定义如下：

　　正态分布：

　　（μ 是期望， σ2 是方差）

　　标准正态分布：

　　（μ 是期望=0， σ2 是方差=1）

1.3 函数的特性

有界性

　　设函数 f(x) 在区间 X 上有定义，如果存在 M>0，对于一切属于区间 X 上的 x，恒有 | f(x) | <= M，则称 f(x) 在区间 X上有界，否则称 f(x) 在区间上无界。

奇偶性

　　设 f(x) 为一个实变量实值函数，若此函数关于 y 轴对称，则称 f(x) 为偶函数。

　　　　　　 f(-x) = f(x)

　　偶函数例子：

　　设 f(x) 为一个实变量实值函数，若此函数关于原点对称，则称 f(x) 为奇函数。

　　　　　　 f(-x) = -f(x)

　　奇函数例子：

周期性

　　设函数 f(x) 的定义域为D。如果存在一个正数 T，使得对于任一 x 属于 D 有（x+-T）属于D，且 f(x + T) = f(x)恒成立，则称 f(x) 为周期函数， T称为 f(x) 的周期，通常我们说周期函数是指最小正周期。公式如下：

　　周期函数的定义域 D为至少一边的无界区间，若 D 为有界的，则该函数不具周期性。并非每个周期函数都有最小正周期，例如狄利克雷函数。

单调性

　　设函数 f(x) 的定义域为 D，区间 I 包含于 D。如果对于区间上任意两点 x1 及 x2，当 x1 < x2 时，恒有 f(x1) < f(x2)，则称函数 f(x) 在区间 I 上是单调递增的；如果对于区间 I 上任意两点 x1 及 x2，当 x1 < x2时，恒有 f(x1) > f(x2)，则称函数 f(x) 在区间 I 上是单调递减的。单调递增和单调递减函数统称为单调函数。

1.4 函数的极限

　　学习极限之前，先看一下数列：

数列

　　数列（sequence of number）是以正整数集为定义域的函数，是一列有序的数；即按照一定次数排列的一列数：u1, u2, ... un, ...，其中排在第一位的数列为这个数列的第一项（也叫首项）， un 叫做通项。

　　著名的数列有：斐波那契数列，三角函数，杨辉三角等。

　　对于数列 {un} ，如果当 n 无限增大时，其通项无限接近于一个常数 A，则称该数列以 A 为极限或称数列收敛于 A，否则称数列为发散：

　　举个例子：

函数极限

　　极限定义：设函数 f(x) 在点 x0 的某一去心邻域内有定义，如果存在常数A，对于任意给定的正数 ε （无论它多么小），总存在正数 δ ，使得当 x 满足不等式 0 < |x - x0| < δ 时，对应的函数值 f(x) 都满足不等式：

　　那么常数 A 就叫做函数 f(x) 当 x——> x0 时的极限，记做：

　　函数极限可以分为下面六种：

1.5 极限存在准则

　　有些函数的极限很难或难以直接运用极限运算求得，需要先判定。下面学习几个常用的判定数列极限的定理。

1.5.1 夹逼定理

　　（1）当 x € U(x0, r) （这是 x0 的去心邻域，有个符号打不出）时，有下面公式成立：

　　（2） f(x) 极限存在，且等于A 的条件是：

　　简单说：就是找出一个比原式小的式子和一个比原式大的式子证明他们俩的极限相同且为a，则原式极限也为 a。

　　由夹逼定理可以推出一个重要极限：

　　下面证明一下：

　　关于弧长公式：弧长 = θ*r，θ 是弧度，r 是半径。

1.5.2 单调有界准则

　　单调增加（减少）有上（下）界的数列必定收敛。

　　在运用上面两条去求函数的极限的时候尤其需要注意以下关键点。一是要用单调有界定理证明收敛，然后再求极限值。二是应用夹逼定理的关键是找出极限相同的函数，并且要满足极限是趋于同一方向，从而证明或求得函数的极限值。

　　单调有界定理：单调有界数列必收敛（有极限）。具体的说：

　　（1）若数列 {Xn} 递增且有上界，则：

　　（2）若数列 {Xn} 递减且有下界，则：

1.5.3 柯西收敛准则

　　数列 {Xn} 收敛的充分必要条件是：对于任意给定的正数 ε ，总存在正整数 N，使得当 m>N，n>N时，且 m≠n，有 |Xm - Xn| < ε。我们把满足该条件的 {Xn} 称为柯西序列，那么上述定理可以表述为：数列{Xn}收敛，当且仅当它是一个柯西序列。

1.6 课程中的PPT

1.7 常见函数极限公式

　　首先说一下常见函数求极限的方法：

1，分母极限为零时，分解因式，凑公式
2，当 x 趋于无穷时，除以最高指数的 Xn
3，等价无穷小量代换：

　　下面看一下常见函数极限公式：

1.8 常用数学记号

2，函数连续性与间断点

2.1 函数连续性定义

　　设函数 f 在某邻域 U(x0) 内有定义，若当自变量的改变量 Δx 趋于零时，相应函数的改变量 Δy 也趋近于零，则称 y=f(x) 在点 x 处连续：

　　则称 f 在点 x0 处连续。

　　函数连续必须同时满足三个条件：

1，函数在 x0 处有定义
2，x->x0时候，函数在该点处极限 lim f(x) 存在
3，x->x0时候，函数在该点处极限值 lim f(x) 等于函数值 f(x0)

　　定理1：函数 f 在点 x0 处连续性的充要条件是：f 在点 x0 既是左连续，又是右连续。

　　初等函数在其定义域内是连续的；函数 f(x) 在其定义域内每一点都连续，则称函数 f(x) 为连续函数。下图左为连续函数，右图为间断函数。

2.2 函数间断点

　　设函数 f 在某 U0(x0) 内有定义，若 f 在点 x0 无定义，或在点 x0 有定义而不连续，则称点 x0 为函数 f 的间断点或不连续点。

　　函数间断点分为两种情况：

　　1，可去间断点：若：

　　而 f 在点 x0 处无定义，或有定义但 f(x0) != A ，则称 x0 为 f 的可去间断点。

　　2，跳跃间断点：若函数 f 在点 x0 的左，右极限都存在，但：

　　则称点 x0 为函数 f 的跳跃间断点。

　　可去间断点和跳跃间断点统称为第一类间断点。第一类间断点的特点是函数在该点处的左右极限都存在。

　　函数的所有其他形式的间断点，即使得函数至少有异侧极限不存在的那些点，称为第二类间断点。

2.3 课程中的PPT

　　下面为连续性和间断点的两个例子：

3，导数

3.1 导数定义

　　设函数 y = f(x) 在点 x0 的某邻域内有定义，若极限：

　　存在，则称函数 f 在点 x0 处可导，并称该极限为函数 f 在点 x0 处的导数，记为 f '(x0)

　　f'(x) 也可以定义如下：

3.2 左右导数的几何意义和物理意义

　　函数 f(x) 在 x0 处的左，右导数分别定义为：

　　左导数：

　　右导数：

3.3 常用导数公式

　　基本初等函数求导公式：

3.4 导数的四则运算法则

　　设 u = u(x)， v = v(x) 均为 x 的可导函数，则有：

3.5 函数的可导性与连续性之间的关系

　　即连续是可导的必要条件，即函数可导必然连续；不连续必然不可导；连续不一定可导。

　　主要为以下几个定理：

　　定理1：若函数 f 在点 x0 处可导，则 f 在点 x0 处连续。

　　注意：可导仅仅是函数在该点连续的充分条件，而不是必要条件，如函数 f(x) = |x| 在点 x=0 处连续，但不可导。

　　定理2：若函数 y = f(x) 在点 x0 的某邻域内有定义，则 f'(x0) 存在的充要条件是 f '+(x0) 与 f '-(x0) 都存在，且：

　　定理3（费马定理）：设函数 f 在点 x0 的某邻域内有定义，且在点 x0 处可导，若点 x0 为 f 的极值点，则必有：

　　我们称满足方程 f ' = 0 的点 o 为稳定点。

　　定理4：函数 f 在点 x0 可微的充要条件是函数 f 在点 x0 可导，而且常量 A等于 f '(x0)

4，梯度

　　在学习梯度之前，先学习两个基本概念

4.1 偏导数

　　在数学中，一个多变量的函数的偏导数，就是它关于其中一个变量的导数而保持其他变量恒定（相对于全导数，在其中所有变量都允许变换）。偏导数在向量分析和微分几何中是很有用的。

　　在一元函数中，导数就是函数的变化率。如下图所示，对于一元函数 y = f(x) 只存在 y 随 x 的变化：

　　二元函数 z = f(x, y) 存在 z 随 x 变化的变化率，随 y 变化的变化率，随 x, y 同时变化的变化率：

　　在 XOY 平面内，当动点由 P(x0, y0) 沿不同方向变化时，函数 f(x, y) 的变化快慢一般来说是不同的，因此就需要研究 f(x, y) 在 (x0, y0) 点处沿不同方向的变化率。在这里我们只学习函数 f(x, y) 沿着平行于 x 轴和平行于 y 轴两个特殊方位变动时，f(x, y) 的变化率。

　　偏导数的表示符号为：∂

　　偏导数反映的是函数沿着坐标轴正方向的变化率。

　　方向x的偏导定义：设存在函数 z = f(x, y) 在点 (x0, y0) 的某个邻域内有定义，固定 y=y0，而让x 在 x0 出有增量，则相应的函数 z=f(x, y) 有增量，那么增量表示为：Δz = f(x0+Δx, y0) - f(x0, y0)。

　　如果 Δz 与 Δx 之比，当 Δx->0 时的极限存在，那么此极限值称为函数 z=f(x, y)在 (x0, y0) 处对 x 的偏导数，记做 f 'x(x0, y0) 或者函数 z = f(x, y) 在 (x0, y0) 处对 x 的偏导数，实际上就是把 y 固定在 y0 看成常数后，一元函数 f(x, y0) 在点 x = x0 处可导，即极限：