微分学的基本思想就是“丢掉高阶无穷小”。但是牛顿说过:“在数学中最微小的误差也不可忽略。”于是我们要问:“高阶无穷小为什么可以忽略?”为了说明“丢掉高阶无穷小”的确是可行的,必须建立严格的微分理论。
无穷小
首先我们需要严格刻画“无穷小”这个概念。无穷小显然不能通过“某个实数”这样静态地来刻画,它的“无限接近”只能通过动态的方式来被表达。因此很自然,我们必须用数列的极限或者函数的极限来描述它。任何一个在极限过程中趋向0的数列或者函数(它们是一回事)都是无穷小。
无穷小有许多种,\(n\to +\infty\)时,\(\dfrac{1}{n}\)是无穷小,\(\dfrac{1}{n^{100}}\)也是无穷小,\(\dfrac{1}{e^n}\)也是无穷小。我们从直观上(图像上)就能发现,如果\(n\)的步调一致,它们趋向0的速度是不一样的。为了描述这种速度的不同,我们可以把两个无穷小作比较,把它们相除看它们比值的极限。如果比值是0,意味着分子上的更快些;如果比值是无穷,那么分母上的更快些;如果比值是个有界实数,意味着它们速度差不多;特别地,如果比值是1,意味着它们速度完全相同。严格地来说,如果有\(\lim \dfrac{g(x)}{f(x)}=0\),就说\(g(x)\)是比\(f(x)\)“高阶”的无穷小,并把这个表达式简写为\(g(x)=o(f(x))\)。如果要更直接地看这意味着什么,我们可以把\(g(x)\)看作某个\(\alpha(x) \cdot f(x)\),其中\(\alpha(x)\)是一个在极限过程中趋向0的函数。也就是说,某个函数的高阶无穷小就等价于这个函数乘上一个无穷小。
微分的古典定义
我们很熟悉导数的定义,它描述了某个函数在某点处的瞬间变化率,从几何上看它等价于曲线在某点处切线的斜率。某点\(x_0\)处的导数存在,就是说极限\(\lim\limits_{h \to 0}\dfrac{f(x_0+h)-f(x_0)}{h}\)存在,我们把这个极限记为\(f'(x_0)\)。
根据极限的运算法则,\(f'(x_0)=\lim\limits_{h \to 0}\dfrac{f(x_0+h)-f(x_0)}{h}\)可以移项,写作\(\lim\limits_{h \to 0}\dfrac{f(x_0+h)-f(x_0)-f'(x_0)h}{h}=0\)。这为我们看这个问题提供了另一个角度——分子上的函数趋向0的速度“更快”一些。于是我们可以写出
\[f(x_0+h)-f(x_0)=f'(x_0)h+o(h) \]这向我们揭示了:当自变量从\(x_0\)变到\(x_0+h\)时,函数值的变化可以分解成两部分,一部分就等于\(h\)本身与另一个完全不依赖于\(h\)的常量的乘积;另一部分是一个比\(h\)更快地趋向无穷小的量。\(f(x_0+h)-f(x)\)完全描述了函数值的整个变化,称为全改变量,记为\(\Delta f\);第一部分\(f'(x_0)h\)与自变量的变化量呈线性关系,称为改变量的线性部分,我们把用以刻画其线性特征的记号\(d\)置于对应的函数前,记为\(df\);第二部分是高阶无穷小,仍记为\(o(h)\)。
所以一切函数的变化都可以表示为\(\Delta f=df+o(h)\),我们将会看到,线性改变量就是我们说的“微分改变量”,简称“微分”。
我们考虑函数\(f(x) \equiv x\)。此时也有\(\Delta f = df + o(h)\),只不过\(\Delta f\)就等于\(h\),\(df\)也等于\(h\),因此\(o(h)\)这一项就是0了。所以\(h\)就可以同时被写成\(\Delta x\)或者\(dx\)。因此我们可以写出\(df=f'dx\),也就是\(\dfrac{df}{dx}=f'\),它揭示了导数和函数线性改变量(微分)的直接联系。
由此可见,\(df,dx\)这些“微分”的记号没有任何神秘的东西,它们都只是“代表”了某些普通的量。