一、数据结构与算法简介
从广义上讲,数据结构是指一组数据的存储结构。算法是操作数据的一组方法。
从狭义上讲,数据结构与算法是指某些著名的数据结构和算法,比如数组、列表、队列、栈、堆、二分查找、动态规划等。这些经典数据结构和算法,都是前人从很多实际操作场景中抽象出来的,经过非常多的求证和检验,可以高效地解决很多实际开发问题。
数据结构和算法是相辅相成的。数据结构是为算法服务的,算法要作用在特定的数据结构之上。
比如,因为数组具有随机访问的特点,所以可以使用二分查找算法。如果用链表存储数据,二分查找算法就无法工作了,因为链表并不支持随机访问。
数据结构是静态的,它只是组织数据的一种方式。如果不在它的基础上操作、构建算法,孤立存在的数据结构没有意义。
二、复杂度分析
数据结构和算法解决的是如何“存储更省、处理更快”的问题,因此,就需要一个考量效率和资源消耗的方法,这就是复杂度分析方法。
复杂度分析几乎占了数据结构和算法的半壁江山,是数据结构和算法学习的精髓。
2.1 大O复杂度表示法
粗略地讲,算法的执行效率,就是算法代码执行的时间。假设每行代码执行的时间都为 unit_time,在这个假设的基础之上,可以分析下面这段代码的执行时间。
// 计算 1,2,3...n 的累加和
int calc(int n) {
int sum = 0;
int i = 1;
for (; i <= n; i++) {
sum = sum + i;
}
return sum;
}
第 3、4 行代码分别需要 1 个 unit_time 的执行时间,第 5、6 行都运行了 n 遍,需要 2n * unit_time 的执行时间,所以这段代码总的执行时间就是 (2n+2) * unit_time。
按照这个分析思路,再来看看下面这段代码。
int cal(int n) {
int sum = 0;
int i = 1;
int j = 1;
for (; i <= n; i++) {
j = 1;
for (; j <= n; j++) {
sum = sum + i * j;
}
}
}
第 2、3、4 行代码,每行都需要 1 个 unit_time 的执行时间,第 5、6 行代码循环执行了 n 遍,需要 2n * unit_time 的执行时间,第 7、8 行代码循环执行了 n2 遍,所以需要 2n2 * unit_time 的执行时间。所以,整段代码总的执行时间 T(n) = (2n2+2n+3) * unit_time。
可以看出来,所有代码的执行时间 T(n) 与每行代码的执行次数成正比。用公式表示如下:
T(n) = O(f(n))
其中,n 表示数据规模的大小,T(n) 表示代码执行时间,f(n) 表示每行代码执行的次数之和,O 表示代码执行时间 T(n) 与每行代码执行次数之和 f(n) 成正比。
所以,第一个例子中的 T(n) = O(2n+2),第二个例子中的 T(n) = O(2n2+2n+3),这就是大 O 时间复杂度表示法。大 O 时间复杂度实际上并不具体表示代码真正的执行时间,而是表示代码执行时间随数据规模增长的变化趋势,所以,也叫作渐进时间复杂度,简称时间复杂度。当 n 很大时,公式中的低阶、常量、系数三部分并不左右增长趋势,都可以忽略。我们只需要记录一个最大量级就可以了,如果用大 O 表示法表示上面那两段代码的时间复杂度,就可以记为:T(n) = O(n); T(n) = O(n2)。
2.2 时间复杂度分析方法
1. 只关注循环执行次数最多的一段代码
大 O 复杂度表示方法只是表示一种变化趋势。通常会忽略掉公式中的常量、低阶、系数,只需要记录最大阶的量级就可以了。所以,我们分析一个算法、一段代码的时间复杂度的时候,也只关注循环执行次数最多的那一段代码就可以了。这段核心代码执行次数是 n 的什么量级,整段代码的时间复杂度就是 n 的什么量级。
为了便于理解,我们再看看前面的例子。
// 计算 1,2,3...n 的累加和
int calc(int n) {
int sum = 0;
int i = 1;
for (; i <= n; i++) {
sum = sum + i;
}
return sum;
}
循环执行次数最多的是第 5、6 行代码,这两行代码被执行了 n 次,所以总的时间复杂度就是 O(n)。
2. 加法法则:总复杂度等于量级最大的那段代码的复杂度
int cal(int n) {
int sum_1 = 0;
int p = 1;
for (; p < 100; p++) {
sum_1 += p;
}
int sum_2 = 0;
int q = 1;
for (; q < n; q++) {
sum_2 += q;
}
int sum_3 = 0;
int i = 1;
int j = 1;
for (; i <= n; i++) {
j = 1;
for (; j <= n; j++) {
sum_3 += i * j;
}
}
return sum_1 + sum_2 + sum_3;
}
这段代码分为三部分,分别是求 sum_1、sum_2、sum_3。我们分别分析每一部分的时间复杂度,其中量级最大的就是整段代码的复杂度。
第一段代码循环执行了 100 次,与 n 的规模无关,所以是一个常量级的执行时间 。第二段代码的时间复杂度是 O(n),第三段的时间复杂度是 O(n2)。
综合这三段代码的时间复杂度,我们取其中最大的量级。所以,整段代码的时间复杂度就为 O(n2)。
也就是说:总的时间复杂度等于量级最大的那段代码的时间复杂度。用公式表示如下:
如果 T1(n) = O(f(n)),T2(n) = O(g(n));那么 T(n) = T1(n) + T2(n) = max(O(f(n)), O(g(n))) = O(max(f(n), g(n)))。
3. 乘法法则:嵌套代码的复杂度等于嵌套内外代码复杂度的乘积
如果 T1(n) = O(f(n)),T2(n) = O(g(n));那么 T(n) = T1(n) * T2(n) = O(f(n)) * O(g(n)) = O(f(n)*g(n))。
也就是说,假设 T1(n) = O(n),T2(n) = O(n2),则 T1(n) * T2(n) = O(n3)。
落实到具体的代码上,可以把乘法法则看成是嵌套循环,举个例子看一下。
int cal(int n) {
int ret = 0;
int i = 1;
for (; i < n; i++) {
ret = ret + func(i);
}
}
int func(int n) {
int sum = 0;
int i = 1;
for (; i < n; i++) {
sum = sum + i;
}
return sum;
}
我们单独看 cal() 方法,假设 func( ) 只是一个普通的操作,那第 4~5 行的时间复杂度就是,T1(n) = O(n)。但 func( ) 本身不是一个简单的操作,它的时间复杂度是 T2(n) = O(n),所以,整个 cal() 函数的时间复杂度就是,T(n) = T1(n) * T2(n) = O(n*n) = O(n2)。
2.3 常见时间复杂度
虽然代码千差万别,但是常见的复杂度量级只有几种,按数量级递增罗列如下:
-
常量级 O(1)
-
对数级 O(logn)
-
线性级 O(n)
-
线性对数级 O(nlogn)
-
平方级 O(n2)、立方级 O(n3) ... K次方级 O(nk)
-
指数级 O(2n)
-
阶乘级 O(n!)
常见的复杂度量级可以粗略地分为两类,多项式量级和非多项式量级。其中,非多项式量级只有两个:O(2n) 和 O(n!)。
当数据规模 n 越来越大时,非多项式量级算法的执行时间会急剧增加,求解问题的执行时间会无限增长。所以,非多项式时间复杂度的算法是非常低效的。
1. O(1)
O(1) 表示常量级时间复杂度,只要代码的执行时间不随 n 的增大而增长就是 O(1)。
一般情况下,只要算法中不存在循环语句、递归语句,即使有成千上万行的代码,其时间复杂度也是Ο(1)。
2. O(logn)、O(nlogn)
对数阶时间复杂度非常常见,我们通过一个例子看一下。
int i = 1;
while(i <= n){
i = i * 2;
}
根据前面的复杂度分析方法,第三行代码是循环执行次数最多的,所以,整段代码的时间复杂度取决于这行代码执行了多少次。
从代码中可以看出,变量 i 的值从 1 开始取,每循环一次就乘以 2。当大于 n 时,循环结束。实际上,变量 i 的取值就是一个等比数列:
20 21 22 23 ... 2k ... 2x = n
所以,我们只要知道 x 值是多少,就知道这行代码执行的次数了。通过 2x = n,得到 x = log2n,所以,这段代码的时间复杂度就是 O(log2n)。
现在,把代码稍微改下:
int i = 1;
while(i <= n){
i = i * 3;
}
根据刚刚的思路,很简单就能看出来,这段代码的时间复杂度为 O(log3n)。
实际上,不管是以 2 为底、以 3 为底,还是以 10 为底,我们可以把所有对数阶的时间复杂度都记为 O(logn)。因为对数之间是可以互相转换的,log3n 就等于 log32 * log2n,所以 O(log3n) = O(C * log2n),其中 C = log32 是一个常量。由于大 O 复杂度表示法可以忽略系数,即 O(Cf(n)) = O(f(n))。所以,O(log2n) 就等于 O(log3n)。因此,在对数阶时间复杂度的表示方法里,可以忽略对数的“底”,统一表示为 O(logn)。
理解了 O(logn),那 O(nlogn) 就很容易理解了。通过乘法法则可知,如果一段代码的时间复杂度是 O(logn),被循环执行 n 遍,时间复杂度就是 O(nlogn) 了。另外,O(nlogn) 也是一种非常常见的时间复杂度。比如,归并排序、快速排序的时间复杂度都是 O(nlogn)。
3.O(m+n)、O(m*n)
再来看一种跟前面都不一样的时间复杂度,代码的复杂度由两个数据的规模来决定。
int cal(int m, int n) {
int sum_1 = 0;
int i = 1;
for (; i < m; ++i) {
sum_1 = sum_1 + i;
}
int sum_2 = 0;
int j = 1;
for (; j < n; ++j) {
sum_2 = sum_2 + j;
}
return sum_1 + sum_2;
}
从代码中可以看出,m 和 n 表示两个数据规模。由于无法事先评估 m 和 n 谁的量级大,所以在表示复杂度的时候,就不能简单地利用加法法则,省略掉其中一个。所以,上面代码的时间复杂度就是 O(m+n)。
针对这种情况,原来的加法法则就不正确了,需要将加法法则改为:T1(m) + T2(n) = O(f(m) + g(n))。但是乘法法则继续有效:T1(m) * T2(n) = O(f(m) * f(n))。
2.4 空间复杂度分析
时间复杂度的全称是渐进时间复杂度,表示算法的执行时间与数据规模之间的增长关系。类比一下,空间复杂度全称就是渐进空间复杂度,表示算法的存储空间与数据规模之间的增长关系。
void print(int n) {
int i = 0;
int[] arr = new int[n];
for (; i < n; i++) {
arr[i] = i * i;
}
for (i = n - 1; i >= 0; i--) {
System.out.println(arr[i]);
}
}
跟时间复杂度分析一样,我们可以看到,第 2 行代码中,申请了一个空间存储变量 i,但是它是常量阶的,跟数据规模 n 没有关系,所以我们可以忽略。第 3 行申请了一个大小为 n 的 int 类型数组,除此之外,剩下的代码都没有占用更多的空间,所以整段代码的空间复杂度就是 O(n)。
常见的空间复杂度就是 O(1)、O(n)、O(n2 ),像 O(logn)、O(nlogn) 这样的对数阶复杂度平时都用不到。而且,空间复杂度分析比时间复杂度分析要简单很多。所以,对于空间复杂度,掌握上面的内容就已经足够了。
2.5 最好、最坏、平均、均摊时间复杂度
1. 最好、最坏情况时间复杂度
// len表示数组array的长度
int find(int[] array, int len, int x) {
int i = 0;
int pos = -1;
for (; i < len; ++i) {
if (array[i] == x) pos = i;
}
return pos;
}
这段代码要实现的功能是,在一个无序的数组(array)中,查找变量 x 出现的位置。如果没有找到,就返回 -1。按照之前的分析方法,这段代码的复杂度是 O(n),其中,n 代表数组的长度。
当然,在数组中查找一个数据,并不需要每次都把整个数组都遍历一遍,因为有可能中途找到就可以提前结束循环了。我们可以这样优化这段查找代码。
// n表示数组array的长度
int find(int[] array, int n, int x) {
int i = 0;
int pos = -1;
for (; i < n; ++i) {
if (array[i] == x) {
pos = i;
break;
}
}
return pos;
}
优化完之后,这段代码的时间复杂度还是 O(n) 吗?很显然,之前的分析方法,解决不了这个问题。
因为,要查找的变量 x 可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量 x,那就不需要继续遍历剩下的 n-1 个数据了,时间复杂度就是 O(1)。但如果数组中不存在变量 x,我们就需要把整个数组都遍历一遍,时间复杂度就成了 O(n)。所以,不同的情况下,这段代码的时间复杂度是不一样的。
为了表示代码在不同情况下的不同时间复杂度,需要引入三个概念:最好情况时间复杂度、最坏情况时间复杂度和平均情况时间复杂度。
顾名思义,最好情况时间复杂度就是,在最理想的情况下,执行这段代码的时间复杂度。就像我们刚刚说的,在最理想的情况下,要查找的变量 x 正好是数组的第一个元素,这个时候对应的时间复杂度就是最好情况时间复杂度。
同理,最坏情况时间复杂度就是,在最糟糕的情况下,执行这段代码的时间复杂度。就像刚举的那个例子,如果数组中没有要查找的变量 x,我们需要把整个数组都遍历一遍才行,所以这种最糟糕情况下对应的时间复杂度就是最坏情况时间复杂度。
2. 平均情况时间复杂度
最好情况时间复杂度和最坏情况时间复杂度对应的都是极端情况下的代码复杂度,发生的概率其实并不大。为了更好地表示平均情况下的复杂度,我们需要引入另一个概念:平均情况时间复杂度。
还是借助刚才查找变量 x 的例子。要查找的变量 x 在数组中的位置,有 n+1 种情况:在数组的 0~n-1 位置中和不在数组中。我们把每种情况下,查找需要遍历的元素个数累加起来,然后再除以 n+1,就可以得到需要遍历的元素个数的平均值,即:
我们知道,时间复杂度的大 O 标记法中,可以省略掉系数、低阶、常量,所以,把刚刚这个公式简化之后,得到的平均时间复杂度就是 O(n)。
这个结论虽然是正确的,但是计算过程稍微有点儿问题。究竟是什么问题呢?其实刚说的这 n+1 种情况,出现的概率并不是一样的。我们具体分析一下。
要查找的变量 x,要么在数组里,要么就不在数组里。这两种情况对应的概率统计起来很麻烦,为了方便理解,我们假设在数组中与不在数组中的概率都为 1/2。另外,要查找的数据出现在 0~n-1 这 n 个位置的概率也是一样的,为 1/n。所以,根据概率乘法法则,要查找的数据出现在 0~n-1 中任意位置的概率就是 1/(2n)。
因此,前面的推导过程中存在的最大问题就是,没有将各种情况发生的概率考虑进去。如果我们把每种情况发生的概率也考虑进去,那平均时间复杂度的计算过程就变成了这样:
这个值就是概率论中的加权平均值,也叫作期望值,所以平均时间复杂度的全称应该叫加权平均时间复杂度或者期望时间复杂度。
引入概率之后,前面那段代码的加权平均值为 (3n+1)/4。用大 O 表示法来表示,去掉系数和常量,这段代码的加权平均时间复杂度仍然是 O(n)。
实际上,在大多数情况下,我们并不需要区分最好、最坏、平均情况时间复杂度三种情况。像之前的那些例子,很多时候,我们使用一个复杂度就可以满足需求了。只有同一块代码在不同的情况下,时间复杂度有量级的差距,我们才会使用这三种复杂度表示法来区分。
3. 均摊时间复杂度
均摊时间复杂度,听起来跟平均时间复杂度有点像。对于初学者来说,这两个概念确实非常容易弄混。不过,大部分情况下,我们并不需要区分最好、最坏、平均三种复杂度。平均复杂度只在某些特殊情况下才会用到,而均摊时间复杂度应用的场景比它更加特殊、更加有限。
// array表示一个长度为n的数组
// 代码中的array.length就等于n
int[] array = new int[n];
int count = 0;
void insert(int val) {
if (count == array.length) {
int sum = 0;
for (int i = 0; i < array.length; ++i) {
sum = sum + array[i];
}
array[0] = sum;
count = 1;
}
array[count] = val;
++count;
}
这段代码实现了一个往数组中插入数据的功能。当数组满了之后,也就是代码中的 count == array.length 时,我们用 for 循环遍历数组求和,并清空数组,将求和之后的 sum 值放到数组的第一个位置,然后再将新的数据插入。但如果数组一开始就有空闲空间,则直接将数据插入数组。
那这段代码的时间复杂度是多少呢?
最理想的情况下,数组中有空闲空间,我们只需要将数据插入到数组下标为 count 的位置就可以了,所以最好情况时间复杂度为 O(1)。最坏的情况下,数组中没有空闲空间了,我们需要先做一次数组的遍历求和,然后再将数据插入,所以最坏情况时间复杂度为 O(n)。
那平均时间复杂度是多少呢?答案是 O(1)。我们还是可以通过前面讲的概率论的方法来分析。
假设数组的长度是 n,根据数据插入的位置的不同,我们可以分为 n 种情况,每种情况的时间复杂度是 O(1)。除此之外,还有一种“额外”的情况,就是在数组没有空闲空间时插入一个数据,这个时候的时间复杂度是 O(n)。而且,这 n+1 种情况发生的概率一样,都是 1/(n+1)。所以,根据加权平均的计算方法,我们求得的平均时间复杂度就是:
至此为止,前面的最好、最坏、平均时间复杂度的计算,理解起来应该都没有问题。但是这个例子里的平均复杂度分析其实并不需要这么复杂,不需要引入概率论的知识。这是为什么呢?
第一,insert() 在大部分情况下,时间复杂度都为 O(1)。只有个别情况下,复杂度才比较高,为 O(n)。
第二,O(1) 时间复杂度的插入和 O(n) 时间复杂度的插入,出现的频率是非常有规律的,而且有一定的前后时序关系,一般都是一个 O(n) 插入之后,紧跟着 n-1 个 O(1) 的插入操作,循环往复。
针对这样一种特殊场景的复杂度分析,我们并不需要像之前那样,找出所有的输入情况及相应的发生概率,然后再计算加权平均值。这里,我们引入了一种更加简单的分析方法:摊还分析法,通过摊还分析得到的时间复杂度我们起了一个名字,叫均摊时间复杂度。
究竟如何使用摊还分析法来分析算法的均摊时间复杂度呢?我们还是继续看在数组中插入数据的这个例子。每一次 O(n) 的插入操作,都会跟着 n-1 次 O(1) 的插入操作,所以把耗时多的那次操作均摊到接下来的 n-1 次耗时少的操作上,均摊下来,这一组连续的操作的均摊时间复杂度就是 O(1)。这就是均摊分析的大致思路。
均摊时间复杂度和摊还分析应用场景比较特殊,我们并不会经常用到,这里简单总结一下它们的应用场景。
对一个数据结构进行一组连续操作中,大部分情况下时间复杂度都很低,只有个别情况下时间复杂度比较高,而且这些操作之间存在前后连贯的时序关系,这个时候,我们就可以将这一组操作放在一块分析,看是否能将较高时间复杂度那次操作的耗时,平摊到其他那些时间复杂度比较低的操作上。而且,在能够应用均摊时间复杂度分析的场合,一般均摊时间复杂度就等于最好情况时间复杂度。
可以理解为,均摊时间复杂度就是一种特殊的平均时间复杂度,我们没必要花太多精力去区分它们。掌握了它的分析方法——摊还分析就行。
算法的时间复杂度是指最坏情况下的时间复杂度,用O
表示;平均时间复杂度,用θ
表示;最好时间复杂度,用Ω
表示。
标签:int,复杂度,算法,时间,数组,sum,概述,数据结构,代码 From: https://www.cnblogs.com/luwei0424/p/17157127.html