3-算法引入 · 数据结构和算法

![](https://img.kancloud.cn/41/e0/41e066af9a6c25a24868d9667253ec98_1241x333.jpg) ***** ### 引入如果 a+b+c=1000，且 a^2+b^2=c^2（a,b,c 为自然数），如何求出所有a、b、c可能的组合? 代码实现 ``` import time start_time = time.time() for a in range(0, 1001): for b in range(0, 1001): for c in range(0, 1001): if a**2 + b**2 == c**2 and a+b+c == 1000: print("a, b, c: %d, %d, %d" % (a, b, c)) end_time = time.time() print("times: %f" % (end_time - start_time)) print("end!") ``` ### 算法的概念算法是计算机处理信息的本质，因为计算机程序本质上是一个算法来告诉计算机确切的步骤来执行一个指定的任务。一般地，当算法在处理信息时，会从输入设备或数据的存储地址读取数据，把结果写入输出设备或某个存储地址供以后再调用。算法是独立存在的一种解决问题的方法和思想。对于算法而言，实现的语言并不重要，重要的是思想。算法可以有不同的语言描述实现版本（如C描述、C++描述、Python描述等），我们现在是在用Python语言进行描述实现。 ### 算法的五大特性 - 输入: 算法具有0个或多个输入 - 输出: 算法至少有1个或多个输出 - 有穷性: 算法在有限的步骤之后会自动结束而不会无限循环，并且每一个步骤可以在可接受的时间内完成 - 确定性：算法中的每一步都有确定的含义，不会出现二义性 - 可行性：算法的每一步都是可行的，也就是说每一步都能够执行有限的次数完成 ### 第二次尝试 ``` import time start_time = time.time() for a in range(0, 1001): for b in range(0, 1001-a): c = 1000 - a - b if a**2 + b**2 == c**2: print("a, b, c: %d, %d, %d" % (a, b, c)) end_time = time.time() print("times: %f" % (end_time - start_time)) print("complete!") ``` ## 算法效率衡量 ### 执行时间反应算法效率对于同一问题，我们给出了两种解决算法，在两种算法的实现中，我们对程序执行的时间进行了测算，发现两段程序执行的时间相差悬殊（214.583347秒相比于0.182897秒），由此我们可以得出结论：实现算法程序的执行时间可以反应出算法的效率，即算法的优劣。 <br>单靠时间值绝对可信吗？ #### 1.测试结果非常依赖测试环境测试环境中硬件的不同会对测试结果有很大的影响。比如，我们拿同样一段代码，分别用 Intel Core i9 处理器和 Intel Core i3 处理器来运行，不用说，i9 处理器要比 i3 处理器执行的速度快很多。还有，比如原本在这台机器上 a 代码执行的速度比 b 代码要快，等我们换到另一台机器上时，可能会有截然相反的结果。 #### 2.测试结果受数据规模的影响很大对同一个排序算法，待排序数据的有序度不一样，排序的执行时间就会有很大的差别。极端情况下，如果数据已经是有序的，那排序算法不需要做任何操作，执行时间就会非常短。除此之外，如果测试数据规模太小，测试结果可能无法真实地反应算法的性能。所以，我们需要一个不用具体的测试数据来测试，就可以粗略地估计算法的执行效率的方法 ### 大 O 复杂度表示法算法的执行效率，粗略地讲，就是算法代码执行的时间。但是，如何在不运行代码的情况下，用“肉眼”得到一段代码的执行时间呢？ ``` for a in range(0, 1001): for b in range(0, 1001): for c in range(0, 1001): if a**2 + b**2 == c**2 and a+b+c == 1000: print("a, b, c: %d, %d, %d" % (a, b, c)) ``` 通过这段代码执行时间的推导过程，我们可以得到一个非常重要的规律，那就是，所有代码的执行时间 T(n) 与每行代码的执行次数 n 成正比。 ![](https://img.kancloud.cn/22/90/22900968aa2b190072c985a08b0e92ef_1133x109.png) <br>其中，T(n) 我们已经讲过了，它表示代码执行的时间；n 表示数据规模的大小；f(n) 表示每行代码执行的次数总和。因为这是一个公式，所以用 f(n) 来表示。公式中的 O，表示代码的执行时间 T(n) 与 f(n) 表达式成正比。 <br>`T(n) = O(n^3*2)`这就是大 O 时间复杂度表示法,大 O 时间复杂度实际上并不具体表示代码真正的执行时间，而是表示代码执行时间随数据规模增长的变化趋势，所以，也叫作渐进时间复杂度（asymptotic time complexity），简称时间复杂度。 <br>当n很大时,你可以把它想象成 10000、100000。而公式中的低阶、常量、系数三部分并不左右增长趋势，所以都可以忽略。我们只需要记录一个最大量级就可以了 ## 时间复杂度分析 ### 1.只关注循环执行次数最多的一段代码大 O 这种复杂度表示方法只是表示一种变化趋势。我们通常会忽略掉公式中的常量、低阶、系数，只需要记录一个最大阶的量级就可以了。所以，我们在分析一个算法、一段代码的时间复杂度的时候，也只关注循环执行次数最多的那一段代码就可以了。这段核心代码执行次数的 n 的量级，就是整段要分析代码的时间复杂度。 ``` def cal(n): sum = 0 i = 1 for i in rang(n+1): sum += i i+=1 return sum ``` 其中第 2、3 行代码都是常量级的执行时间，与 n 的大小无关，所以对于复杂度并没有影响。循环执行次数最多的是第 4、5 行代码，所以这块代码要重点分析。前面我们也讲过，这两行代码被执行了 n 次，所以总的时间复杂度就是 O(n)。 ### 2.加法法则：总复杂度等于量级最大的那段代码的复杂度 ``` def cal(n): sum = 0 i = 1 for in range(100): sum += i for i in rang(n+1): sum += i i+=1 for i in range(n+1): for j in range(n+1): pass ``` 综合这三段代码的时间复杂度，我们取其中最大的量级。所以，整段代码的时间复杂度就为 O(n2)。也就是说：总的时间复杂度就等于量级最大的那段代码的时间复杂度 ### 最坏时间复杂度分析算法时，存在几种可能的考虑： - 算法完成工作最少需要多少基本操作，即最优时间复杂度 - 算法完成工作最多需要多少基本操作，即最坏时间复杂度 - 算法完成工作平均需要多少基本操作，即平均时间复杂度对于列表排序,要查找的变量 x 可能出现在数组的任意位置。如果数组中第一个元素正好是要查找的变量 x，那就不需要继续遍历剩下的 n-1 个数据了，那时间复杂度就是 O(1)。但如果数组中不存在变量 x，那我们就需要把整个数组都遍历一遍，时间复杂度就成了 O(n)。所以，不同的情况下，这段代码的时间复杂度是不一样的。对于最优时间复杂度，其价值不大，因为它没有提供什么有用信息，其反映的只是最乐观最理想的情况，没有参考价值。对于最坏时间复杂度，提供了一种保证，表明算法在此种程度的基本操作中一定能完成工作。对于平均时间复杂度，是对算法的一个全面评价，因此它完整全面的反映了这个算法的性质。但另一方面，这种衡量并没有保证，不是每个计算都能在这个基本操作内完成。而且，对于平均情况的计算，也会因为应用算法的实例分布可能并不均匀而难以计算。因此，我们主要关注算法的最坏情况，亦即最坏时间复杂度。 ### 常见时间复杂度常见的复杂度并不多，从低阶到高阶有：O(1)、O(logn)、O(n)、O(nlogn)、O(n2)。执行次数函数举例 | 阶 | 非正式术语 ---|---|---| 12 | O(1) |常数阶 2n + 3 | O(n) | 线性阶 3n^2 + 3n + 1| O(n^2)| 平方阶 log2n + 20|O(logn)| 对数阶 2n+3nlog2n+19|O(nlogn)|nlogn阶 2^n|O(2^n)|指数阶 ![](https://img.kancloud.cn/49/7a/497a3f120b7debee07dc0d03984faf04_1142x640.jpg)