9-9-搜索 · 数据结构和算法

![](https://img.kancloud.cn/41/e0/41e066af9a6c25a24868d9667253ec98_1241x333.jpg) ***** ## 搜索搜索是在一个项目集合中找到一个特定项目的算法过程。搜索通常的答案是真的或假的，因为该项目是否存在。搜索的几种常见方法：顺序查找、二分法查找、二叉树查找、哈希查找 ## 二分查找二分查找又称折半查找，优点是比较次数少，查找速度快，平均性能好；其缺点是要求待查表为有序表，且插入删除困难。因此，折半查找方法适用于不经常变动而查找频繁的有序列表。首先，假设表中元素是按升序排列，将表中间位置记录的关键字与查找关键字比较，如果两者相等，则查找成功；否则利用中间位置记录将表分成前、后两个子表，如果中间位置记录的关键字大于查找关键字，则进一步查找前一子表，否则进一步查找后一子表。重复以上过程，直到找到满足条件的记录，使查找成功，或直到子表不存在为止，此时查找不成功。 ![](https://box.kancloud.cn/7573967f7e1f22d45a78e2f3982a9747_382x244.png) ### 二分法查找实现（非递归实现） ``` def binary_search(li, item): first = 0 last = len(li) - 1 while first <= last: midpoint = (first + last) // 2 if li[midpoint] == item: return True elif item < li[midpoint]: last = midpoint - 1 else: first = midpoint + 1 return False testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, ] print(binary_search(testlist, 3)) print(binary_search(testlist, 13)) ``` （递归实现） ``` def binary_search(li, item): if len(li) == 0: return False else: midpoint = len(li) // 2 if midpoint > 0: if li[midpoint] == item: # li[4] == 17 13 != 17 return True else: if item < li[midpoint]: # 17 < 13 return binary_search(li[:midpoint], item) else: return binary_search(li[midpoint+1:], item) else: return False testlist = [0, 1, 2, 8, 13, 17, 19, 32, 42, ] print(binary_search(testlist, 3)) print(binary_search(testlist, 13)) ``` ## 问题假设我们有 1000 万个整数数据，每个数据占 8 个字节，如何设计数据结构和算法，快速判断某个整数是否出现在这 1000 万数据中？我们希望这个功能不要占用太多的内存空间，最多不要超过 100MB，你会怎么做呢？