爬虫流程介绍 · 网络爬虫知识汇总

# 爬虫流程介绍 ### feed节点爬虫系统至少有一个feed页面，通过访问这一个feed页面，获取相关链接。互联网可以理解成是一张网，网就有一个一个都节点，每一个网页我们都可以把它理解成是一个节点。feed页面就是我们觉得非常有价值的节点，通过这个节点能够获取对对我们来讲非常有价值的信息。爬虫系统就是一个不断爬取新内容对一个过程，如果一个爬虫系统一天到晚对爬出来对都是老内容，那么这个系统也就没有了存在对意义。 ### “爬” 如何形象的理解爬虫对这个“爬”字，我感觉把爬虫翻译成业务逻辑，就是一个发现新链接对过程，如果不对爬虫加以限制，那么这个爬对动作就会一直执行，直到这张网对每一个节点都爬过了位置。不过我们目前设计的大部分爬虫系统都是针对于某个垂直领域的，不会让这个爬虫无限制的爬下去，会对需要爬的网页做一下甄别。 ### 网页“爬”状态判断举个简单的例子，假设现在整个互联网只有100个网页，以一个网页作为爬虫的feed，如果不对已经爬过的网页进行处理，那么爬虫就会无限循环下去。造成爬虫任务无法结束。