企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 爬虫流程介绍 ### feed节点 爬虫系统至少有一个feed页面,通过访问这一个feed页面,获取相关链接。互联网可以理解成是一张网,网就有一个一个都节点,每一个网页我们都可以把它理解成是一个节点。feed页面就是我们觉得非常有价值的节点,通过这个节点能够获取对对我们来讲非常有价值的信息。爬虫系统就是一个不断爬取新内容对一个过程,如果一个爬虫系统一天到晚对爬出来对都是老内容,那么这个系统也就没有了存在对意义。 ### “爬” 如何形象的理解爬虫对这个“爬”字,我感觉把爬虫翻译成业务逻辑,就是一个发现新链接对过程,如果不对爬虫加以限制,那么这个爬对动作就会一直执行,直到这张网对每一个节点都爬过了位置。不过我们目前设计的大部分爬虫系统都是针对于某个垂直领域的,不会让这个爬虫无限制的爬下去,会对需要爬的网页做一下甄别。 ### 网页“爬”状态判断 举个简单的例子,假设现在整个互联网只有100个网页,以一个网页作为爬虫的feed,如果不对已经爬过的网页进行处理,那么爬虫就会无限循环下去。造成爬虫任务无法结束。