# 爬虫流程介绍
### feed节点
爬虫系统至少有一个feed页面,通过访问这一个feed页面,获取相关链接。互联网可以理解成是一张网,网就有一个一个都节点,每一个网页我们都可以把它理解成是一个节点。feed页面就是我们觉得非常有价值的节点,通过这个节点能够获取对对我们来讲非常有价值的信息。爬虫系统就是一个不断爬取新内容对一个过程,如果一个爬虫系统一天到晚对爬出来对都是老内容,那么这个系统也就没有了存在对意义。
### “爬”
如何形象的理解爬虫对这个“爬”字,我感觉把爬虫翻译成业务逻辑,就是一个发现新链接对过程,如果不对爬虫加以限制,那么这个爬对动作就会一直执行,直到这张网对每一个节点都爬过了位置。不过我们目前设计的大部分爬虫系统都是针对于某个垂直领域的,不会让这个爬虫无限制的爬下去,会对需要爬的网页做一下甄别。
### 网页“爬”状态判断
举个简单的例子,假设现在整个互联网只有100个网页,以一个网页作为爬虫的feed,如果不对已经爬过的网页进行处理,那么爬虫就会无限循环下去。造成爬虫任务无法结束。
- Introduction
- 爬虫相关技能介绍
- 爬虫简单介绍
- 爬虫涉及到的知识点
- 爬虫用途
- 爬虫流程介绍
- 需求描述
- Http请求处理
- http基础知识介绍
- http状态码
- httpheader
- java原生态处理http
- URL类
- 获取URL请求状态
- 模拟Http请求
- apache httpclient
- Httpclient1
- httpclient2
- httpclient3
- httpclient4
- httpclient5
- httpclient6
- okhttp
- OKhttp使用教程
- 技术使用
- java执行javascript
- 网页解析
- Xpath介绍
- HtmlCleaner
- HtmlCleaner介绍
- HtmlCleaner使用
- HtmlParser
- HtmlParser介绍
- Jsoup
- 解析和遍历一个HTML文档
- 解析一个HTML字符串
- 解析一个body片断
- 从一个URL加载一个Document
- 从一个文件加载一个文档
- 使用DOM方法来遍历一个文档
- 使用选择器语法来查找元素
- 从元素抽取属性,文本和HTML
- 处理URLs
- 示例程序 获取所有链接
- 设置属性的值
- 设置一个元素的HTML内容
- 消除不受信任的HTML (来防止XSS攻击)
- 正则表达式
- elasticsearch笔记
- 下载安装elasticsearch
- 检查es服务健康