# 爬虫的分类
- 通用型爬虫
全网爬虫,搜索引擎
- 聚焦型爬虫
- 增量爬虫
每隔一段时间更新
- 深层爬虫
需要登陆 需要提交数据
分时间段爬去相关关键字额淘宝搜索
分析前100个商品的标题,从而可以找出
淘宝商品标题的seo优化关键词
# 写一个爬虫的步骤
## 1.目的
- 需要爬取哪个网站,什么内容,持久化,性能要求(稳定、效率)
`网站:爬取淘宝`
`内容:搜索关键字后的商品信息`
`性能:稳定`
`目的:生成Excel表格`
## 2.分析
- 分析网页加载流程
- 动态加载(异步加载)
`ajax`
`js生成`
python的json模块转字典
- 分析网页的信息,提取需要的信息
`re 正则表达式`
`Beautifulsoup`
## 3.实现
- 根据分析的结果,代码实现
`request` `urllib`
## 网页的加载流程