企业🤖AI Agent构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 爬虫的分类 - 通用型爬虫 全网爬虫,搜索引擎 - 聚焦型爬虫 - 增量爬虫 每隔一段时间更新 - 深层爬虫 需要登陆 需要提交数据 分时间段爬去相关关键字额淘宝搜索 分析前100个商品的标题,从而可以找出 淘宝商品标题的seo优化关键词 # 写一个爬虫的步骤 ## 1.目的 - 需要爬取哪个网站,什么内容,持久化,性能要求(稳定、效率) `网站:爬取淘宝` `内容:搜索关键字后的商品信息` `性能:稳定` `目的:生成Excel表格` ## 2.分析 - 分析网页加载流程 - 动态加载(异步加载) `ajax` `js生成` python的json模块转字典 - 分析网页的信息,提取需要的信息 `re 正则表达式` `Beautifulsoup` ## 3.实现 - 根据分析的结果,代码实现 `request` `urllib` ## 网页的加载流程