2.3.1 爬虫概述 · python3爬虫笔记

# 2.3.1 爬虫概述爬虫就是获取网页并提取和保存信息的自动化程序的操作步骤: ## 获取网页 {#获取网页} 爬虫首先要做的工作就是获取网页，在这里获取网页即获取网页的源代码，源代码里面必然包含了网页的部分有用的信息，所以只要把源代码获取下来了，就可以从中提取我们想要的信息了。 ## 提取信息 {#提取信息} 我们在第一步获取了网页源代码之后，接下来的工作就是分析网页源代码，从中提取我们想要的数据。 ## 保存数据 {#保存数据} 提取信息之后我们一般会将提取到的数据保存到某处以便后续数据处理使用。保存形式有多种多样，如可以简单保存为 TXT 文本或 Json 文本，也可以保存到数据库，如 MySQL、MongoDB 等，也可保存至远程服务器，如借助 Sftp 进行操作等。 ## 自动化程序 {#自动化程序} 说到自动化程序，意思即是说爬虫可以代替人来完成这些操作。首先我们手工当然是可以提取这些信息的，但是当量特别大或者想快速获取大量数据的话，肯定还是借助于程序。所以爬虫就是代替我们来完成这份爬取数据的工作的自动化程序，它可以在抓取过程中进行各种异常处理、错误重试等操作，确保爬取持续高效地运行。