爬虫是什么 · 虫师de江湖

[TOC] # 爬虫是什么 **爬虫** 在网络中全称为**网络爬虫**，它可以是一个或一组`程序`/`脚本`， `爬虫`运行后，可以从网络中的非结构化数据页面中提取并转化为结构化数据。获取到的结构化数据将用于后续的有价值的分析处理。在**江湖**中，它的独门绝技可以称之为“**北冥神功**”，吸取一切为我所用。只要内力深厚，天下一切皆为我吸收所用。下图是一个蜘蛛(spider)，我们的`爬虫`就像它一样沿着蜘蛛的网按照一定规则爬来爬去。这个爬来爬去的规则就是**爬虫规则**。而爬来爬去获取到的小蚊子就是**爬虫目标数据**。 ![a_real_spider](https://img.kancloud.cn/1c/83/1c83f7ff83a0b83fc646a4247e8224ae_597x388.jpeg) --- 按照使用场景可分类为：**`通用爬虫` 和 `专用爬虫`** ## 通用爬虫我们常用的搜索引擎是一种`通用爬虫`，侧重通用性的全网页面爬取，而不是针对不同类型页面的数据进行详细的提取处理。因而我们常常是通过搜索关键词作为入口来搜索到关键词相关联的链接地址，具体这里的数据是什么格式通常通用爬虫是不会关心的。 ## 专用爬虫针对特定页面或网站而开发的的爬虫，会对页面的数据进行有效筛选、处理分析等操作，并且持久化到数据库或者磁盘文件中。我们今后要了解的爬虫就是此类`专用爬虫`。