[TOC]
# 爬虫是什么
**爬虫** 在网络中全称为**网络爬虫**,它可以是一个或一组`程序`/`脚本`, `爬虫`运行后,可以从网络中的非结构化数据页面中提取并转化为结构化数据。获取到的结构化数据将用于后续的有价值的分析处理。
在**江湖**中 , 它的独门绝技可以称之为“**北冥神功**”, 吸取一切为我所用。只要内力深厚,天下一切皆为我吸收所用。
下图是一个蜘蛛(spider), 我们的`爬虫`就像它一样沿着蜘蛛的网按照一定规则爬来爬去。
这个爬来爬去的规则就是**爬虫规则**。
而爬来爬去获取到的小蚊子就是**爬虫目标数据**。
![a_real_spider](https://img.kancloud.cn/1c/83/1c83f7ff83a0b83fc646a4247e8224ae_597x388.jpeg)
---
按照使用场景可分类为:**`通用爬虫` 和 `专用爬虫`**
## 通用爬虫
我们常用的搜索引擎是一种`通用爬虫`,侧重通用性的全网页面爬取,而不是针对不同类型页面的数据进行详细的提取处理。
因而我们常常是通过搜索关键词作为入口来搜索到关键词相关联的链接地址,具体这里的数据是什么格式通常通用爬虫是不会关心的。
## 专用爬虫
针对特定页面或网站而开发的的爬虫,会对页面的数据进行有效筛选、处理分析等操作,并且持久化到数据库或者磁盘文件中。
我们今后要了解的爬虫就是此类`专用爬虫`。
- 课程大纲
- 入门篇
- 爬虫是什么
- 为什么要学习爬虫
- 爬虫的基本原理
- TCP/IP协议族的基本知识
- HTTP协议基础知识
- HTML基础知识
- HTML_DOM基础知识
- urllib3库的基本使用
- requests库的基本使用
- Web页面数据解析处理方法
- re库正则表达式的基础使用
- CSS选择器参考手册
- XPath快速了解
- 实战练习:百度贴吧热议榜
- 进阶篇
- 服务端渲染(CSR)页面抓取方法
- 客户端渲染(CSR)页面抓取方法
- Selenium库的基本使用
- Selenium库的高级使用
- Selenium调用JavaScript方法
- Selenium库的远程WebDriver
- APP移动端数据抓取基础知识
- HTTP协议代理抓包分析方法
- Appium测试Android应用基础环境准备
- Appium爬虫编写实战学习
- Appium的元素相关的方法
- Appium的Device相关操作方法
- Appium的交互操作方法
- 代理池的使用与搭建
- Cookies池的搭建与用法
- 数据持久化-数据库的基础操作方法(mysql/redis/mongodb)
- 执行JS之execjs库使用
- 高级篇
- Scrapy的基本知识
- Scrapy的Spider详细介绍
- Scrapy的Selector选择器使用方法
- Scrapy的Item使用方法
- Scrapy的ItemPipeline使用方法
- Scrapy的Shell调试方法
- Scrapy的Proxy设置方法
- Scrapy的Referer填充策略
- Scrapy的服务端部署方法
- Scrapy的分布式爬虫部署方法
- Headless浏览器-pyppeteer基础知识
- Headless浏览器-pyppeteer常用的设置方法
- Headless浏览器-反爬应对办法
- 爬虫设置技巧-UserAgent设置
- 反爬策略之验证码处理方法
- 反爬识别码之点击文字图片的自动识别方法
- 反爬字体处理方法总结
- 防止反爬虫的设置技巧总结
- 实战篇
- AJAX接口-CSDN技术博客文章标题爬取
- AJAX接口-拉购网职位搜索爬虫
- 执行JS示例方法一之动漫图片地址获取方法
- JS执行方法示例二完整mangabz漫画爬虫示例
- 应用实践-SOCKS代理池爬虫
- 落霞小说爬虫自动制作epub电子书
- 一种简单的适用于分布式模式知乎用户信息爬虫实现示例
- 法律安全说明