[TOC]
中文文档:http://shouce.jb51.net/scrapy0.24/topics/signals.html
## 1. 基础概念
编写一个爬虫程序,大概需要以下几步:
1. 编写Spider类:包含要处理的url和数据解析
2. 编写item类 : 处理解析后数据的结构化映射
3. 编写pipeline:限定数据的去处(需要在settings配置文件导入我们写的pipeline类)
### 1.1 scrapy架构
> * scrapy纯Python实现的爬虫框架,只需要些网页的分析某块,就可以实现网站数据的抓取
> * 如果是请求,scrapy交给Downloader下载,并把数据交给爬虫,如果是数据就交给ItemPipeline处理,依次循环
![](https://box.kancloud.cn/8c591d54457bb033812a2b0364011e9c_700x494.png)
> * Scrapy Engine(引擎):
负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
> * Scheduler(调度器):
它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,并调用Downloader下载。当引擎需要时,交还给引擎。
> * Downloader(下载器):
负责下载scheduler(调度器)发送的所有Requests请求,并将其获取到的Responses交还给Scrapy Engine(引擎),由引擎交给Spider来处理,对应DownloaderMiddlewareManager类
> * Spider(爬虫):
它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)
> * Item Pipeline(管道):
它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方.
> * Downloader Middlewares(下载中间件):
你可以当作是一个可以自定义扩展下载功能的组件。
> * Spider Middlewares(Spider中间件):
你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件(比如进入Spider的Responses;和从Spider出去的Requests)
### 1.2 数据流向
> 1. 引擎从自定义爬虫中获取初始化请求(也叫种子URL);
> 2. 引擎把该请求放入调度器中,同时引擎向调度器获取一个待下载的请求(这两部是异步执行的);
> 3. 调度器返回给引擎一个待下载的请求;
> 4. 引擎发送请求给下载器,中间会经过一系列下载器中间件;
> 5. 这个请求通过下载器下载完成后,生成一个响应对象,返回给引擎,这中间会再次经过一系列下载器中间件;
> 6. 引擎接收到下载返回的响应对象后,然后发送给爬虫,执行自定义爬虫逻辑,中间会经过一系列爬虫中间件;
> 7. 爬虫执行对应的回调方法,处理这个响应,完成用户逻辑后,会生成结果对象或新的请求对象给引擎,再次经过一系列爬虫中间件;
> 8. 引擎把爬虫返回的结果对象交由结果处理器处理,把新的请求对象通过引擎再交给调度器;
> 9. 从1开始重复执行,直到调度器中没有新的请求处理;
>
### 1.3 源码脑图
![](https://box.kancloud.cn/c843f1285a2e70b2b917f90439a939d2_1842x1279.png)
## 2. 入门实例
爬取传智播客老师的数据
![](https://box.kancloud.cn/52279555a13b55c2b4861085f47db6ee_1161x614.png)
> * 我们写爬虫,只要写Spider,item,pipeline这三个部分就可以了,并发、请求下载都是有scrapy完成
### 2.1 安装开发环境
1. Windows 安装方式
~~~
# python2.x
pip install Scrapy
# python3.x
pip3 install Scrapy
~~~
Ubuntu 需要9.10或以上版本安装方式
~~~
Python 2 / 3
安装非Python的依赖 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev
通过pip 安装 Scrapy 框架 sudo pip install scrapy
~~~
### 2.2 编写爬虫程序
以爬取传智播客的数据为例
#### 2.2.1. 新建一个爬虫项目
~~~
# 任意目录下执行
scrapy startproject mySpider
~~~
mySpider :项目名称
![](https://box.kancloud.cn/fd9dedebd25aeefbabb7fa3bf621e185_632x222.png)
mySpider目录下还有一个mySpider
将新建的项目导入intellij
![](https://box.kancloud.cn/f1294da71c6869b13207c8dece0e0079_384x349.png)
~~~
scrapy.cfg :项目的配置文件
mySpider/ :项目的Python模块,将会从这里引用代码
mySpider/items.py :项目的目标文件,爬取到的数据的映射结构
mySpider/pipelines.py :项目的管道文件,规定了爬取到的数据的去处
mySpider/settings.py :项目的设置文件
mySpider/spiders/ :存储爬虫代码目录,我们写的代码都在这里
~~~
#### 2.2.2 Spider爬虫类
* 继承scrapy.Spider类
* 四个固定写法
> 1. name = 'tuna' 固定写法,爬虫标识名,用这个名驱动爬虫程序
> 2. allowed_domains = ['itcast.cn'] 固定写法,限制访问的域
> 3. start_urls = ['http://www.itcast.cn/channel/teacher.shtml#aandroid','http://www.itcast.cn/channel/teacher.shtml#ac'] 固定写法,定义爬虫入口url,可以写多个标识在规定域内不同类型的数据
> 4. 重写parse方法,解析HTML数据
~~~
# -*- coding: utf-8 -*-
import scrapy
from mySpider.items import teacherItem
import chardet
class TunaSpider(scrapy.Spider):
name = 'tuna' # 爬虫识别名称,唯一且不同的爬虫有不一样的名字
allowed_domains = ['itcast.cn'] # 限制搜索域名范围
start_urls = ['http://www.itcast.cn/channel/teacher.shtml#aandroid','http://www.itcast.cn/channel/teacher.shtml#ac'] # 爬虫入口url,这里爬取了传智播客的教安卓和C++的老师的数据
# 解析方法,每个初始URL完成下载后被调用,调用时传入每个URL的传回的
# response对象作为唯一的参数
def parse(self, response):
teacher_list = response.xpath('//div[@class="li_txt"]')
for each in teacher_list:
item = teacherItem() # item映射
# 不加extract() 结果为xpath匹配对象
# 这里只匹配到一行文本,如果多行用extract()[0]只取一行信息导致不全
# 所有extract()获取整个列表,再用"".join(extract())把列表转成字符串
name = each.xpath('./h3/text()').extract()[0]
# title
level = each.xpath('./h4/text()').extract()[0]
# info
info = each.xpath('./p/text()').extract()[0]
print(name[0]) # 返回的是数组,取第一个值就行,否则这样打印['胡老师']
print(level[0])
print(info[0])
# 建立item映射
item['name'] = name
item['level'] = level
item['info'] = info
yield item
~~~
![](https://box.kancloud.cn/c1a593fbb46ad6a45ba07ccfe76427e9_786x481.png)
我们用xpath可能匹配出来多个,也可能匹配出一个,xtract()[0] 把xpath对象转换成Unicode字符串列表,[0] 代表第一行文字
**利用模板生成spider**
* 我们可以执行
~~~
`scrapy genspider tuna "itcast.cn"`
~~~
> 命令直接生成上述Spider模板类,就不用按照条条框框写了tuna是类名,itcast.cn是限定的域名,这样就会在spiders目录下创建一个符合scrapy框架的爬虫类。
#### 2.2.3 Item类
* 继承scrapy.Item类
~~~
# -*- coding: utf-8 -*-
import scrapy
"""
定义结构化字段,用来保存爬取到的数据
"""
class teacherItem(scrapy.Item):
name = scrapy.Field() # 这里建立了三个映射关系结构scrapy.Field(),接受Spider的数据
level = scrapy.Field()
info = scrapy.Field()
~~~
#### 2.2.4 Pipelines管道类
> * 管道类负责采集到的数据,是写入文件还是数据库都随便了
> * 需要继承object类
代码,把爬取到的数据写入了文件
~~~
# -*- coding: utf-8 -*-
import json
class teacherPipeline(object):
# 执行一次
def __init__(self):
self.file = open("teacher.josn","w")
# 来数据就执行
def process_item(self,item,spider):
json_dump = json.dumps(dict(item), ensure_ascii=False) + "\n"
self.file.write(json_dump)
# 爬虫结束执行
def close_spider(self,spider):
self.file.close()
~~~
> 修改配置文件,导入管道类,修改settings文件
![](https://box.kancloud.cn/10f041d024657d41454acfecdb1cb2da_1066x197.png)
> 以下是整个工程的结构,spiders下都是我们的自定义爬虫类
![](https://box.kancloud.cn/721f2d8a3176bb2b3015feff41487629_556x449.png)
#### 2.2.5 执行爬虫程序
~~~
# tunapipeline是我们自定义的爬虫类
scrapy crawl tunapipeline
~~~
![](https://box.kancloud.cn/c057e07df85efb7722460a55f43f950a_1733x258.png)
**如果不规定管道类,我们可以直接输出问文件 !!!!!!!**
~~~
scrapy crawl tunapipeline -o teacherllll.xml
~~~
![](https://box.kancloud.cn/7c419a82b71b70d9082f940f513d6fff_1773x578.png)
#### 2.2.6 执行流程
> 1. Scrapy engine 会把class TunaSpider(scrapy.Spider):中规定的url交给下载器
> 2. 下载器把url的数据下载下来返回给我们自定义的`class TunaSpider(scrapy.Spider):`,并调用它的`parse(self,response)`方法,把下载的数据传给response
> 3. class TunaSpider(scrapy.Spider):的parse(self,response)首先对抓取的数据进行解析,然后根据item映射,如果有pipeline就按照pipeline的规则进行输出
>
## 3. 中间件
![](https://box.kancloud.cn/59a67506ddf2f8698126694c7a18d6cb_591x356.png)
* 在downloadmidware 自定义中间件,对request和response进行修改
### 3.1 设置User-Agent
处于engine和downloader中间,处理request和response
* fake-useragent开源useragent,这样就不需要我们自己来维护useragent列表了
1. 使用fake-useragent
GitHub:https://github.com/hellysmile/fake-useragent
1. 安装
~~~
pip install fake-useragent
~~~
2. 自定义Middlware类
~~~
class RandomUserAgentMiddlware(object):
#随机更换user-agent
def __init__(self, crawler):
super(RandomUserAgentMiddlware, self).__init__()
self.ua = UserAgent()
self.ua_type = crawler.settings.get("RANDOM_UA_TYPE", "random")
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
def process_request(self, request, spider):
def get_ua():
return getattr(self.ua, self.ua_type)
request.headers.setdefault('User-Agent', get_ua())
~~~
3. 设置settings.py配置下载中间件
scrapy有一个默认的下载中间件,他默认的把User-Agent设置为scrapy,**一定要把默认的useragent优先级设置为None**所以我们要把我们定义的中间的优先级设置的高一些,让自定义的中间件后执行,这样就把默认的覆盖了。
~~~
from scrapy import signals
class UserAgentMiddleware(object):
"""This middleware allows spiders to override the user_agent"""
def __init__(self, user_agent='Scrapy'):
self.user_agent = user_agent
@classmethod
def from_crawler(cls, crawler):
o = cls(crawler.settings['USER_AGENT'])
crawler.signals.connect(o.spider_opened, signal=signals.spider_opened)
return o
def spider_opened(self, spider):
self.user_agent = getattr(spider, 'user_agent', self.user_agent)
def process_request(self, request, spider):
if self.user_agent:
request.headers.setdefault(b'User-Agent', self.user_agent)
~~~
~~~
DOWNLOADER_MIDDLEWARES = {
'ArticleSpider.middlewares.RandomUserAgentMiddlware': 543,
# scrapy默认的下载中间件
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}
~~~
### 3.2 ip代理
- Docker
- 什么是docker
- Docker安装、组件启动
- docker网络
- docker命令
- docker swarm
- dockerfile
- mesos
- 运维
- Linux
- Linux基础
- Linux常用命令_1
- Linux常用命令_2
- ip命令
- 什么是Linux
- SELinux
- Linux GCC编译警告:Clock skew detected. 错误解决办法
- 文件描述符
- find
- 资源统计
- LVM
- Linux相关配置
- 服务自启动
- 服务器安全
- 字符集
- shell脚本
- shell命令
- 实用脚本
- shell 数组
- 循环与判断
- 系统级别进程开启和停止
- 函数
- java调用shell脚本
- 发送邮件
- Linux网络配置
- Ubuntu
- Ubuntu发送邮件
- 更换apt-get源
- centos
- 防火墙
- 虚拟机下配置网络
- yum重新安装
- 安装mysql5.7
- 配置本地yum源
- 安装telnet
- 忘记root密码
- rsync+ crontab
- Zabbix
- Zabbix监控
- Zabbix安装
- 自动报警
- 自动发现主机
- 监控MySQL
- 安装PHP常见错误
- 基于nginx安装zabbix
- 监控Tomcat
- 监控redis
- web监控
- 监控进程和端口号
- zabbix自定义监控
- 触发器函数
- zabbix监控mysql主从同步状态
- Jenkins
- 安装Jenkins
- jenkins+svn+maven
- jenkins执行shell脚本
- 参数化构建
- maven区分环境打包
- jenkins使用注意事项
- nginx
- nginx认证功能
- ubuntu下编译安装Nginx
- 编译安装
- Nginx搭建本地yum源
- 文件共享
- Haproxy
- 初识Haproxy
- haproxy安装
- haproxy配置
- virtualbox
- virtualbox 复制新的虚拟机
- ubuntu下vitrualbox安装redhat
- centos配置双网卡
- 配置存储
- Windows
- Windows安装curl
- VMware vSphere
- 磁盘管理
- 增加磁盘
- gitlab
- 安装
- tomcat
- Squid
- bigdata
- FastDFS
- FastFDS基础
- FastFDS安装及简单实用
- api介绍
- 数据存储
- FastDFS防盗链
- python脚本
- ELK
- logstash
- 安装使用
- kibana
- 安准配置
- elasticsearch
- elasticsearch基础_1
- elasticsearch基础_2
- 安装
- 操作
- java api
- 中文分词器
- term vector
- 并发控制
- 对text字段排序
- 倒排和正排索引
- 自定义分词器
- 自定义dynamic策略
- 进阶练习
- 共享锁和排它锁
- nested object
- 父子关系模型
- 高亮
- 搜索提示
- Redis
- redis部署
- redis基础
- redis运维
- redis-cluster的使用
- redis哨兵
- redis脚本备份还原
- rabbitMQ
- rabbitMQ安装使用
- rpc
- RocketMQ
- 架构概念
- 安装
- 实例
- 好文引用
- 知乎
- ACK
- postgresql
- 存储过程
- 编程语言
- 计算机网络
- 基础_01
- tcp/ip
- http转https
- Let's Encrypt免费ssl证书(基于haproxy负载)
- what's the http?
- 网关
- 网络IO
- http
- 无状态网络协议
- Python
- python基础
- 基础数据类型
- String
- List
- 遍历
- Python基础_01
- python基础_02
- python基础03
- python基础_04
- python基础_05
- 函数
- 网络编程
- 系统编程
- 类
- Python正则表达式
- pymysql
- java调用python脚本
- python操作fastdfs
- 模块导入和sys.path
- 编码
- 安装pip
- python进阶
- python之setup.py构建工具
- 模块动态导入
- 内置函数
- 内置变量
- path
- python模块
- 内置模块_01
- 内置模块_02
- log模块
- collections
- Twisted
- Twisted基础
- 异步编程初探与reactor模式
- yield-inlineCallbacks
- 系统编程
- 爬虫
- urllib
- xpath
- scrapy
- 爬虫基础
- 爬虫种类
- 入门基础
- Rules
- 反反爬虫策略
- 模拟登陆
- problem
- 分布式爬虫
- 快代理整站爬取
- 与es整合
- 爬取APP数据
- 爬虫部署
- collection for ban of web
- crawlstyle
- API
- 多次请求
- 向调度器发送请求
- 源码学习
- LinkExtractor源码分析
- 构建工具-setup.py
- selenium
- 基础01
- 与scrapy整合
- Django
- Django开发入门
- Django与MySQL
- java
- 设计模式
- 单例模式
- 工厂模式
- java基础
- java位移
- java反射
- base64
- java内部类
- java高级
- 多线程
- springmvc-restful
- pfx数字证书
- 生成二维码
- 项目中使用log4j
- 自定义注解
- java发送post请求
- Date时间操作
- spring
- 基础
- spring事务控制
- springMVC
- 注解
- 参数绑定
- springmvc+spring+mybatis+dubbo
- MVC模型
- SpringBoot
- java配置入门
- SpringBoot基础入门
- SpringBoot web
- 整合
- SpringBoot注解
- shiro权限控制
- CommandLineRunner
- mybatis
- 静态资源
- SSM整合
- Aware
- Spring API使用
- Aware接口
- mybatis
- 入门
- mybatis属性自动映射、扫描
- 问题
- @Param 注解在Mybatis中的使用 以及传递参数的三种方式
- mybatis-SQL
- 逆向生成dao、model层代码
- 反向工程中Example的使用
- 自增id回显
- SqlSessionDaoSupport
- invalid bound statement(not found)
- 脉络
- beetl
- beetl是什么
- 与SpringBoot整合
- shiro
- 什么是shiro
- springboot+shrio+mybatis
- 拦截url
- 枚举
- 图片操作
- restful
- java项目中日志处理
- JSON
- 文件工具类
- KeyTool生成证书
- 兼容性问题
- 开发规范
- 工具类开发规范
- 压缩图片
- 异常处理
- web
- JavaScript
- 基础语法
- 创建对象
- BOM
- window对象
- DOM
- 闭包
- form提交-文件上传
- td中内容过长
- 问题1
- js高级
- js文件操作
- 函数_01
- session
- jQuery
- 函数01
- data()
- siblings
- index()与eq()
- select2
- 动态样式
- bootstrap
- 表单验证
- 表格
- MUI
- HTML
- iframe
- label标签
- 规范编程
- layer
- sss
- 微信小程序
- 基础知识
- 实践
- 自定义组件
- 修改自定义组件的样式
- 基础概念
- appid
- 跳转
- 小程序发送ajax
- 微信小程序上下拉刷新
- if
- 工具
- idea
- Git
- maven
- svn
- Netty
- 基础概念
- Handler
- SimpleChannelInboundHandler 与 ChannelInboundHandler
- 网络编程
- 网络I/O
- database
- oracle
- 游标
- PLSQL Developer
- mysql
- MySQL基准测试
- mysql备份
- mysql主从不同步
- mysql安装
- mysql函数大全
- SQL语句
- 修改配置
- 关键字
- 主从搭建
- centos下用rpm包安装mysql
- 常用sql
- information_scheme数据库
- 值得学的博客
- mysql学习
- 运维
- mysql权限
- 配置信息
- 好文mark
- jsp
- jsp EL表达式
- C
- test