[TOC]
## 1. scrapyd
> 1. scrapyd是又scrapy提供的免费开源的工具,用来管理你创建的scrapy项目的有界面的管理工具。
> 2. scrapy-client是是免费开源的工具,用来打包并发布你的scrapy项目到scrapyd。用scrapyd发布要麻烦一些。这个工具简化了发布步骤。
官方文档:http://scrapyd.readthedocs.io/en/latest/overview.html
### 1.1 install(Ubuntu)
* 前提要求安装了scrapy:https://doc.scrapy.org/en/latest/topics/ubuntu.html
~~~
# 安装依赖
sudo apt-get install -y libffi-dev libssl-dev libxml2-dev libxslt1-dev zlib1g-dev build-dep python-lxml
git clone https://github.com/scrapy/scrapyd
cd scrapyd/
python3 setup.py install
~~~
或者:
~~~
pip3 install scrapyd
~~~
> 1. 报错:Invalid environment marker:python_version < '3',解决办法如下
~~~
sudo pip3 install --upgrade setuptools
~~~
> 2. 报错: Could not find function xmlCheckVersion in library libxml2. Is libxml2 installed?
~~~
sudo apt-get install -y libxml2-dev libxslt1-dev zlib1g-dev
~~~
> 3. 报错:error: Could not find required distribution pyasn1
~~~
pip3 install pyasn1
~~~
> 4. 报错:error: Setup script exited with error: command 'x86_64-linux-gnu-gcc' failed with exit status 1
~~~
sudo apt-get build-dep python-lxml
~~~
> 5. 报错:c/_cffi_backend.c:15:17: fatal error: ffi.h: No such file or directory #include <ffi.h>
~~~
sudo apt-get install libffi-dev
~~~
6. 报错:error: Setup script exited with error in cryptography setup command: Invalid environment marker: platform_python_implementation != 'PyPy'
~~~
sudo pip install --upgrade setuptools
~~~
### 1.2 配置scrapyd
> Scrapyd searches for configuration files in the following locations, and parses them in order with the latest one taking more priority:
~~~
/etc/scrapyd/scrapyd.conf (Unix)
c:\scrapyd\scrapyd.conf (Windows)
/etc/scrapyd/conf.d/* (in alphabetical order, Unix)
scrapyd.conf
~/.scrapyd.conf (users home directory)
~~~
scrapyd默认绑定127.0.0.1,我们需要把它修改为服务器ip,这样client才可以向它发送部署请求
~~~
# 创建目录
mkdir /etc/scrapyd
# 创建文件
vim /etc/scrapyd/scrapyd.conf
# 增加配置
[scrapyd]
eggs_dir = eggs
logs_dir = logs
items_dir =
jobs_to_keep = 5
dbs_dir = dbs
max_proc = 0
max_proc_per_cpu = 4
finished_to_keep = 100
poll_interval = 5.0
bind_address = 192.168.56.130
http_port = 6800
debug = off
runner = scrapyd.runner
application = scrapyd.app.application
launcher = scrapyd.launcher.Launcher
webroot = scrapyd.website.Root
[services]
schedule.json = scrapyd.webservice.Schedule
cancel.json = scrapyd.webservice.Cancel
addversion.json = scrapyd.webservice.AddVersion
listprojects.json = scrapyd.webservice.ListProjects
listversions.json = scrapyd.webservice.ListVersions
listspiders.json = scrapyd.webservice.ListSpiders
delproject.json = scrapyd.webservice.DeleteProject
delversion.json = scrapyd.webservice.DeleteVersion
listjobs.json = scrapyd.webservice.ListJobs
daemonstatus.json = scrapyd.webservice.DaemonStatus
~~~
### 1.2 运行scrapyd
~~~
nohup scrapyd & > scrpyd.log 2>&1 &
~~~
## 2. scrapyd-clinet
GitHub地址:https://github.com/scrapy/scrapyd-client
### 2.1 安装
~~~
pip3 install scrapyd-client
~~~
### 2.2 部署爬虫项目scrapyd-deploy
#### 2.2.1 配置爬虫项目
> 修改爬虫项目下的scrapy.cfg,设置该爬虫项目所要发布到的服务器(运行scrapyd的服务器)
~~~
[deploy]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
~~~
#### 2.2.2 部署
**1. 执行打包命令**
~~~
scrapyd-deploy
~~~
> Windows下报错:
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy
'scrapyd-deploy' 不是内部或外部命令,也不是可运行的程序
~~~
> * 通常情况下,开始时在Windows系统下,但是不具有可执行权限,所以要做以下修改
1. 在python的安装目录下,找到Scripts目录,新建scrapyd-deploy.bat文件
![](https://box.kancloud.cn/7ff68824b1f51d9b522ebad4489f2892_1214x501.png)
2. 添加一下内容
~~~
@echo off
"D:\Python\Python36\python.exe" "D:\Python\Python36\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
~~~
> * 再次执行打包,成功返回以下:
~~~
Packing version 1519871059
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"project": "proxyscrapy", "status": "ok", "node_name": "zabbix01", "version": "1519871059", "spiders": 4}
~~~
**2. 发布爬虫项目**
windos下需要安装curl :https://www.kancloud.cn/tuna_dai_/day01/535005
~~~
curl http://192.168.56.130:6800/schedule.json -d project=proxyscrapy -d spider=yaoq
~~~
scrapyd还提供了很多请求,包括列举所有爬虫项目,所有爬虫,取消运行的爬虫等,官方api:http://scrapyd.readthedocs.io/en/latest/api.html
命令成功返回
~~~
{"status": "ok", "node_name": "zabbix01", "jobid": "3db9af3e1d0011e88b5c080027a60f41"
}
~~~
3. 查看爬虫状态
http://192.168.56.130:6800
点击jobs查看爬虫
![](https://box.kancloud.cn/d6ae60474a7ec7773d4b0112beec767e_863x565.png)
之后可以看爬虫的状态和日志
![](https://box.kancloud.cn/429af5ca9c8be6bb88d0fd3695d59fd4_1189x341.png)
修改代码后要重新scrapyd-deploy打包部署,爽!!!!!
## 3. 部署到多台scrapyd服务器
### 3.1 配置爬虫项目的scrapy.cfg
> 1. 指定多个target(scrapyd服务器),格式[deploy:标识名]
~~~
[deploy:zabbix01]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
[deploy:es01]
url = http://192.168.56.130:6800/
project = proxyscrapy
username = proxyscrapy
password = tuna
~~~
### 3.2 打包项目到scrapyd(target)
#### 3.2.1 单个部署
scrapyd-deploy [target标识名]
例:
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy zabbix01
Packing version 1519951093
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519951093", "node_name": "zabbix01", "spiders": 4, "project": "proxyscrapy"}
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy es01
Packing version 1519951106
Deploying to project "proxyscrapy" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519951106", "node_name": "zabbix01", "spiders": 4, "project": "proxyscrapy"}
~~~
#### 3.2.2 多个project同时打包
~~~
E:\PythonWorkSpace\scrapyredis>scrapyd-deploy -a
Packing version 1519952580
Deploying to project "scrapyredis" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519952580", "node_name": "zabbix01", "spiders": 1, "project": "scrapyredis"}
Packing version 1519952580
Deploying to project "scrapyredis" in http://192.168.56.130:6800/addversion.json
Server response (200):
{"status": "ok", "version": "1519952580", "node_name": "zabbix01", "spiders": 1, "project": "scrapyredis"}
~~~
> 1. 此时可以查看有多少可用的target
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy -l
zabbix01 http://192.168.56.130:6800/
es01 http://192.168.56.130:6800/
~~~
> 2. 查看某一target上部署那些项目
~~~
E:\PythonWorkSpace\proxyscrapy>scrapyd-deploy -L zabbix01
scrapyredis
proxyscrapy
~~~
> 3. 在服务器上开启爬虫
- Docker
- 什么是docker
- Docker安装、组件启动
- docker网络
- docker命令
- docker swarm
- dockerfile
- mesos
- 运维
- Linux
- Linux基础
- Linux常用命令_1
- Linux常用命令_2
- ip命令
- 什么是Linux
- SELinux
- Linux GCC编译警告:Clock skew detected. 错误解决办法
- 文件描述符
- find
- 资源统计
- LVM
- Linux相关配置
- 服务自启动
- 服务器安全
- 字符集
- shell脚本
- shell命令
- 实用脚本
- shell 数组
- 循环与判断
- 系统级别进程开启和停止
- 函数
- java调用shell脚本
- 发送邮件
- Linux网络配置
- Ubuntu
- Ubuntu发送邮件
- 更换apt-get源
- centos
- 防火墙
- 虚拟机下配置网络
- yum重新安装
- 安装mysql5.7
- 配置本地yum源
- 安装telnet
- 忘记root密码
- rsync+ crontab
- Zabbix
- Zabbix监控
- Zabbix安装
- 自动报警
- 自动发现主机
- 监控MySQL
- 安装PHP常见错误
- 基于nginx安装zabbix
- 监控Tomcat
- 监控redis
- web监控
- 监控进程和端口号
- zabbix自定义监控
- 触发器函数
- zabbix监控mysql主从同步状态
- Jenkins
- 安装Jenkins
- jenkins+svn+maven
- jenkins执行shell脚本
- 参数化构建
- maven区分环境打包
- jenkins使用注意事项
- nginx
- nginx认证功能
- ubuntu下编译安装Nginx
- 编译安装
- Nginx搭建本地yum源
- 文件共享
- Haproxy
- 初识Haproxy
- haproxy安装
- haproxy配置
- virtualbox
- virtualbox 复制新的虚拟机
- ubuntu下vitrualbox安装redhat
- centos配置双网卡
- 配置存储
- Windows
- Windows安装curl
- VMware vSphere
- 磁盘管理
- 增加磁盘
- gitlab
- 安装
- tomcat
- Squid
- bigdata
- FastDFS
- FastFDS基础
- FastFDS安装及简单实用
- api介绍
- 数据存储
- FastDFS防盗链
- python脚本
- ELK
- logstash
- 安装使用
- kibana
- 安准配置
- elasticsearch
- elasticsearch基础_1
- elasticsearch基础_2
- 安装
- 操作
- java api
- 中文分词器
- term vector
- 并发控制
- 对text字段排序
- 倒排和正排索引
- 自定义分词器
- 自定义dynamic策略
- 进阶练习
- 共享锁和排它锁
- nested object
- 父子关系模型
- 高亮
- 搜索提示
- Redis
- redis部署
- redis基础
- redis运维
- redis-cluster的使用
- redis哨兵
- redis脚本备份还原
- rabbitMQ
- rabbitMQ安装使用
- rpc
- RocketMQ
- 架构概念
- 安装
- 实例
- 好文引用
- 知乎
- ACK
- postgresql
- 存储过程
- 编程语言
- 计算机网络
- 基础_01
- tcp/ip
- http转https
- Let's Encrypt免费ssl证书(基于haproxy负载)
- what's the http?
- 网关
- 网络IO
- http
- 无状态网络协议
- Python
- python基础
- 基础数据类型
- String
- List
- 遍历
- Python基础_01
- python基础_02
- python基础03
- python基础_04
- python基础_05
- 函数
- 网络编程
- 系统编程
- 类
- Python正则表达式
- pymysql
- java调用python脚本
- python操作fastdfs
- 模块导入和sys.path
- 编码
- 安装pip
- python进阶
- python之setup.py构建工具
- 模块动态导入
- 内置函数
- 内置变量
- path
- python模块
- 内置模块_01
- 内置模块_02
- log模块
- collections
- Twisted
- Twisted基础
- 异步编程初探与reactor模式
- yield-inlineCallbacks
- 系统编程
- 爬虫
- urllib
- xpath
- scrapy
- 爬虫基础
- 爬虫种类
- 入门基础
- Rules
- 反反爬虫策略
- 模拟登陆
- problem
- 分布式爬虫
- 快代理整站爬取
- 与es整合
- 爬取APP数据
- 爬虫部署
- collection for ban of web
- crawlstyle
- API
- 多次请求
- 向调度器发送请求
- 源码学习
- LinkExtractor源码分析
- 构建工具-setup.py
- selenium
- 基础01
- 与scrapy整合
- Django
- Django开发入门
- Django与MySQL
- java
- 设计模式
- 单例模式
- 工厂模式
- java基础
- java位移
- java反射
- base64
- java内部类
- java高级
- 多线程
- springmvc-restful
- pfx数字证书
- 生成二维码
- 项目中使用log4j
- 自定义注解
- java发送post请求
- Date时间操作
- spring
- 基础
- spring事务控制
- springMVC
- 注解
- 参数绑定
- springmvc+spring+mybatis+dubbo
- MVC模型
- SpringBoot
- java配置入门
- SpringBoot基础入门
- SpringBoot web
- 整合
- SpringBoot注解
- shiro权限控制
- CommandLineRunner
- mybatis
- 静态资源
- SSM整合
- Aware
- Spring API使用
- Aware接口
- mybatis
- 入门
- mybatis属性自动映射、扫描
- 问题
- @Param 注解在Mybatis中的使用 以及传递参数的三种方式
- mybatis-SQL
- 逆向生成dao、model层代码
- 反向工程中Example的使用
- 自增id回显
- SqlSessionDaoSupport
- invalid bound statement(not found)
- 脉络
- beetl
- beetl是什么
- 与SpringBoot整合
- shiro
- 什么是shiro
- springboot+shrio+mybatis
- 拦截url
- 枚举
- 图片操作
- restful
- java项目中日志处理
- JSON
- 文件工具类
- KeyTool生成证书
- 兼容性问题
- 开发规范
- 工具类开发规范
- 压缩图片
- 异常处理
- web
- JavaScript
- 基础语法
- 创建对象
- BOM
- window对象
- DOM
- 闭包
- form提交-文件上传
- td中内容过长
- 问题1
- js高级
- js文件操作
- 函数_01
- session
- jQuery
- 函数01
- data()
- siblings
- index()与eq()
- select2
- 动态样式
- bootstrap
- 表单验证
- 表格
- MUI
- HTML
- iframe
- label标签
- 规范编程
- layer
- sss
- 微信小程序
- 基础知识
- 实践
- 自定义组件
- 修改自定义组件的样式
- 基础概念
- appid
- 跳转
- 小程序发送ajax
- 微信小程序上下拉刷新
- if
- 工具
- idea
- Git
- maven
- svn
- Netty
- 基础概念
- Handler
- SimpleChannelInboundHandler 与 ChannelInboundHandler
- 网络编程
- 网络I/O
- database
- oracle
- 游标
- PLSQL Developer
- mysql
- MySQL基准测试
- mysql备份
- mysql主从不同步
- mysql安装
- mysql函数大全
- SQL语句
- 修改配置
- 关键字
- 主从搭建
- centos下用rpm包安装mysql
- 常用sql
- information_scheme数据库
- 值得学的博客
- mysql学习
- 运维
- mysql权限
- 配置信息
- 好文mark
- jsp
- jsp EL表达式
- C
- test