7.3 Splash负载均衡配置 · python3爬虫笔记

### 1. 配置Splash服务 {#1-配置splash服务} 要搭建 Splash 负载均衡首先我们需要有多个 Splash 服务，假如在这里我在四台远程主机的 8050 端口上都开启了 Splash 服务，它们的服务地址分别为：41.159.27.223:8050、41.159.27.221:8050、41.159.27.9:8050、41.159.117.119:8050，四个服务完全一致，都是通过 Docker 的 Splash 镜像开启的，访问任何一个服务都可以使用 Splash 服务。 ### 2. 配置负载均衡 {#2-配置负载均衡} 接下来我们可以选用任意一台带有公网 IP 的主机来配置负载均衡，首先需要在这台主机上装好 Nginx，然后修改 Nginx 的配置文件 nginx.conf，添加如下内容： ``` http { upstream splash { least_conn; server 41.159 .27 .223 : 8050 ; server 41.159 .27 .221 : 8050 ; server 41.159 .27 .9 : 8050 ; server 41.159 .117 .119 : 8050 ; } server { listen 8050 ; location / { proxy_pass http://splash; } } } ``` 这样我们通过 upstream 字段定义了一个名字叫做 splash 的服务集群配置，least\_conn 代表最少链接负载均衡，它适合处理请求处理时间长短不一造成服务器过载的情况。或者我们也可以不指定配置，配置如下： ``` upstream splash { server 41.159 .27 .223 : 8050 ; server 41.159 .27 .221 : 8050 ; server 41.159 .27 .9 : 8050 ; server 41.159 .117 .119 : 8050 ; } ``` 这样默认以轮询策略实现负载均衡，每个服务器的压力相同，此策略适合服务器配置相当，无状态且短平快的服务使用。另外我们还可以指定权重，配置如下： ``` upstream splash { server 41.159 .27 .223 : 8050 weight= 4 ; server 41.159 .27 .221 : 8050 weight= 2 ; server 41.159 .27 .9 : 8050 weight= 2 ; server 41.159 .117 .119 : 8050 weight= 1 ; } ``` 我们通过 weight 指定了各个服务的权重，权重越高分配到处理的请求越多，假如不同的服务器配置差别比较大的话，就可以使用此种配置。最后还有一种 IP 哈希负载均衡，配置如下： ``` upstream splash { ip_hash; server 41.159 .27 .223 : 8050 ; server 41.159 .27 .221 : 8050 ; server 41.159 .27 .9 : 8050 ; server 41.159 .117 .119 : 8050 ; } ``` 服务器根据请求客户端的 IP 地址进行哈希计算，确保使用同一个服务器响应请求，这种策略适合有状态的服务，如用户登录后访问某个页面的情形。不过对于 Splash 来说不需要。我们可以根据不同的情形选用不同的配置，配置完成后重启一下 Nginx 服务： ``` sudo nginx -s reload ``` 这样直接访问 Nginx 所在服务器的 8050 端口即可实现负载均衡了。 ### 3. 配置认证 {#3-配置认证} 现在 Splash 是公开访问的，如果我们不想让其被公开访问还可以配置认证，仍然借助于 Nginx 即可，可以在 server 的 location 字段中添加一个 auth\_basic 和 auth\_basic\_user\_file 字段，配置如下： ``` http { upstream splash { least_conn; server 41.159 .27 .223 : 8050 ; server 41.159 .27 .221 : 8050 ; server 41.159 .27 .9 : 8050 ; server 41.159 .117 .119 : 8050 ; } server { listen 8050 ; location / { proxy_pass http://splash; auth_basic "Restricted" ; auth_basic_user_file /etc/nginx/conf.d/.htpasswd; } } } ``` 在这里使用的用户名密码配置放置在 /etc/nginx/conf.d 目录，我们需要使用 htpasswd 命令创建，例如创建一个用户名为 admin 的文件，命令如下： ``` htpasswd -c .htpasswd admin ``` 接下就会提示我们输入密码，输入两次之后，就会生成密码文件，查看一下内容： ``` cat .htpasswd admin:5ZBxQr0rCqwbc ``` 配置完成之后我们重启一下 Nginx 服务，运行如下命令： ``` sudo nginx -s reload ``` 这样访问认证就成功配置好了。 ### 4. 测试 {#4-测试} 最后我们可以用代码来测试一下负载均衡的配置，看看到底是不是每次请求会切换IP，利用[http://httpbin.org/get](http://httpbin.org/get)测试即可，代码实现如下： ``` import requests from urllib.parse import quote import re lua = ''' function main(splash, args) local treat = require("treat") local response = splash:http_get("http://httpbin.org/get") return treat.as_string(response.body) end ''' url = 'http://splash:8050/execute?lua_source=' + quote(lua) response = requests.get(url, auth=( 'admin' , 'admin' )) ip = re.search( '(\d+\.\d+\.\d+\.\d+)' , response.text).group( 1 ) print(ip) ``` 这里的 URL 中的 splash 请自行替换成自己的 Nginx 服务器 IP，在这里我修改了 Hosts 添加了 splash 别名。多次运行代码之后可以发现每次请求的 IP 都会变化：如第一次的结果： ``` 41.159.27.223 ``` 第二次的结果： ``` 41.159.27.9 ``` 这就说明负载均衡已经成功实现了。