💎一站式轻松地调用各大LLM模型接口,支持GPT4、智谱、星火、月之暗面及文生图 广告
## 第一步 分布式采集器部署 > 动态拨号vps 购买地址 `http://vps.upptp.com/bohaovps.asp` 联系客服就说买网速快的秒切换ip的机器然后安装CentOS7.x系统,因为一些自动拨号的脚本都是依据 CentOS7.x 和这家内置的一些ppoe拨号服务写的所以其他家的拨号vps也没测试,就推荐这一家就可以了. > 混播就是宽带速率低可能就有几m ,但是ip是全国的 > 单个地区就是 宽度速率高 但是ip仅限于那个城市或者省会 > 必须买能秒播的地区 如果不知道什么是秒播请咨询客服要秒播地区速率快的有公网ip 的 > 注册地址 `http://vps.upptp.com/user/14082.asp` > 我常用的是 `http://vps.upptp.com/bohaovps.asp?typeid=97` 江苏镇江B套餐 30M 6A 的1G内存机器最为测试使用,正式使用可以买内存高点的 ![](https://img.kancloud.cn/9e/a2/9ea2e14d201c8f6f8c8ecc82bdc588c7_2036x1092.png) > 买好以后在 `http://vps.upptp.com/idc/user/vpsadm.asp` 在动态vps管理里面找到自己的机器 点击后台管 ![](https://box.kancloud.cn/c97b82287c3d58d585958eccc95f1bb4_2404x660.png) > 然后在 `预装操作系统` 里选择 linux7.2 或者 centos 7.x 然后点击 `马上预装操作系统` ![](https://box.kancloud.cn/5552e948c78e83b4a9cc71e7f725f6c6_1744x956.png) > 然后等待数分钟以后 `点击云服务器信息` 来查看是否安装成功 centos 系统 ![](https://box.kancloud.cn/c2e99b66888b9e15857fef9c0234cfb4_1704x1684.png) > 然后是进行 ssh 登录,默认是会提供个 Windows的 3389 登录端口 比如 `远程连接:59.58.40.150:12345` 那么linux 的ssh 远程 登录 地址就是 `ssh root@59.58.40.150 -p12346` 然后输入服务器密码登录即可,就是在默认的端口上 +1 的操作 > 这样的方式登录进去是 不能连接外网的需要在linux 系统里面执行 `cat /etc/redhat-release` 查看是否安装成CentOS系统 ![](https://box.kancloud.cn/844f25075ae9abf39fa013be3412a814_960x192.png) ## 第二步 ### 2.1 VPS初始化--方法1(任选其一) > 安装好后台以后在 `集群管理->机器管理->添加机器` 填写采集服务器信息,端口填写ssh登录的端口即可,其他字段按照字面意思填写即可,填写好以后点击测试,测试通过以后点击保存 ![](https://box.kancloud.cn/91535a01d377dd66f823d5e38a65cf2e_2390x1442.png) ![](https://box.kancloud.cn/1c2855e8afe29bc1ee3b9244efd4192f_2472x1784.png) > 然后在机器列表勾选需要初始化的采集服务器点击 `初始化ADSL` 初始化成功以后会有提示信息 ![](https://box.kancloud.cn/043e80288a195288a78bc723d8543c27_1620x1090.png) ![](https://box.kancloud.cn/fb8c7752b9d39cda8d687720a227c668_944x566.png) > 然后返回刚才的ssh 界面 输入 `ls -l` 命令查看当前目录下的文件是否有 `adsl.sh` 文件,如果存在的话就可以在命令行执行 `ifup ppp0` 命令 ![](https://box.kancloud.cn/e9bce6835dfa3613d06a5a004f123693_1184x518.png) > 如果adsl信息没写错则可以拨号成功,输入命令 `ifconfig` 命令会显示`ppp0`的拨号ip 然后 `ping www.baidu.com` 看看是否可以连接外网 ![](https://box.kancloud.cn/65272191c82c65f33d63e50888cb1d18_1728x1308.png) ![](https://box.kancloud.cn/04b707113945ebb9719c307236c365a4_1364x398.png) ### 2.2 VPS初始化--方法二(任选其一) 由于采集VPS是在国内后台在国外线路问题导致VPS初始化ADSL拨号失败下面使用手动设定ADSL拨号上网先SSH 登录vps 输入命令 `pppoe-setup` ![](https://img.kancloud.cn/6c/81/6c81521881c7a3cfb29bae07eee2510d_1294x730.png) ![](https://img.kancloud.cn/74/bb/74bb57dc6541cb04d3a9d928f3622e8e_1760x1298.png) ![](https://img.kancloud.cn/4a/c2/4ac2495a780cd908b3300a34719dd132_1716x1662.png) 敲回车后台提示以下信息 输入 `ifup ppp0` 来启动adsl 拨号 ![](https://img.kancloud.cn/29/9b/299bb9eb5d2e76d1cae44026acc011d1_1378x990.png) 输入`ifconfig` 查看是否拨号成功 出现外网ip ![](https://img.kancloud.cn/4a/ce/4ace45b8a9922d6b860943a5bfbb7469_1512x1054.png) 有部分机器拨号成功后 dns 设置错误 造成无法上网问题则需要 设置 默认dns 输入命令编辑 dns 配置文件 `vi /etc/resolv.conf` 把下列 内容替换默认内容然后保存 至于不会vi 命令这个得百度自己学学了不学没法在互联网混了,或者使用ftp连接服务器 把路径下的文件下载到本地修改好在上传回去 ``` nameserver 114.114.114.114 nameserver 114.114.115.115 ``` ![](https://img.kancloud.cn/1c/bb/1cbbfbfbf02c1e576ba11c91d2e8a9f5_806x150.png) 然后用命令 `sudo chattr +i /etc/resolv.conf` 修改文件为只读权限 防止机器重启被恢复成默认的 ![](https://img.kancloud.cn/50/ca/50ca5736030ad49cb9c2df8617d6a25e_906x104.png) 此时在ping 就可以成功了 ![](https://img.kancloud.cn/08/c1/08c125adc688ea022355969f96eb7983_1040x198.png) ## 3. 安装采集器 ``` yum install -y unzip wget vim //安装解压命令和下载命令 也可以用 curl 下载 wget http://oss-hk.bookcms.com/bookcms/BookSpider_2019-12-29.zip //下载采集器 unzip BookSpider_*.zip //解压采集器 ``` ![](https://box.kancloud.cn/b5dc49301072de2508c83c126a1f2451_1810x718.png) ![](https://box.kancloud.cn/2134ae610b05173418b68dc830f688b2_1832x1286.png) > 然后输入命令 `cd BookSpider` 进入采集器文件夹然后输入 `sh init.sh` 命令来初始化 脚本,以下是脚本内容 ```shell #!/bin/bash wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/repo/Centos-7.repo yum clean all yum makecache yum -y update yum -y install git wget vim net-tools unzip crontabs psmisc lrzsz #修改权限 chmod 755 ip_switch.sh #复制服务文件 cp bookspider.service /usr/lib/systemd/system/bookspider.service #开机启动 systemctl enable bookspider.service #启动采集服务 #systemctl start bookspider.service #定时任务 echo '*/5 * * * * root /root/BookSpider/ip_switch.sh 2>&1 >> /root/BookSpider/ip_switch.log 2>&1 /dev/null' >> /etc/crontab echo '0 */10 * * * root reboot' >> /etc/crontab #开机启动 systemctl enable crond.service #启动服务 systemctl start crond.service echo '* soft nofile 655350' >> /etc/security/limits.conf echo '* hard nofile 655350' >> /etc/security/limits.conf # 必须安装 谷歌浏览器 wget http://oss-hk.bookcms.com/google/google-chrome-stable_current_x86_64.rpm yum install -y ./google-chrome-stable_current_*.rpm yum install -y wqy-microhei-fonts wqy-zenhei-fonts ``` ![](https://box.kancloud.cn/577eb3ab4e1d58a27987a80c2b91ca55_1406x528.png) > 然后用命令 `vim conf/app.conf` 编辑采集器配置文件 ``` runmode = dev #服务器地址 server_url = "http://ip:1919" //后台服务器地址 #api入库key api_insert_key = "123456" //入库的key 需要和 后台配置文件一致 #当前vps 的登录ip和端口号 execute_server = "ip:ssh登录的端口号" #etcd etcd.endpoints = "ip:2379" //填写后台服务器地址 etcd.user = "" etcd.password = "" etcd.dial_timeout = 5 ``` > 然后 输入 ``` systemctl start bookspider.service //启动采集器 systemctl status bookspider.service //查看采集器状态 journalctl -f | grep "BookSpider" //查看日志 ``` > 如何使用分布式采集,在后台添加任务的时候 选择非 `本地服务器` 即为调用分布式采集来采集数据 ![](https://box.kancloud.cn/36519827721c2f3719e18b2a8c840b9b_1564x1250.png)