采集器设置 · 彩客规则采集器用户操作文档

点击任务底部进度条的“采集器设置”进入规则编辑界面输入采集规则名称和目标网站编码（可自动检测）自动补全网址可以将网页中的相对地址（不包含域名的网址）转为绝对网址（包含域名）修改请求头信息以适应需要登录的、手机浏览的等界面 ![](https://box.kancloud.cn/c0bc0debcd7c2747818bee73b1a1a09e_533x846.png) # 起始页网址 ***** 添加需要采集的目标列表页点击“+”号可批量添加网址，勾选“设置为内容页网址”可直接采集输入的网址，否则作为列表页需要进行分析提取出内容页网址 ![](https://box.kancloud.cn/30d24c91aeea41cc43b493eb4fd6166b_408x316.png) # 内容页网址 ***** 编写提取内容页网址的规则，默认提取所有网址，如需精准可设置“提取网址规则” ![](https://box.kancloud.cn/54f0fd4a6b045ad1aca2b007b431fd4c_532x1014.png) 多级网址获取：适用于小说、影视等连载形式的内容只要内容页网址不是直接从起始页抓取的，都可以通过多级来获取 ![](https://box.kancloud.cn/a0fcaaed7acc61baf01f3ce33301032e_533x208.png) ![](https://box.kancloud.cn/e9cd76acbb8832ae79a81320dfddb40a_588x600.png) 关联页网址获取：适用于数据分散在多个页面中如需要抓取的字段不在内容页，而在其他页面中，则可以使用该功能将其他页面也作为内容源 ![](https://box.kancloud.cn/b5f78d56f7dce3fa8c68c7e31a466847_532x163.png) ![](https://box.kancloud.cn/fe57b6a18298f2954e2604bc35d85a42_586x411.png) # 获取内容 ***** “添加默认”可以自动设置几个抓取的字段，能满足大部分文章类型的站点采集如果目标数据格式比较复杂，可点击“+”自行编写字段规则，支持正则表达式、xpath、json等多种匹配方式 ![](https://box.kancloud.cn/5380bc9df3f430ee70f447e8a97a6d42_496x503.png) “数据处理”可将采集到的字段值进行过滤或替换内容，每个字段都可单独处理或使用通用处理 ![](https://box.kancloud.cn/4c6329faeffd98c492260945be8140ca_377x563.png) 如需抓取分页，点击开启“内容分页”并编写规则，程序会自动抓取每个分页中的字段内容 ![](https://box.kancloud.cn/b8ffc7d471e29392afda84a602de5505_435x881.png) # 测试规则 ***** 采集器配置完成后需点击保存按钮，刷新后可在“内容页网址”选项卡和“获取内容”选项卡中看到测试按钮测试列表页中抓取网址 ![](https://box.kancloud.cn/5e6c8798f3a90b0be9897358aeed98c3_442x338.png) 测试页面中抓取数据 ![](https://box.kancloud.cn/6bbfc6f4ce40ea3683dcca4c8856cd3c_692x1130.png) 测试抓取分页 ![](https://box.kancloud.cn/4c39f9cfca99cd5aedcd05ae31bfdefd_892x407.png)