规则匹配 · 彩客规则采集器用户操作文档

# 规则匹配 ***** 添加、编辑字段时使用规则匹配可精准获取目标页面的数据 ![](https://box.kancloud.cn/bd7259de7b8e8bfcf478e3299adce12d_584x481.png) “规则”支持：(*)（通配符）、正则表达式，使用[内容]（通用匹配）或捕获组（正则捕获组）将匹配的数据保存为标签，在“拼接内容”中引用[内容N]标签组成结果 [内容]和捕获组的区别：[内容]会自动转换成固定格式捕获组：(?<content>.*?)而捕获组：(?<content>[\s\S]*?)，可以编写任意正则表达式 [内容]适用于精准度不高的通用匹配，捕获组适用于精准匹配默认为单个匹配，多个匹配可勾选“允许匹配多个元素 # 示例 ***** 以网易新闻为例，页面中有许多元素，而我们只需要标题和正文 ![](https://box.kancloud.cn/0c72eed70daf3b94cef0e6a150160542_600x549.png) 鼠标右键，查看页面源代码，使用键盘 CTRL+F 搜索标题，找到标题的位置 ![](https://box.kancloud.cn/3b8d3112fc8ef18d8fc1ff02673b7727_735x259.png) 即标题的规则为：<h1>[内容]</h1> 同理，找出正文所在位置 ![](https://box.kancloud.cn/7d221524bc0f6d9c0a53af396bd4d77e_921x324.png) 正文处于标记的红框html代码之间即正文的规则为：<div class="post_text" id="endText" style="border-top:1px solid #ddd;">[内容]<div class="ep-source cDGray"> 思路很简单，唯一要注意的是确保匹配的唯一性，我们可以优先选择有id属性的标签，大家可以动手试试。