企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
以下为简单教程,后续会补充和完善 #### 插件依赖querylist拓展,使用前请先安装执行命令: `composer require jaeger/querylist 4.2.1` ## 具体步骤 需求:采集http://bbs.yzncms.com/里面的帖子,发布到cms的新闻栏目 步骤一:新建一个新闻栏目 步骤二:新建采集任务 ![](https://img.kancloud.cn/c6/4d/c64d7174f6e7588f871a4dc8a4ba7a4a_568x820.jpg) 1.起始页网址这样设置代表采集1-5页 * * http://bbs.yzncms.com/?index-2.htm * http://bbs.yzncms.com/?index-3.htm * http://bbs.yzncms.com/?index-4.htm * http://bbs.yzncms.com/?index-5.htm 2.内容页和jq选择器一样简单,代表采集.subject a的href属性 **选择器**:要选择的元素选择器,如.subject a **属性**:任意html元素属性,如src、href、name、data-src等任意HTML标签属性名,支持通配符`*`匹配标签所有属性 **内容过滤器**:当标签名前面添加减号(-)时(此时标签可以为任意的jQuery选择器),表示移除该标签以及标签内容,1. 当标签名前面没有减号(-)时,当 \[要采集的属性\] 值为`text`时表示需要保留的HTML标签以及内容,为`html`时表示要过滤掉的HTML标签但保留内容。如-.subject a ![](https://img.kancloud.cn/2b/31/2b31dbeefed78df41370e60d7de0456d_813x327.jpg) 3.内容规则,上面的步骤方法一样,此处的采集字段对应栏目的字段 ![](https://img.kancloud.cn/94/92/9492d184fdc5f4130b36d06e6804663b_814x261.jpg) ![](https://img.kancloud.cn/2c/7b/2c7b7796ec0664ff0d0ae84afb5ee973_1077x751.jpg) 由于内容有时候会采集到【最后于2月前 [被admin编辑],原因:】,所有需要用内容过滤器,将此内容去掉 ![](https://img.kancloud.cn/17/bf/17bf465e9b6fb71db90cfa292fc9013b_819x256.jpg) 步骤三:内容发布 发布的时候,会有一个方案,需要新建方案,用来将采集的字段和内容字段对应,并且部分字段需要进行函数处理 多个函数使用|分割,列如:date="y-m-d",###|substr=0,3|md5|trim|strtotime 等更多 date函数传入两个参数,每个参数用逗号分割,这里第一个参数是`y-m-d`,第二个参数是前面要输出的`create_time`变量,因为该变量是第二个参数,因此需要用###标识变量位置 substr函数在第一个参数就是变量,不需要使用###标识 ![](https://img.kancloud.cn/e0/8c/e08c8bfeb7d59e3318a2a1ce1c091c29_840x715.jpg)