采集规则在采集节点中导入即可,导入时,请选择对应的栏目(以各规则为准)
为确保稳定,**采集点标识不要用中文**,最好是只用英文字母即可。如“mianhuatang”、“biqugetw”否则出现采集相关的错误,自行解决采集规则导入以后,需要手动编辑,指定一下栏目对应情况
单栏目匹配、多栏目匹配的说明:
单栏目匹配:
此类采集主要是排行榜性质,小说都在一个列表中,需要进入小说页面才能识别分类。此类内容初步采集完,会放到默认分类,待有访问时会根据采集到的信息重新调整所属栏目。
多栏目匹配:
此类主要是采集全站多个栏目列表,每次采集时随机采集一个栏目,此类采集完列表以后,内容就会分配到采集规则中对应的栏目。这类采集适合大多数网站
采集规则源站选取:
1.必须存在栏目页以及分页,或者最新更新/排行榜等页面并存在分页。如不存在分页则不宜作为目标站,采集不到几条数据
2.列表页中最好包含缩略图、作者等信息,这样在采集列表时直接就能采集比较完整的小说信息,不用等到小说页面再采集。推荐,但非必须
3.章节列表页最好和小说信息在一个页面,比如大多数笔趣阁模板。这样可以在采集小说简介等内容的同时采集到章节列表,从长远来看,对网站速度是有好处的。推荐,但非必须
4.列表页初步采集到的文章信息中,缩略图是不会进行存储的,这是为了采集的效率考虑。在小说信息页面被人或蜘蛛访问时,才会进行存储,所以可能出现在部分列表中图片网址是站外的情况
采集规则编写教程,暂无,待完善。懂jquey的用户应该会看得懂规则的写法
现有采集功能已经比较完善,有能力的站长可以自己尝试编写采集规则。如果您有非常好的源站适合采集,可以推荐给作者,作者会编写相关规则并分享给所有商业用户。