企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
# 书籍列表 ![](https://box.kancloud.cn/6f03272bc59e736e13b50fef6c306bd5_1811x411.png) 点击新增 ![](https://box.kancloud.cn/9f02fa16856edf451e4721cdb8744902_1617x784.png) # 章节管理 ![](https://box.kancloud.cn/d5dd934a5291904e204b688a1fa7ef22_1613x742.png) ## 手动新增 ![](https://box.kancloud.cn/68604f8dd8bead69e551977438fae73e_1601x690.png) ## 采集录入 ### 流程 1. 找到目标小说网站(无需登录的那种) 2. 找到对应小说网站的书籍章节列表页 3. 通过浏览器调试工具(chrome的审查工具)找到对应列表链接的xpath路径,调整后预览能否获取到章节列表 4. 点击任意一章节链接到详情还是通过调试工具,找到正文部分的xpath,预览获取。 5. 新建采集队列 ![填写规则](https://box.kancloud.cn/46688d1c47815afdfebb1305ea2da4ff_978x579.png) ![预览列表](https://box.kancloud.cn/4ef77e7dab334c0224df998a901751fa_1510x785.png) ![预览正文](https://box.kancloud.cn/996c5a06bbb033fc82d7a958278707c2_1623x669.png) ### 前提 装好think-queue 后 配置好队列配置 application/extra/queue.php ``` return [ // 'connector' => 'Sync', // 'connector' => 'Database', // 'expire' => 60, // 'default' => 'default', // 'table' => 'jobs', // 'dsn' => [], 'connector' => 'redis', 'expire' => 60, 'default' => 'default', 'host' => '127.0.0.1', // 'host' => '116.62.11.197', 'port' => 6379, 'password' => '', 'select' => 0, 'timeout' => 0, 'persistent' => false, ]; ``` 上面注释的是mysql、下面的是redis配置 php think queue:listen --queue collect --timeout 3600 ### 规则的获取 ![](https://box.kancloud.cn/46688d1c47815afdfebb1305ea2da4ff_978x579.png) 链接选择器 ![](https://box.kancloud.cn/73322855b428a5e309c3c619080ceb3b_1546x983.png) ![右键选择copy xpath](https://box.kancloud.cn/484cf9241f1fecdca7957e76a9d0467c_608x338.png) //*[@id="chapter_1031328"]/a 这样子的不通用,参考 [xpath语法](http://www.w3school.com.cn/xpath/xpath_syntax.asp) 改为通用的。 正文的xpath 也可以这么获取 ### 采集 点击采集后, 看日志 出现时间 说明采集结束了 ![](https://box.kancloud.cn/373ca1d567d9ec06e303cff75d5200e1_560x900.png) 多次采集就会多加N 行时间日志 > 采集的目录里同样url的章节只采集一次!!