爬虫思路 · 人手一本php工具书

- 首先我们要知道，页面数据内容有两种方式（待爬数据只有2种）： - 直接渲染出来的（基于mvc模板赋值到模板页面的） - 通过接口获取然后JS渲染出来（接口返回的） - 然后你要找数据的话： - 就看直接访问的地址，能不能拿到你想要的，那些内容的文本（基于mvc模板赋值到模板页面的） - 如果不能直接拿到，就看看是通过哪些接口获取到的。找到该接口，从接口直接拿数据 - 接下来 - 如果是直接渲染的可以通过xpath或csspath等第3方列库来分离数据和标签 - 如果不是直接渲染的话，JS 生成的链接你就要自己去根据他，需要拼凑的参数，拼凑好链接（带上cookie）进行下一步的访问 >[warning]1、如果你多次取不到值了，就应该去手工换一下cookie了 2、如果是接口的话，注意请求的url每天都要变，因为url上带的参数都会变，不修改的话，爬不下来的（可以这样将url入库，爬的时候查出来，拼好参数，在丢给curl） 3、还有就是，不知道微信的限速问题，不是时效性高的话就10秒左右爬一轮就行了最重要的是，有些东西，不是非要先模拟登录才能爬到。在web上登陆自己的账号之后，直接找个接口在浏览器跑一下试试（如果有数据返回，那就证明只要带cookie和请求需要带的参数就可以了）就不用模拟扫码了