ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
[TOC] ## 1. 网站如何识别爬虫? ### 1.1 方法1:http日志和流量分析,如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。 ### 1.2 方法2:Headers参数检测 Scrapy学习笔记(6)-反爬虫与反反爬虫策略 ![](https://box.kancloud.cn/bd2a79e388182bfd22b8b18d9b3d1efe_651x279.png) 上图是浏览器正常访问站点时发送的数据包,可以看到Request Headers里面有一堆参数,目标站点可以检测User-Agent或者Referer参数的值来判断是否为爬虫,顺便提一下Referer参数也可以防盗链。 ### 1.3 方法3:在网页源码内放置一个对浏览器不可见的链接,正常用户使用浏览器是看不到该链接的当然也不会去点击,如果检测到该链接被点击,来访IP就会被界定为爬虫。 讲完了爬虫识别方法,下面开始讲反爬虫策略 1.临时或永久封禁来访ip 2.返回验证码 3.异步加载(ajax) 4.爬虫陷阱 ## 2. 爬取流程 爬取策略、抓取字段、动态网页抓取方法、分布式结构、系统监测和数据存储 ![](https://box.kancloud.cn/59551feefdc207e85a34e1f08d0c74ef_1089x654.png) 误伤:反爬虫技术将普通用户识别为爬虫,这种情况多出现在封ip中,例如学校网络、小区网络再或者网络网络都是共享一个公共ip,这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好,通常都是禁止某ip一段时间访问。