collection for ban of web · TUNA-daily

[TOC] ## 1. 网站如何识别爬虫？ ### 1.1 方法1：http日志和流量分析，如果单位时间内某个IP访问频率和流量超过特定阈值就可以界定为爬虫。 ### 1.2 方法2：Headers参数检测 Scrapy学习笔记(6)-反爬虫与反反爬虫策略 ![](https://box.kancloud.cn/bd2a79e388182bfd22b8b18d9b3d1efe_651x279.png) 上图是浏览器正常访问站点时发送的数据包，可以看到Request Headers里面有一堆参数，目标站点可以检测User-Agent或者Referer参数的值来判断是否为爬虫，顺便提一下Referer参数也可以防盗链。 ### 1.3 方法3：在网页源码内放置一个对浏览器不可见的链接，正常用户使用浏览器是看不到该链接的当然也不会去点击，如果检测到该链接被点击，来访IP就会被界定为爬虫。讲完了爬虫识别方法，下面开始讲反爬虫策略 1.临时或永久封禁来访ip 2.返回验证码 3.异步加载(ajax) 4.爬虫陷阱 ## 2. 爬取流程爬取策略、抓取字段、动态网页抓取方法、分布式结构、系统监测和数据存储 ![](https://box.kancloud.cn/59551feefdc207e85a34e1f08d0c74ef_1089x654.png) 误伤：反爬虫技术将普通用户识别为爬虫，这种情况多出现在封ip中，例如学校网络、小区网络再或者网络网络都是共享一个公共ip，这个时候如果是封ip就会导致很多正常访问的用户也无法获取到数据。所以相对来说封ip的策略不是特别好，通常都是禁止某ip一段时间访问。