反爬领域常见概念 · Python爬虫

因为反爬虫暂时是个较新的领域，因此有些定义要自己下: * 爬虫：使用任何技术手段，批量获取网站信息的一种方式。关键在于<mark>批量</mark>。 * 反爬虫：使用任何技术手段，阻止别人批量获取自己网站信息的一种方式。关键也在于<mark>批量</mark>。 * 误伤：在反爬虫的过程中，错误的将普通用户识别为爬虫。误伤率高的反爬虫策略，效果再好也不能用。 * 拦截：成功地阻止爬虫访问。这里会有拦截率的概念。通常来说，拦截率越高的反爬虫策略，误伤的可能性就越高。因此需要做个权衡。 * 资源：机器成本与人力成本的总和。这里要切记，人力成本也是资源，而且比机器更重要。因为，根据摩尔定律，机器越来越便宜。而根据IT行业的发展趋势，程序员工资越来越贵。因此，通常服务器反爬就是让爬虫工程师加班才是王道，机器成本并不是特别值钱。