内置Pipeline · Python爬虫

使用scrapy内置方法下载文件的好处： 1. 避免重新下载最近已经下载过的数据； 2. 可以方便的指定文件存储的路径； 3. 可以将下载的图片转换成通用的格式。如: png、jpg； 4. 可以方便的生成缩略图； 5. 可以方便的检测图片的宽和高，确保他们满足最小限制； 6. 异步下载，效率非常高； scrapy提供了`FilesPipeline`和`ImagesPipeline`两种Pipeline来帮助我们自动将图片存储到我们的电脑上，可以认为它们就是下载器，这两种方式没有太大的区别，并且它们是可以同时使用的。 <br/> 两种Pipeline的使用步骤如下： **1. 在`items.py`中定义`image_urls`和`images`字段** ```python """ @Date 2021/4/9 """ import scrapy class CareerstencentItem(scrapy.Item): # 使用ImagesPipeline则定义image_urls和images image_urls = scrapy.Field() images = scrapy.Field() # FilesPipeline则定义file_urls和files # file_urls = scrapy.Field() # files = scrapy.Field() pass ``` <br/> **2. 在`settings.py`中配置文件相关属性** ```python ############## 必须指定的配置 ################## # 指定Pipeline类型 ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 1 #'scrapy.pipeline.files.FilesPipeline': 1 } # 下载文件到你的电脑上的存储路径 # 如果你的存储的路径为F:/images/，scrapy则会将文件自动保存到 F:/images/full 目录 # 存储到你的电脑上的图片重命名为图片url路径的hash值， # 如图片的路径为http://www.example.com/image.jpg，则存储到你的电脑的图片命令为3afec3b4765f8f0a07b78f98c07b83f013567a0a.jpg IMAGES_STORE = "F:/images/" # FILES_STORE = "F:/images/" ############## 可选的配置 ################## # 说明90天或30天内不会下载同一张图片，可避免重复下载 # FILES_EXPIRES = 90 IMAGES_EXPIRES = 30 # 生成缩略图 # 如果设置的大小大于原始图片的大小，则默认为原始图片大小 # 如果小于原始图片则采用你定义的大小 # 保存的路径有如下三个路径 # F:/images/full/63bbfea82b8880ed33cdb762aa11fab722a90a24.jpg 原始大小 # F:/images/thumbs/small/63bbfea82b8880ed33cdb762aa11fab722a90a24.jpg # F:/images/thumbs/big/63bbfea82b8880ed33cdb762aa11fab722a90a24.jpg IMAGES_THUMBS = { 'small': (50, 50), 'big': (270, 270), } # 过滤height<110并且width<110的图片，但是不影响缩略图的生成 IMAGES_MIN_HEIGHT = 110 IMAGES_MIN_WIDTH = 110 ``` <br/> **3. 在你的爬虫代码中返回文件的资源路径** ```python import scrapy from CareersTencent.items import CareerstencentItem class PicturesSpider(scrapy.Spider): name = 'pictures' allowed_domains = ['www.wxapp-union.com'] start_urls = ['http://www.wxapp-union.com/'] def parse(self, response): item = CareerstencentItem() img_src_list = response.xpath("//div[@id='diy_con1']//ul[@id='itemContainer']//img/@src").extract() for src in img_src_list: # https://www.wxapp-union.com/./data/attachment/block/db/db034088ff685c241b1f7586886869c3.jpg item["image_urls"] = ["https://www.wxapp-union.com/" + src] yield item pass ```