企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
## scarapy简单下载图片 - 获取连接 >file_urls = response.xpath('//*[@id="deals"]/dl/dd[1]/dl/dd[2]/dl/dd[1]/a/div/div[1]/@data-src').extract() - 拼接链接丢给管道 >item['image_urls'] = ["http:" + url] > yield item - 定义管道 >image_urls = scrapy.Field() - settings.py ``` #scrapy自带ImagesPipeline ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline': 300 } IMAGES_URLS_FIELD = 'image_urls' #图片itme字段 IMAGES_STORE = 'images' #存储图片的文件夹位置 ``` `如果爬虫出现Forbidden by robots.txt` 关闭scrapy自带的ROBOTSTXT_OBEY功能,在setting找到这个变量,设置为False即可解决