15-Python爬虫之scrapy框架 · 学习笔记（php、python、linux...）

15-python爬虫之scrapy框架生成项目 scrapy startproject tutorial ``` tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py baike.py ... ``` 配置抓取 ``` #baike.py from scrapy.spider import BaseSpider class DmozSpider(BaseSpider): name = "dmoz" allowed_domains = ["dmoz.org"] start_urls = [ "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/", "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/" ] def parse(self, response): filename = response.url.split("/")[-2] open(filename, 'wb').write(response.body) ``` 过滤输出