Selector选择器 · Python爬虫

Selector选择器有如下4个基本方法，为了使用方便，可以让 `response.方法名` 直接调用： ```python xpath(query): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表。调用：response.xpath(query) css(query): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表. 调用：response.css(query) extract(): 序列化该节点为unicode字符串并返回list。调用：response.extract() re(regex): 根据传入的正则表达式对数据进行提取，返回unicode字符串list列表。调用：response.re(regex) ``` ```python #books.py import scrapy class BooksSpider(scrapy.Spider): name = 'books' # 爬虫名称 allowed_domains = ['book.jd.com'] # 爬取范围 start_urls = ['http://book.jd.com/'] # 爬虫的入口url def parse(self, response): title_selector = response.xpath('//title/text()') print(type(title_selector)) # <class 'scrapy.selector.unified.SelectorList'> title_list = title_selector.extract() # 返回列表 title = title_selector.extract_first() # 返回第一个元素 print(title_list) # ['京东图书_图书_畅销书_电子书_文娱_教育培训_低价书-京东'] print(title) # 京东图书_图书_畅销书_电子书_文娱_教育培训_低价书-京东 pass ```