spider · python

~~~ # -*- coding: utf-8 -*- import scrapy # 导入模型item from scrapy_demo.items import ScrapyDemoItem class ItcastSpider(scrapy.Spider): # 一个scrapy项目可以有多个爬虫，name是其唯一标识，同一项目不能有同名的爬虫 name = 'itcast' allowed_domains = ['itcast.cn'] # 爬虫的起始爬虫点 start_urls = ['http://www.itcast.cn/channel/teacher.shtml'] # 一个页面下载完，scrapy引擎会回调一个我们指定的页面解析函数（默认parse） # 解析函数通常完成两个任务： # 提取页面中的数据（使用xpath或css选择器） # 提取页面中的链接，并产生对链接页面的下载请求 # 页面解析函数通常被实现成一个生成器函数，每一项从页面中提取的数据以及每一个对链接页面的下载请求都🈶️yield语句提交给scrapy引擎 def parse(self, response): node_list = response.xpath('//div[@class="li_txt"]') for node in node_list: name = node.xpath('./h3/text()').extract()[0] title = node.xpath('./h4/text()').extract()[0] desc = node.xpath('./p/text()').extract()[0] item = ScrapyDemoItem() item['name'] = name item['title'] = title item['desc'] = desc yield item ~~~