ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
~~~ # -*- coding: utf-8 -*- import scrapy # 导入模型item from scrapy_demo.items import ScrapyDemoItem class ItcastSpider(scrapy.Spider): # 一个scrapy项目可以有多个爬虫,name是其唯一标识,同一项目不能有同名的爬虫 name = 'itcast' allowed_domains = ['itcast.cn'] # 爬虫的起始爬虫点 start_urls = ['http://www.itcast.cn/channel/teacher.shtml'] # 一个页面下载完,scrapy引擎会回调一个我们指定的页面解析函数(默认parse) # 解析函数通常完成两个任务: # 提取页面中的数据(使用xpath或css选择器) # 提取页面中的链接,并产生对链接页面的下载请求 # 页面解析函数通常被实现成一个生成器函数,每一项从页面中提取的数据以及每一个对链接页面的下载请求都🈶️yield语句提交给scrapy引擎 def parse(self, response): node_list = response.xpath('//div[@class="li_txt"]') for node in node_list: name = node.xpath('./h3/text()').extract()[0] title = node.xpath('./h4/text()').extract()[0] desc = node.xpath('./p/text()').extract()[0] item = ScrapyDemoItem() item['name'] = name item['title'] = title item['desc'] = desc yield item ~~~