ThinkChat2.0新版上线,更智能更精彩,支持会话、画图、阅读、搜索等,送10W Token,即刻开启你的AI之旅 广告
[TOC] ## 1.Scrapy框架 ![](https://img.kancloud.cn/06/d8/06d857c5c4c55673d2a093ee450e37d0_944x522.png) **ENGINE** 引擎,框架的核心,控制其他组件协同工作。 **SCHEDULER** 调度器,负责对SPIDER提交的下载请求进行调度 **DOWNLOADER** 下载器,负责下载页面 **SPIDER** 爬虫,负责提取页面中的数据,并产生新的请求 **MIDDLEWARE** 中间件,负责对Request对象和Response对象进行处理 **ITEM PIPELINE** 数据管道,负责对爬取到的数据进行处理 ## **2.安装** ``` pip install scrapy # 检查安装是否成功 scrapy ``` ## **3.基本使用** ### **3.1.创建项目** ``` scrapy startproject example ``` 目录结构: ![](https://img.kancloud.cn/4f/0e/4f0efb9f5529cec7e4451114b0108e97_235x187.png) ### **3.2.实现爬虫** 在`spiders`目录下创建文件如`boos_spider.py`。 ![](https://img.kancloud.cn/cd/1e/cd1eefc3162467d543091dc9c7c2098a_823x735.png) * name:一个项目中有多个爬虫,name属性是唯一标识; * start_urls:爬虫的起始页面; * parse:当一个页面下载完成后,Scrapy会回调一个指定的解析函数来解析页面, 通常完成两个任务:提取数据和提取链接。 ### **3.3.运行爬虫** ``` scrapy crawl books -o books.csv ``` ## **4.编写Spider**