客户端HTTP请求 · Python爬虫

URL只是标识资源的位置，⽽HTTP是⽤来提交和获取资源。客户端发送⼀个 HTTP请求到服务器的请求消息，包括以下格式：请求⾏、请求头部、空⾏、请求数据四个部分组成，下图给出了请求报⽂的⼀般格式。 :-: ![](https://img.kancloud.cn/52/1c/521c2d862e5c0c3ce636d64eabb57c53_698x238.png) **⼀个典型的HTTP请求示例** ``` GET / HTTP/1.1 Host: www.baidu.com Connection: keep-alive Cache-Control: max-age=0 Upgrade-Insecure-Requests: 1 User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.3 Sec-Fetch-Mode: navigate Sec-Fetch-User: ?1 Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/web Sec-Fetch-Site: same-origin Referer: https://www.baidu.com/s?ie=utf-8&f=8&rsv_bp=1&rsv_idx=1&tn=bai Accept-Encoding: gzip, deflate, br Accept-Language: zh-CN,zh;q=0.9 Cookie: BIDUPSID=4049831E3DB8DE890DFFCA6103FF02C1; ``` **请求⽅法** 根据HTTP标准，HTTP请求可以使⽤多种请求⽅法。 HTTP 0.9：只有基本的⽂本 GET 功能。 HTTP 1.0：完善的请求/响应模型，并将协议补充完整，定义了三种请求⽅法： GET, POST 和 HEAD⽅法。 HTTP 1.1：在 1.0 基础上进⾏更新，新增了五种请求⽅法：OPTIONS, PUT, DELETE, TRACE 和 CONNECT ⽅法。 HTTP 2.0（未普及）：请求/响应⾸部的定义基本没有改变，只是所有⾸部键必须全部⼩写，⽽且请求⾏要独⽴为 :method、:scheme、:host、:path这些键值对。 :-: **HTTP请求方法类型** | 序号 | ⽅法 | 描述 | | --- | --- | --- | | 1 | GET | 请求指定的⻚⾯信息，并返回实体主体。 | | 2 | HEAD | 类似于get请求，只不过返回的响应中没有具体的内容，⽤于获取报头 | | 3 | POST | 向指定资源提交数据进⾏处理请求（例如提交表单或者上传⽂件），数据被包含在请求体中。 POST请求可能会导致新的资源的建⽴和/或已有资源的修改。 | | 4 | PUT | 从客户端向服务器传送的数据取代指定的⽂档的内容。 | | 5 | DELETE | 请求服务器删除指定的⻚⾯。 | | 6 | CONNECT | HTTP/1.1协议中预留给能够将连接改为管道⽅式的代理服务器。 | | 7 | OPTIONS | 允许客户端查看服务器的性能。 | | 8 | TRACE | 回显服务器收到的请求，主要⽤于测试或诊断。 | **HTTP请求主要分为Get和Post两种⽅法** * GET是从服务器上获取数据，POST是向服务器传送数据 * GET请求参数显示，都显示在浏览器⽹址上，HTTP服务器根据该请求所包含URL中的参数来产⽣响应内容，即Get请求的参数是URL的⼀部分。例如： http://www.baidu.com/s?wd=Chinese * POST请求参数在请求体当中，消息⻓度没有限制⽽且以隐式的⽅式进⾏发送，通常⽤来向HTTP服务器提交量⽐较⼤的数据（⽐如请求中包含许多参数或者⽂件上传操作等），请求的参数包含在“Content-Type”消息头⾥，指明该消息体的媒体类型和编码 **常⽤的请求报头:** **1. Host (主机和端⼝号)** Host：对应⽹址URL中的Web名称和端⼝号，⽤于指定被请求资源的Internet 主机和端⼝号，通常属于URL的⼀部分。 **2. Connection (链接类型)** Connection：表示客户端与服务连接类型（1）Client 发起⼀个包含 Connection:keep-alive 的请求，HTTP/1.1使⽤ keep-alive 为默认值。（2）Server收到请求后： * 如果 Server ⽀持 keep-alive，回复⼀个包含 Connection:keep- alive 的响应，不关闭连接； * 如果 Server 不⽀持 keep-alive，回复⼀个包含 Connection:close 的响应，关闭连接。（3）如果client收到包含 Connection:keep-alive 的响应，向同⼀个连接发送下⼀个请求，直到⼀⽅主动关闭连接。 **3. Upgrade-Insecure-Requests (升级为HTTPS请求)** Upgrade-Insecure-Requests：升级不安全的请求，意思是会在加载 http 资源时⾃动替换成 https 请求，让浏览器不再显示https⻚⾯中的http请求警报。 **4. User-Agent (浏览器名称)** User-Agent：是客户浏览器的名称 **5. Accept (传输⽂件类型)** Accept：指浏览器或其他客户端可以接受的MIME（Multipurpose Internet Mail Extensions（多⽤途互联⽹邮件扩展））⽂件类型，服务器可以根据它判断并返回适当的⽂件格式。 `Accept: */* `：表示什么都可以接收。 `Accept：image/gif` ：表明客户端希望接受GIF图像格式的资源； `Accept：text/html` ：表明客户端希望接受html⽂本。 `Accept: text/html, application/xhtml+xml;q=0.9, image/*;q=0.8` ：表示浏览器⽀持的 MIME 类型分别是 html⽂本、xhtml和 xml⽂档、所有的图像格式资源。 **6. Referer (⻚⾯跳转处)** Referer：表明产⽣请求的⽹⻚来⾃于哪个URL，⽤户是从该 Referer⻚⾯访问到当前请求的⻚⾯。这个属性可以⽤来跟踪Web请求来⾃哪个⻚⾯，是从什么⽹站来的等。 **7. Accept-Encoding（⽂件编解码格式）** Accept-Encoding：指出浏览器可以接受的编码⽅式。编码⽅式不同于⽂件格式，它是为了压缩⽂件并加速⽂件传递速度。浏览器在接收到Web响应之后先解码，然后再检查⽂件格式，许多情形下这可以减少⼤量的下载时间。 **8. Accept-Language（语⾔种类）** Accept-Langeuage：指出浏览器可以接受的语⾔种类，如en或en-us指英语，zh或者zh-cn指中⽂，当服务器能够提供⼀种以上的语⾔版本时要⽤到。 **9. Accept-Charset（字符编码）** Accept-Charset：指出浏览器可以接受的字符编码。 **10. Cookie （Cookie）** Cookie：浏览器⽤这个属性向服务器发送Cookie。Cookie是在浏览器中寄存的⼩型数据体，它可以记载和服务器相关的⽤户信息。 **11. Content-Type (POST数据类型)** Content-Type：POST请求⾥⽤来表示的内容类型。