服务端HTTP响应 · Python爬虫

HTTP响应也由四个部分组成，分别是：状态⾏、消息报头、空⾏、响应正⽂。 ``` HTTP/1.1 200 OK Bdpagetype: 1 Bdqid: 0xdbeb11ea000cfef4 Cache-Control: private Connection: keep-alive Content-Encoding: gzip Content-Type: text/html Cxy_all: baidu+642857607c537ed21fa04bcfb54ff6ee Date: Thu, 02 Jan 2020 06:32:55 GMT Expires: Thu, 02 Jan 2020 06:32:51 GMT Server: BWS/1.1 Set-Cookie: delPer=0; path=/; domain=.baidu.com Set-Cookie: BDSVRTM=6; path=/ Set-Cookie: BD_HOME=0; path=/ Set-Cookie: H_PS_PSSID=1448_21096_30210_30283_30504; path=/; domain=.ba Strict-Transport-Security: max-age=172800 Traceid: 1577946775028760116215846779410554093300 Vary: Accept-Encoding X-Ua-Compatible: IE=Edge,chrome=1 Transfer-Encoding: chunked ``` **常⽤的响应报头(了解)：** **1. Cache-Control：must-revalidate, no-cache, private** 这个值告诉客户端，服务端不希望客户端缓存资源，在下次请求资源时，必须要从新请求服务器，不能从缓存副本中获取资源。 **2. Connection：keep-alive** 这个字段作为回应客户端的`Connection：keep-alive`，告诉客户端服务器的 tcp连接也是⼀个⻓连接，客户端可以继续使⽤这个tcp连接发送http请求。 **3. Content-Encoding:gzip** 告诉客户端，服务端发送的资源是采⽤gzip编码的，客户端看到这个信息后，应该采⽤gzip对资源进⾏解码。 **4. Content-Type：text/html;charset=UTF-8** 告诉客户端，资源⽂件的类型，还有字符编码，客户端通过utf-8对资源进⾏解码，然后对资源进⾏html解析。通常我们会看到有些⽹站是乱码的，往往就是服务器端没有返回正确的编码。 **5. Date: Thu, 02 Jan 2020 06:32:55 GMT** 这个是服务端发送资源时的服务器时间，GMT是格林尼治所在地的标准时间。 http协议中发送的时间都是GMT的，这主要是解决在互联⽹上，不同时区在相互请求资源的时候，时间混乱问题。 **响应状态码:** 响应状态代码有三位数字组成，第⼀个数字定义了响应的类别，且有五种可能取值。 常⻅状态码： * `100~199`：表示服务器成功接收部分请求，要求客户端继续提交其余请求才能完成整个处理过程。 * `200~299`：表示服务器成功接收请求并已完成整个处理过程。常⽤ 200（OK 请求成功）。 * `300~399`：为完成请求，客户需进⼀步细化请求。例如：请求的资源已经移动⼀个新地址、常⽤302（所请求的⻚⾯已经临时转移⾄新的url）、 307和304（使⽤缓存资源）。 * `400~499`：客户端的请求有错误，常⽤404（服务器⽆法找到被请求的⻚⾯）、403（服务器拒绝访问，权限不够）。 * `500~599`：服务器端出现错误，常⽤500（请求未完成。服务器遇到不可预知的情况）。